KR101621718B1 - Method of harmonic percussive source separation using harmonicity and sparsity constraints - Google Patents

Method of harmonic percussive source separation using harmonicity and sparsity constraints Download PDF

Info

Publication number
KR101621718B1
KR101621718B1 KR1020140182749A KR20140182749A KR101621718B1 KR 101621718 B1 KR101621718 B1 KR 101621718B1 KR 1020140182749 A KR1020140182749 A KR 1020140182749A KR 20140182749 A KR20140182749 A KR 20140182749A KR 101621718 B1 KR101621718 B1 KR 101621718B1
Authority
KR
South Korea
Prior art keywords
sound
basis
percussion
musical instrument
base
Prior art date
Application number
KR1020140182749A
Other languages
Korean (ko)
Inventor
박정수
이교구
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020140182749A priority Critical patent/KR101621718B1/en
Application granted granted Critical
Publication of KR101621718B1 publication Critical patent/KR101621718B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music

Abstract

The present invention relates to a method of separation between harmonic and percussive instrument sound by using harmonicity and sparsity constraints. More particularly, the method includes: (1) a step of transforming an audio signal into a spectrogram; (2) a step of analyzing the transformed spectrogram as the product of matrices that represent a time axis base and a frequency axis base by using a non-negative matrix factorization algorithm, wherein a base of the harmonic instrument sound is taught to have the harmonicity and the sparsity while a base of the percussive instrument sound is taught to have non-sparsity; and (3) a step of separating the base of the harmonic instrument sound and the base of the percussive instrument sound, from each other, which have been taught in step (2) and inversely transforming the bases into the audio signal. According to the method of separation between the harmonic and percussive instrument sound by using the harmonicity and sparsity constraints suggested by the present invention, a voice or variation can be successfully classified into the harmonic instrument sound because no temporal continuity with regard to the harmonic instrument sound is assumed by inversely transforming the base of the harmonic and percussive instrument sound into the audio signal, wherein the base of the harmonic instrument sound is taught to have the harmonicity and the sparsity and the base of the percussive instrument sound is taught to have the non-sparsity by using the non-negative matrix factorization algorithm.

Description

배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법{METHOD OF HARMONIC PERCUSSIVE SOURCE SEPARATION USING HARMONICITY AND SPARSITY CONSTRAINTS}BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for separating a sound of a percussion instrument from a sound of a percussion instrument,

본 발명은 화성악기와 타악기 소리의 분리 방법에 관한 것으로서, 보다 구체적으로는 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법에 관한 것이다.The present invention relates to a method for separating a Mars musical instrument and a percussion sound, and more particularly, to a method for separating a Mars musical instrument and a percussion sound using a harmonic structure and a bending structure constraint.

기술의 발달로 다양한 음원이 함께 녹음된 혼합 신호에서 특정 음원을 분리하는 방법이 개발되었다. 이와 같은 음원 분리 기술은, 멜로디 추출, 코드 추출, 온셋 검출, 템포 검출, 잡음 제거 등을 포함하는 Music Information Retrieval(MIR)의 다양한 분야에서 요구되고 있다.
With the development of the technology, a method of separating a specific sound source from a mixed signal recorded with various sound sources has been developed. Such sound source separation techniques are required in various fields of Music Information Retrieval (MIR) including melody extraction, code extraction, onset detection, tempo detection, and noise cancellation.

화성악기 소리와 타악기 소리를 분리하기 위하여 사용되는 종래의 기술들은 공통적으로 두 가지의 가정을 전제로 설계되었다. 화성악기 소리가 스펙트로그램 상에서 가로 방향으로 연속성이 나타나는 속성을 가지고 있다고 가정하였으며, 또한 타악기 소리는 스펙트로그램 상에서 세로 방향으로 연속성이 나타나는 속성을 가진다고 가정하였다. 이러한 가정은 고정된 음고에서 유지되는 화성악기 소리의 특성과, 전 대역에서 고르게 에너지가 분포하는 타악기 소리의 특성을 반영한다.
Conventional techniques used to separate Mars sound and percussion sound are commonly designed with two assumptions. It is assumed that the sound of Mars musical instrument has continuity in the horizontal direction on the spectrogram and the percussion sound is assumed to have continuity in the longitudinal direction on the spectrogram. This assumption reflects the characteristics of the sound of Mars musical instruments maintained at fixed pitches and the characteristics of percussive sounds distributed evenly over all bands.

대표적인 종래기술로, 입력 음원의 스펙트로그램을 화성악기 소리의 스펙트로그램과 타악기 소리의 스펙트로그램의 합으로 분리하는 알고리즘이 Ono에 의해서 제안되었다. Ono의 알고리즘에서는, 알고리즘이 반복(iteration)됨에 따라 화성악기 소리의 스펙트로그램의 가로방향 변화를 최소화시켜 연속성이 유지되도록 하였으며, 타악기 소리의 스펙트로그램은 반대로 세로방향의 변화를 최소화 시키도록 하였다.
As a representative conventional technique, an algorithm for separating the spectrogram of an input sound source into a sum of a spectrogram of a Mars instrument sound and a spectrogram of a percussion sound was proposed by Ono. In Ono 's algorithm, as the algorithm iterates, the continuity is maintained by minimizing the lateral change of the spectrogram of Mars musical instrument sound, and the spectrogram of the percussion sound is inverted to minimize the change in the longitudinal direction.

또 다른 대표적인 종래기술로는 FitzGerald에 의하여 제안된 알고리즘이 존재한다. FitzGerald의 알고리즘 또한 가로/세로 방향으로의 연속성을 강조하였는데, 이에 대한 구체적인 구현방법으로는 반복 알고리즘 대신 메디안 필터(median filter)를 사용하였다. 해당 알고리즘에 따르면 입력 음원의 스펙트로그램에 가로방향으로 메디안 필터(median filter)를 적용했을 때의 결과물을 화성악기 소리의 스펙트로그램으로 간주할 수 있으며, 세로방향으로 메디안 필터를 적용했을 때의 결과물을 타악기 소리의 스펙트로그램으로 간주할 수 있다.
Another typical prior art is the algorithm proposed by FitzGerald. FitzGerald 's algorithm also emphasized continuity in the horizontal / vertical direction. As a concrete implementation method, a median filter was used instead of an iterative algorithm. According to the algorithm, the result obtained by applying a median filter in the horizontal direction to the spectrogram of the input sound source can be regarded as a spectrogram of the sound of a harmonic instrument, and the result obtained when the median filter is applied in the vertical direction It can be regarded as a spectrogram of percussion sounds.

그러나 이러한 종래기술들이 기반을 두고 있는 화성악기 소리와 타악기 소리에 대한 가정은 휴리스틱(heuristic)하게 관찰된 결과에 뿌리를 두고 있으며, 그 가정과 맞지 않는 반례가 존재한다. 대표적인 반례로는 사람의 목소리를 들 수 있다. 사람의 목소리는 기본적으로 화성악기 소리로 분류될 수 있으나, 이를 스펙트로그램에서 관찰하였을 경우 시간 축으로 일정한 에너지가 유지되는 연속성이 나타나지 않고 발음과 자연 비브라토(natural vibrato) 등의 영향으로 인해 기본 진동수가 연속적으로 변화한다. 또 다른 반례로는 화성악기 소리가 변주(비브라토, 글리산도 등)를 포함하는 경우를 생각할 수 있다. 따라서 상기 종래기술들로는 목소리와 변주를 완벽하게 화성악기 소리로 분리해낼 수 없으며, 이러한 목소리와 변주 등이 타악기 소리에 섞여 들어가게 되어 성능 저하가 일어나게 된다.
However, assumptions about the sound of Mars musical instruments and percussion sounds based on these conventional techniques are rooted in heuristic observed results, and there are counterexamples that do not correspond to the assumptions. A typical example is the voice of a person. The human voice can be basically classified as the sound of a musical instrument, but when observed in the spectrogram, the continuity in which a constant energy is maintained on the time axis does not appear, and the fundamental frequency is reduced due to the influence of pronunciation and natural vibrato It changes continuously. As another example, a case in which the sound of a Mars musical instrument includes a variation (vibrato, glyphosity, etc.) can be considered. Therefore, in the above-mentioned conventional arts, the voice and the variation can not be completely separated by the sound of the Mars musical instrument, and the voice and the variation are mixed with the percussion sound and the performance deterioration occurs.

한편, 본 발명과 관련된 선행기술로서, 공개특허 제10-2011-0023688호(발명의 명칭: 음악 음원 분리 방법 및 장치, 공개일: 2011년 03월 08일) 공개특허 제10-2011-0029055호(발명의 명칭: 음원 데이터베이스를 사용하지 않는 음악 음원 분리 방법 및 장치, 공개일: 2011년 03월 22일) 등이 개시된 바 있다.As a prior art related to the present invention, Japanese Unexamined Patent Application Publication No. 10-2011-0023688 (entitled: METHOD AND APPARATUS FOR DISTRIBUTING MUSIC SOUND SOURCE, DISCLOSURE OF INVENTION PUBLISHED DATE: Mar. 08, 2011) Patent Document 10-2011-0029055 (Title of the Invention: Method and Apparatus for Separating Music Sound Source Without Using Sound Source Database, Published Date: March 22, 2011) and the like have been disclosed.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 비음수 행렬 분해 알고리즘을 이용해 화성악기 소리에 대한 기저가 배음 구조 및 성김 구조를 갖도록 학습하고, 타악기 소리에 대한 기저가 비성김 구조를 갖도록 학습하여, 화성악기와 타악기 소리에 대한 기저를 각각 오디오 신호로 역변환 함으로써, 화성악기 소리에 대한 시간적인 연속성을 가정하지 않으므로, 목소리나 변주도 화성악기 소리로 성공적으로 분류할 수 있는, 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법을 제공하는 것을 그 목적으로 한다.The present invention has been proposed in order to solve the above-mentioned problems of the previously proposed methods. The present invention learns a basis for a Mars musical instrument sound to have a harmonic structure and a bodyshell structure by using a non-sound number matrix decomposition algorithm, And the inverse transformation of the base of the musical instrument and the percussion instrument into the audio signal, respectively, so that the temporal continuity of the musical instrument sound is not assumed, so that the voice or the variation is successfully classified by the musical instrument sound And to provide a method for separating a Mars musical instrument and a percussion sound using a harmonic structure and a bending structure constraint.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법은,According to an aspect of the present invention, there is provided a method for separating a Mars musical instrument and a percussion sound using constraint conditions of a harmonic structure and a bending structure,

화성악기와 타악기 소리의 분리 방법으로서,As a method for separating a Mars musical instrument and a percussion sound,

(1) 오디오 신호를 스펙트로그램(spectrogram)으로 변환하는 단계;(1) converting an audio signal into a spectrogram;

(2) 비음수 행렬 분해 알고리즘을 이용하여, 상기 변환된 스펙트로그램을 시간 축 기저 및 주파수 축 기저를 나타내는 행렬들의 곱으로 분석하되, 화성악기 소리에 대한 기저가 배음 구조 및 성김 구조를 갖도록 학습하고, 타악기 소리에 대한 기저가 비성김 구조를 갖도록 학습하는 단계; 및(2) analyzing the converted spectrogram as a product of matrices representing a time axis basis and a frequency axis basis by using a non-sound number matrix decomposition algorithm, learning that the basis of a musical instrument sound has a harmonic structure and a bold structure , Learning the basis for the percussion sound to have a non-rhythmic structure; And

(3) 상기 단계 (2)에서 학습된 화성악기 소리에 대한 기저와 타악기 소리에 대한 기저를 각각 분리하여 오디오 신호로 역변환하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
(3) a step of separating the basis of the learned musical instrument sound and the basis of the percussion instrument sound learned in the step (2) and converting them into an audio signal, respectively.

바람직하게는, 상기 단계 (2)에서는,Preferably, in the step (2)

디리클레 제약조건(Dirichlet constraint)을 이용하여, 상기 배음 구조, 성김 구조 및 비성김 구조에 대한 제약 조건을 갖도록 학습을 유도할 수 있다.
Using the Dirichlet constraint, learning can be induced to have constraints on the above harmonic structure, bend structure, and non-bend structure.

바람직하게는, 상기 단계 (2)는,Preferably, the step (2)

(2-1) 시간 축 기저 및 주파수 축 기저를 초기화하는 단계;(2-1) initializing a time axis basis and a frequency axis basis;

(2-2) 시간 축 기저 및 주파수 축 기저를 학습하는 단계;(2-2) learning the basis of the time base and the frequency axis;

(2-3) 주파수 축 기저들 중에 화성악기 소리에 대한 기저를 대상으로 배음 구조 및 성김 구조를 갖도록 변환하는 단계; 및(2-3) transforming the frequency axis bases so as to have a harmonic structure and a bell sound structure for the base of the musical instrument sound; And

(2-4) 상기 주파수 축 기저들 중에 타악기 소리에 대한 기저를 대상으로 비성김 구조를 갖도록 변환하는 단계를 포함할 수 있다.
(2-4) Converting the frequency axis bases so as to have a non-steady structure for the basis of the percussion sound.

더욱 바람직하게는, 상기 단계 (2)에서는,More preferably, in the step (2)

상기 단계 (2-2) 내지 단계 (2-4)를 반복(iteration)하여, 상기 변환된 스펙트로그램을 시간 축 기저 및 주파수 축 기저를 나타내는 행렬들의 곱으로 분석할 수 있다.
It is possible to analyze the converted spectrogram as a product of matrices representing a time base basis and a frequency base basis by repeating the steps (2-2) to (2-4).

더욱 바람직하게는, 상기 단계 (2-3)은,More preferably, the step (2-3)

(2-3-1) 주파수 축 기저들 중에 화성악기 소리에 대한 기저를 대상으로 배음 구조를 갖도록 변환하고, 변환 결과를 원본 기저에 가중합 하여 상기 화성악기 소리에 대한 기저가 배음 구조를 갖도록 학습하는 단계; 및(2-3-1) During the frequency axis bases, the base of the musical instrument sound is converted to have a harmonic structure, and the result of conversion is weighted to the original basis so that the basis of the musical instrument sound has a harmonic structure ; And

(2-3-2) 주파수 축 기저들 중에 화성악기 소리에 대한 기저를 대상으로 성김 구조를 갖도록 변환하고, 변환 결과를 원본 기저에 가중합 하여 상기 화성악기 소리에 대한 기저가 성김 구조를 갖도록 학습하는 단계를 포함할 수 있다.
(2-3-2) During the frequency axis bases, the base of the musical instrument sound is transformed so as to have a bend structure, and the transformation result is weighted to the original base, so that the base of the musical instrument sound has a bend structure .

더더욱 바람직하게는, 상기 단계 (2-3-1)과 단계 (2-3-2) 사이에는,Even more preferably, between the step (2-3-1) and the step (2-3-2)

상기 단계 (2-3-1)을 거친 기저가 0보다 작으면 0으로 설정하는 단계를 더 포함할 수 있다.
If the basis through step (2-3-1) is less than 0, it may further include setting 0 to zero.

더욱 바람직하게는, 상기 단계 (2-4)는,More preferably, in the step (2-4)

주파수 축 기저들 중에 타악기 소리에 대한 기저를 대상으로 비성김 구조를 갖도록 변환하고, 변환 결과를 원본 기저에 가중합 하여 상기 타악기 소리에 대한 기저가 비성김 구조를 갖도록 학습할 수 있다.
The base of the percussive sound can be transformed to have a non-sinusoidal structure among the frequency axis bases, and the transformed result can be weighted to the original basis so that the base of the percussive sound has a non-sinusoidal structure.

바람직하게는, 상기 단계 (3)은,Preferably, the step (3)

(3-1) 상기 화성악기 소리에 대한 기저들과 타악기 소리에 대한 기저들을 이용해, 화성악기 소리와 타악기 소리에 대한 스펙트로그램을 각각 추정하는 단계; 및(3-1) estimating the spectrograms of the Mars musical instrument sound and the percussion instrument sound using the bases for the Mars sound and the bases for the percussion sound, respectively; And

(3-2) 상기 단계 (3-1)에서 추정한 스펙트로그램을 오디오 신호로 역변환하여, 화성악기 소리와 타악기 소리를 각각 추정하는 단계를 포함할 수 있다.(3-2) Inversely converting the spectrogram estimated in the step (3-1) into an audio signal, and estimating the sound of the Mars instrument and the sound of the percussion instrument, respectively.

본 발명에서 제안하고 있는 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법에 따르면, 비음수 행렬 분해 알고리즘을 이용해 화성악기 소리에 대한 기저가 배음 구조 및 성김 구조를 갖도록 학습하고, 타악기 소리에 대한 기저가 비성김 구조를 갖도록 학습하여, 화성악기와 타악기 소리에 대한 기저를 각각 오디오 신호로 역변환 함으로써, 화성악기 소리에 대한 시간적인 연속성을 가정하지 않으므로, 목소리나 변주도 화성악기 소리로 성공적으로 분류할 수 있다.According to the method of separating the musical instrument and the percussion sound using the harmonic structure and the bending structure constraint proposed in the present invention, the base of the musical instrument sound is learned to have the harmonic structure and the bending structure by using the non-sound- Since the basis for the percussion sound is learned to have a non-steaming structure and the basis for the Mars musical instrument and the percussion instrument is respectively converted back to the audio signal, since the temporal continuity of the musical instrument sound is not assumed, Can be successfully classified into.

도 1은 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법의 흐름을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법의 단계 S200에서, 단계 S230의 세부적인 흐름을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법에서, 단계 S300의 세부적인 흐름을 도시한 도면.
도 5는 실험 음원의 스펙트로그램을 도시한 도면.
도 6은 Ono의 알고리즘에 의해 분리된 화성악기와 타악기 소리의 스펙트로그램을 도시한 도면.
도 7은 FitzGerald의 알고리즘에 의해 분리된 화성악기와 타악기 소리의 스펙트로그램을 도시한 도면.
도 8은 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법을 이용해 분리된 화성악기와 타악기 소리의 스펙트로그램을 도시한 도면.
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a flowchart illustrating a method of separating a Mars musical instrument and a percussion instrument sound using a harmonic structure and a bending structure constraint according to an embodiment of the present invention. FIG.
2 is a detailed flowchart of step S200 in a method of separating a Mars musical instrument and a percussion instrument sound using a harmonic structure and a bending structure constraint according to an embodiment of the present invention.
3 is a detailed flowchart of step S230 in step S200 of a method for separating a Mars musical instrument and a percussion instrument sound using a harmonic structure and a bending structure constraint according to an embodiment of the present invention.
4 is a detailed flowchart of step S300 in a method for separating a Mars musical instrument and a percussion instrument sound using a harmonic structure and a bending structure constraint according to an embodiment of the present invention.
5 shows a spectrogram of an experimental sound source.
FIG. 6 is a view showing a spectrogram of a Mars musical instrument and a percussion sound separated by Ono's algorithm; FIG.
7 is a view showing a spectrogram of a Mars musical instrument and a percussion sound separated by FitzGerald's algorithm;
8 is a view showing a spectrogram of a Mars musical instrument and a percussion instrument separated using a method of separating a Mars musical instrument and a percussion instrument sound using a harmonic structure and a bending structure constraint according to an embodiment of the present invention.

이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings, in order that those skilled in the art can easily carry out the present invention. In the following detailed description of the preferred embodiments of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear. In the drawings, like reference numerals are used throughout the drawings.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
In addition, in the entire specification, when a part is referred to as being 'connected' to another part, it may be referred to as 'indirectly connected' not only with 'directly connected' . Also, to "include" an element means that it may include other elements, rather than excluding other elements, unless specifically stated otherwise.

도 1은 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법의 흐름을 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법은, 오디오 신호를 스펙트로그램으로 변환하는 단계(S100), 비음수 행렬 분해 알고리즘을 이용하여 화성악기 소리에 대한 기저가 배음 구조 및 성김 구조를 갖도록 학습하고, 타악기 소리에 대한 기저가 비성김 구조를 갖도록 학습하는 단계(S200) 및 오디오 신호로 역변환하는 단계(S300)를 포함하여 구현될 수 있다.
FIG. 1 is a flowchart illustrating a method of separating a Mars musical instrument and a percussion instrument sound using a harmonic structure and a bending structure constraint according to an embodiment of the present invention. Referring to FIG. As shown in FIG. 1, a method for separating a Mars musical instrument and a percussion instrument sound using a harmonic structure and a bending structure constraint according to an embodiment of the present invention includes converting an audio signal into a spectrogram (S100) A step S200 of learning the base of the musical instrument sound to have a harmonic structure and a bending structure using the matrix disassembly algorithm and a step S200 of learning the basis of the percussion sound to have a non- May be implemented.

즉, 본 발명은, 오디오 신호를 스펙트로그램으로 변환하여 비음수 행렬 분해(Non-negative Matrix Factorization; NMF) 알고리즘을 이용해 분석하면서, 특정 기저들이 배음 구조 및 성김 구조와 같은 성질을 갖도록 학습을 유도함으로써, 화성악기 소리에 대한 기저는 배음 구조 및 성김 구조를 갖도록 하고, 타악기 소리에 대한 기저는 비성김 구조를 갖도록 하여, 화성악기와 타악기 소리를 효과적으로 분리할 수 있다.
That is, according to the present invention, an audio signal is converted into a spectrogram and analyzed using a non-negative matrix factorization (NMF) algorithm to induce learning such that specific bases have characteristics such as a harmonic structure and a bending structure , The base for the sound of the Mars musical instrument has the harmonic structure and the bending structure, and the basis for the percussion sound has the non-bounce structure, thereby effectively separating the harmonic musical instrument and the percussion musical sound.

이하에서는, 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법의 각 흐름에 대하여 상세히 설명하도록 한다.
Hereinafter, each flow of a method for separating a Mars musical instrument and a percussion sound using the harmonic structure and the bending structure constraint according to an embodiment of the present invention will be described in detail.

단계 S100에서는, 오디오 신호를 스펙트로그램(spectrogram)으로 변환할 수 있다. 즉, 단계 S100에서는, 입력된 오디오 신호를 일정 프레임 간격으로 분할하고, 고속 푸리에 변환(Fast Fourier Transform; FFT) 등을 이용해 분할된 오디오 신호를 주파수 축으로 변환함으로써, 스펙트로그램을 구할 수 있다. 이와 같이 주파수 축으로 변환된 스펙트로그램을 이용함으로써, 2차원 평면상에서 음악의 시간적인 정보 뿐 아니라 주파수적인 특성까지 동시에 고려할 수 있으며, 인간의 청각적인 특성을 반영할 수 있다. 일반적으로 가로축은 시간 축으로, 세로축은 주파수 축으로 가정한다.
In step S100, the audio signal can be converted into a spectrogram. That is, in step S100, the spectrogram can be obtained by dividing the input audio signal by a predetermined frame interval and converting the divided audio signal into a frequency axis by using Fast Fourier Transform (FFT) or the like. By using the spectrogram converted to the frequency axis in this manner, not only the temporal information of the music but also the frequency characteristic can be simultaneously considered on the two-dimensional plane, and the human auditory characteristics can be reflected. In general, the horizontal axis is assumed to be the time axis and the vertical axis is assumed to be the frequency axis.

단계 S200에서는, 비음수 행렬 분해 알고리즘을 이용하여, 변환된 스펙트로그램을 시간 축 기저 및 주파수 축 기저를 나타내는 행렬들의 곱으로 분석하되, 화성악기 소리에 대한 기저가 배음 구조 및 성김 구조를 갖도록 학습하고, 타악기 소리에 대한 기저가 비성김 구조를 갖도록 학습할 수 있다. 실시예에 따라서는, 행렬 분해 알고리즘으로 비음수 행렬 분해 알고리즘 외에, 확률적 은닉 성분 분석(Probabilistic Latent Component Analysis; PLCA) 알고리즘을 사용할 수도 있다.
In step S200, the transformed spectrogram is analyzed as a product of matrices representing a time axis basis and a frequency axis basis by using a non-sound number matrix decomposition algorithm. The basis for the musical instrument sound is learned so as to have a harmonic structure and a bending structure , And the basis for the percussion sound can be learned to have a non-steaming structure. In some embodiments, a probabilistic latent component analysis (PLCA) algorithm may be used in addition to the non-numeric matrix decomposition algorithm by a matrix decomposition algorithm.

비음수 행렬 분해 알고리즘은 스펙트로그램을 주파수 축 기저 및 시간 축 기저를 나타내는 행렬들의 곱으로 표현하는 것을 목표로 한다. 해당 알고리즘은 무작위로 초기화 된 주파수 축 기저와 시간 축 기저에 대해, 고정된 주파수 축 기저에 대한 시간 축 기저를 학습하는 단계와 고정된 시간 축 기저에 대해 상응하는 주파수 축 기저를 학습하는 단계를 반복적으로 수행하는 구조로 이루어져 있다.
The nonnegative number matrix decomposition algorithm aims to represent the spectrogram as a product of matrices representing the frequency axis basis and the time axis basis. The algorithm includes a step of learning the time base basis for the fixed frequency base basis and the step of learning the corresponding frequency base basis for the fixed time base basis for the randomly initialized frequency base basis and the time base basis As shown in FIG.

단계 S200에서는, 디리클레 제약조건(Dirichlet constraint)을 이용하여, 배음 구조, 성김 구조 및 비성김 구조에 대한 제약 조건을 갖도록 학습을 유도할 수 있다. 즉, 비음수 행렬 분해 알고리즘 중 반복 연산에서 일부의 주파수 축 기저 또는 시간 축 기저에 대한 제약조건을 도입함으로써 알고리즘에 변화를 주어 해당 기저들을 배음 구조나 성김 구조와 같은 특정 성질을 가지도록 유도할 수 있다. 디리클레 제약조건은 일반적인 비음수 행렬 분해 알고리즘을 이용하여 주파수 축 기저와 시간 축 기저를 학습한 후에 특정 성질을 가지는 하이퍼매개변수(hyperparameter)를 가중합(weighted sum) 해줌으로써 해당 하이퍼매개변수와 같은 성질을 가지는 방향으로 학습을 유도하는 방식일 수 있다.
In step S200, the learning can be induced to have a constraint on the harmonic structure, the bell structure, and the non-bell structure using the Dirichlet constraint. In other words, by introducing constraints on some frequency axis basis or time base basis in repetitive calculation among non-numeric matrix decomposition algorithms, the algorithm can be changed to induce the corresponding bases to have specific properties such as a harmonic structure or a bending structure have. The Dirichlet constraint is based on learning the frequency axis basis and the time base basis using a general non-numeric matrix decomposition algorithm, and then weighting sum of hyperparameters having specific properties to obtain the same properties as the corresponding hyperparameters In a direction in which learning is performed.

이하에서는, 도 2를 참조하여 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법의 단계 S200의 세부적인 흐름에 대하여 상세히 설명하도록 한다.
Hereinafter, the detailed flow of step S200 of the method of separating the Mars musical instrument and the percussion sound using the harmonic structure and the bending structure constraint condition according to the embodiment of the present invention will be described in detail with reference to FIG.

도 2는 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법의 단계 S200은, 시간 축 기저 및 주파수 축 기저를 초기화하는 단계(S210), 시간 축 기저 및 주파수 축 기저를 학습하는 단계(S220), 주파수 축 기저들 중에 화성악기 소리에 대한 기저를 대상으로 배음 구조 및 성김 구조를 갖도록 변환하는 단계(S230) 및 주파수 축 기저들 중에 타악기 소리에 대한 기저를 대상으로 비성김 구조를 갖도록 변환하는 단계(S240)를 포함하여 구현될 수 있다.
FIG. 2 is a detailed flowchart of the step S200 in a method of separating a Mars musical instrument and a percussion instrument sound using a harmonic structure and a bending structure constraint according to an embodiment of the present invention. As shown in FIG. 2, step S200 of a method for separating a Mars musical instrument and a percussion instrument sound using a harmonic structure and a bending structure constraint according to an embodiment of the present invention includes initializing a time base basis and a frequency base basis A step S230 of learning a basis of a time axis basis and a frequency axis basis S230, a step S230 of converting a frequency axis basis to have a harmonic structure and a beating structure for a base of a musical instrument sound, (Step S240) so that the base of the percussion instrument sound has a non-sounding structure.

단계 S210에서는, 시간 축 기저 및 주파수 축 기저를 초기화할 수 있다. 즉, 단계 S210은, 단계 S100에서 생성된 스펙트로그램을 시간 축 기저와 주파수 축 기저를 나타내는 두 행렬의 곱으로 표현하기 위한 초기화 단계에 해당할 수 있다. 이 때, 무작위로 생성된 실수 값으로 시간 축 기저와 주파수 축 기저를 초기화할 수 있다. 단계 S210에서는, 주파수 축 기저를 나타내는 W 행렬과 시간 축 기저를 나타내는 H 행렬을 무작위로 초기화 할 수 있다.
In step S210, the time base basis and the frequency base basis can be initialized. That is, step S210 may correspond to an initialization step for expressing the spectrogram generated in step S100 as a product of a time base basis and two matrixes representing a frequency axis basis. At this time, it is possible to initialize the time base base and the frequency base base by randomly generated real values. In step S210, a W matrix indicating the frequency axis basis and an H matrix indicating the time axis basis can be randomly initialized.

단계 S220에서는, 시간 축 기저 및 주파수 축 기저를 학습할 수 있다. 즉, 단계 S220에서는, 비음수 행렬 분해 알고리즘을 이용하여, 단계 S210에서 초기화 된 주파수 축 기저에 대하여 상응하는 시간 축 기저를 학습하고, 해당 시간 축 기저에 상응하는 주파수 축 기저를 학습할 수 있다.
In step S220, the time base basis and the frequency base basis can be learned. That is, in step S220, a corresponding time base basis may be learned for the frequency base basis initialized in step S210, and the frequency base basis corresponding to the time base basis may be learned using the non-sound number matrix decomposition algorithm.

일반적인 행렬 분해 알고리즘은 단계 S220을 반복 수행하여 이루어지게 된다. 즉, 초기화 된 주파수 축 기저를 이용해 다음 수학식 1에 따라 시간 축 기저를 학습하고, 해당 시간 축 기저에 상응하는 주파수 축 기저를 다음 수학식 2에 따라 학습하며, 학습된 주파수 축 기저를 이용해 다시 수학식 1에 따라 시간 축 기저를 학습하는 방식으로 반복 연산이 이루어질 수 있다.A general matrix decomposition algorithm is performed by repeating step S220. That is, the time base basis is learned according to the following Equation 1 using the initialized frequency base basis, the frequency base basis corresponding to the time base basis is learned according to the following Equation 2, An iterative operation can be performed in a manner of learning the time base basis according to Equation (1).

Figure 112014122926405-pat00001
Figure 112014122926405-pat00001

Figure 112014122926405-pat00002
Figure 112014122926405-pat00002

여기서, Wm,k은 W의 m번째 행 k번째 열에 있는 성분이고, Hk,n는 H의 k번째 행 n번째 열에 있는 성분이며, Fm,n는 스펙트로그램 F의 m번째 행 n번째 열에 있는 성분이다. 또한,

Figure 112014122926405-pat00003
는 추정된 스펙트로그램
Figure 112014122926405-pat00004
의 m번째 행 n번째 열에 있는 성분이다.
Here, W m, k is a component in the m-th row and k-th column of W, H k, n is a component in the k-th row and n-th column of H, F m, n is the m- It is an ingredient in the heat. Also,
Figure 112014122926405-pat00003
Lt; RTI ID = 0.0 >
Figure 112014122926405-pat00004
Th row in the m-th row of the second row.

본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법에서는, 일반적인 행렬 분해 알고리즘에 이하에서 상세히 설명할 단계 S230 및 단계 S240을 도입하여, 화성악기 소리에 대한 기저와 타악기 소리에 대한 기저의 학습 제약조건을 걸어줄 수 있다.
In the method of separating the Mars musical instrument and the percussion sound using the harmonic structure and the bending structure constraint according to the embodiment of the present invention, steps S230 and S240, which will be described in detail below, are introduced into a general matrix decomposition algorithm, And can be applied to the base learning constraints on the basis and percussion sounds.

단계 S230에서는, 주파수 축 기저들 중에 화성악기 소리에 대한 기저를 대상으로 배음 구조 및 성김 구조를 갖도록 변환할 수 있다. 주파수 축 및 시간 축 기저들은 화성악기 소리를 설명하는 기저들과 타악기 소리를 설명하는 기저들로 이루어질 수 있는데, 단계 S230에서는 주파수 축 기저들 중에 화성악기 소리를 설명하는 기저들만을 대상으로 배음 구조 및 성김 구조의 제약조건을 도입할 수 있다. 단계 S230의 세부적인 흐름에 대해서는 이하에서 도 3을 참조하여 상세히 설명하도록 한다.
In step S230, it is possible to convert the frequency axis bases so as to have a harmonic structure and a bell sound structure for the base of the musical instrument sound. The frequency axis and the time base bases may be composed of bases describing the musical instrument sounds and bases describing the percussion instruments. In step S230, only the bases describing the musical instrument sounds in the frequency axis bases are used. It is possible to introduce the constraint condition of the bending structure. The detailed flow of step S230 will be described in detail below with reference to FIG.

도 3은 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법의 단계 S200에서, 단계 S230의 세부적인 흐름을 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법의 단계 S230은, 화성악기 소리에 대한 기저가 배음 구조를 갖도록 학습하는 단계(S231) 및 화성악기 소리에 대한 기저가 성김 구조를 갖도록 학습하는 단계(S233)를 포함하여 구현될 수 있으며, 기저가 0보다 작으면 0으로 설정하는 단계(S232)를 더 포함하여 구현될 수 있다.
FIG. 3 is a detailed flowchart of the step S230 of the method for separating the Mars musical instrument and the percussion sound using the harmonic structure and the bending structure constraint according to the embodiment of the present invention. As shown in FIG. 3, a step S230 of a method for separating a Mars musical instrument and a percussion instrument sound using a harmonic structure and a bending structure constraint according to an embodiment of the present invention is performed in such a manner that a basis for a Mars musical instrument sound has a harmonic structure (S233) of learning the base musical instrument sound so that the base of the musical instrument sound has a bending structure, and setting (S232) if the base is less than 0, .

단계 S231에서는, 주파수 축 기저들 중에 화성악기 소리에 대한 기저를 대상으로 배음 구조를 갖도록 변환하고, 변환 결과를 원본 기저에 가중합 하여 화성악기 소리에 대한 기저가 배음 구조를 갖도록 학습할 수 있다. 즉, 단계 S2310은, 뚜렷한 배음 구조를 가지는 고속 푸리에 변환(Fast Fourier Transform, FFT)으로 구한 주파수 기저에서 몇 가지 성분들만 강한 에너지를 가지는 데에서 착안하여 FFT 결과를 성기게 변환한 것이다. W의 k번째 열인 wk가 화성악기 소리를 설명하는 기저일 경우, 다음 수학식 3에 의해 이를 배음 구조화 시킬 수 있다.In step S231, it is possible to convert the frequency axis bases so as to have a harmonic structure with respect to the basis of the Mars musical instrument sound, and to weigh the conversion result on the original basis so that the basis for the Mars musical instrument sound has a harmonic structure. That is, in step S2310, the FFT result is roughly transformed by focusing on the fact that only a few components have strong energy at a frequency base obtained by Fast Fourier Transform (FFT) having a distinctive harmonic structure. If w k, which is the k-th column of W, is the basis for describing the musical instrument sound, it can be structured by the following equation (3).

Figure 112014122926405-pat00005
Figure 112014122926405-pat00005

이때, |a|는 벡터 a의 성분 별로 절댓값을 취하는 연산을 나타낸 것이며,

Figure 112014122926405-pat00006
는 벡터 a의 성분 별로 복소수의 각도를 추출하는 연산을 나타낸 것이며,
Figure 112014122926405-pat00007
는 a와 b의 성분 별 곱셈 연산을 나타낸 것이다. 또한,
Figure 112014122926405-pat00008
는 0이상 1이하의 값을 가지는 배음 구조의 가중치를 나타내며, p는 1보다 큰 실수로 성분 별 거듭제곱 연산에서 지수 값을 나타내며, Φharmonic는 전체 기저들 중에 화성악기 소리를 설명하기 위한 기저들의 인덱스 집합을 나타낸다.
At this time, a | represents an operation that takes an absolute value for each component of the vector a,
Figure 112014122926405-pat00006
Represents an operation of extracting the angle of a complex number for each component of the vector a,
Figure 112014122926405-pat00007
Is a multiplication operation of components a and b. Also,
Figure 112014122926405-pat00008
Represents a weight value of a harmonic structure having a value of 0 or more and 1 or less, p represents an exponent value in a component-by-component power operation with a real number greater than 1, and Φ harmonic represents the bases for describing the musical instrument sound during the entire bases Represents an index set.

단계 S232에서는, 단계 S231을 거친 기저가 0보다 작으면 0으로 설정할 수 있다. 즉, 단계 S232에서는, 단계 S231를 거친 wk가 음수가 되는 것을 방지하기 위하여 0보다 작은 성분들은 0으로 초기화할 수 있다.
In step S232, if the basis through step S231 is less than 0, it can be set to zero. That is, in step S232, components less than 0 can be initialized to 0 to prevent w k through step S231 from becoming negative.

단계 S233에서는, 주파수 축 기저들 중에 화성악기 소리에 대한 기저를 대상으로 성김 구조를 갖도록 변환하고, 변환 결과를 원본 기저에 가중합 하여 화성악기 소리에 대한 기저가 성김 구조를 갖도록 학습할 수 있다.
In step S233, it is possible to convert the frequency axis bases so as to have a base structure for the sound of the Mars musical instrument, and to learn the basis of the musical instrument sound to have a base structure by weighting the conversion result on the original base.

단계 S240에서는, 주파수 축 기저들 중에 타악기 소리에 대한 기저를 대상으로 비성김 구조를 갖도록 변환할 수 있다. 보다 구체적으로는, 단계 S240은, 주파수 축 기저들 중에 타악기 소리에 대한 기저를 대상으로 비성김 구조를 갖도록 변환하고, 변환 결과를 원본 기저에 가중합 하여 타악기 소리에 대한 기저가 비성김 구조를 갖도록 학습할 수 있다.
In step S240, it is possible to convert the frequency axis bases so as to have a non-steady structure for the basis of the percussion sound. More specifically, the step S240 transforms the frequency axis bases so as to have a non-steaming structure for the percussion sound, and adds the result of the conversion to the original basis so that the basis for the percussive sound has a non-steaming structure. You can learn.

단계 S233 및 단계 S240에서는, 다음 수학식 5를 이용하여, 화성악기 소리를 설명하는 기저들은 성긴 구조를 가지도록 변환하고, 타악기 소리를 설명하는 기저들은 비성김 구조를 가지도록 변환할 수 있다.In the steps S233 and S240, the bases for explaining the Mars musical instrument sound are transformed to have a sparse structure and the bases for explaining the percussion instrument sound are transformed to have the non-spoofing structure using the following equation (5).

Figure 112014122926405-pat00009
Figure 112014122926405-pat00009

여기서,

Figure 112014122926405-pat00010
Figure 112014122926405-pat00011
는 각각 화성악기와 타악기 소리 기저에 대한 성김화 가중치를 나타내며, 1 이상의 값을 가지는 q와 0과 1 사이의 값을 가지는 r은 각각 성김 기저를 생성하기 위한 거듭제곱 연산에서 지수 값을 나타낼 수 있다.
here,
Figure 112014122926405-pat00010
Wow
Figure 112014122926405-pat00011
Represents a gender weight for each musical instrument and percussion instrument sound source, and q with a value of 1 or more and r having a value between 0 and 1 can represent an exponent value in a power operation for generating a scoring basis, respectively .

단계 S200에서는, 단계 S220 내지 단계 S240을 반복(iteration)하여, 단계 S100에서 변환된 스펙트로그램을 시간 축 기저 및 주파수 축 기저를 나타내는 행렬들의 곱으로 분석할 수 있으며, 단계 S230 및 단계 S240의 순서는 상호 교환 가능할 수 있다. 단계 S220 내지 단계 S240로 이루어지는 연산을 반복함으로써, 초기화 된 기저들은 원본 화성악기 소리와 타악기 소리의 기저에 점차적으로 가까워질 수 있다.
In step S200, steps S220 to S240 may be repeated to analyze the spectrogram converted in step S100 into a product of matrixes representing a time base basis and a frequency axis basis, and steps S230 and S240 It can be interchangeable. By repeating the operation of steps S220 to S240, the initialized bases can gradually approach the bases of the original musical instrument sound and the percussion sound.

단계 S300에서는, 단계 S200에서 학습된 화성악기 소리에 대한 기저와 타악기 소리에 대한 기저를 각각 분리하여 오디오 신호로 역변환할 수 있다. 단계 S220 내지 단계 S240의 반복연산이 종료되면, 단계 S300에서는 최적화 된 기저를 이용해 오디오 신호로 역변환하여, 화성악기 소리와 타악기 소리를 분리할 수 있다. 이하에서는, 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법에서, 단계 S300의 세부적인 흐름을 도 4를 참조하여 상세히 설명하도록 한다.
In step S300, the basis of the learned musical instrument sound and the basis of the percussion instrument sound, which are learned in step S200, can be separated and converted back into an audio signal. When the iterative calculation of steps S220 to S240 is completed, in step S300, it is possible to invert the Mars sound and the percussion sound by inverting the audio signal using the optimized basis. Hereinafter, a detailed flow of step S300 will be described in detail with reference to FIG. 4 in a method for separating a Mars musical instrument and a percussion instrument sound using a harmonic structure and a bending structure constraint according to an embodiment of the present invention.

도 4는 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법에서, 단계 S300의 세부적인 흐름을 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법의 단계 S300은, 화성악기 소리와 타악기 소리에 대한 스펙트로그램을 각각 추정하는 단계(S310) 및 화성악기 소리와 타악기 소리를 각각 추정하는 단계(S320)를 포함하여 구현될 수 있다.
FIG. 4 is a detailed flowchart illustrating a method of separating a Mars musical instrument and a percussion instrument sound using a harmonic structure and a bending structure constraint according to an embodiment of the present invention. Referring to FIG. As shown in FIG. 4, a step S300 of a method for separating a Mars musical instrument and a percussion instrument sound using a harmonic structure and a bending structure constraint according to an embodiment of the present invention includes a spectrogram for a Mars musical instrument sound and a percussion instrument sound, respectively Estimating S310 and estimating the sound of the Mars musical instrument and the sound of percussion instrument, respectively, S320.

단계 S310에서는, 화성악기 소리에 대한 기저들과 타악기 소리에 대한 기저들을 이용해, 화성악기 소리와 타악기 소리에 대한 스펙트로그램을 각각 추정할 수 있다. 즉, 단계 S310에서는, 단계 S200에서 학습된 기저들을 이용해, 화성악기 소리를 설명하는 기저들끼리 모아서 화성악기 소리만의 스펙트로그램을 추정하고, 타악기 소리를 설명하는 기저들끼리 모아서 타악기 소리만의 스펙트로그램을 추정할 수 있다.
In step S310, it is possible to estimate the spectrogram of the Mars musical instrument sound and the percussion instrument sound, respectively, using the bases for the Mars musical instrument sound and bases for the percussion sound. That is, in step S310, the bases learned in step S200 are used to collect bases for explaining the sound of the Mars musical instrument to estimate the spectrogram of only the Mars musical instrument sound, to collect the bases describing the percussion sound, Grams can be estimated.

단계 S320에서는, 단계 S310에서 추정한 스펙트로그램을 오디오 신호로 역변환하여, 화성악기 소리와 타악기 소리를 각각 추정할 수 있다. 단계 S320에서는, 단계 S310에서 추정된 화성악기의 스펙트로그램과 타악기의 스펙트로그램을 다음 수학식 6 및 7을 이용해 각각 오디오 신호로 역변환하여, 추정한 화성악기 소리인 Sharmonic 및 추정한 타악기 소리인 Spercussive를 구할 수 있다.In step S320, the spectrogram estimated in step S310 is inversely transformed into an audio signal to estimate the sound of the Mars musical instrument and the sound of the percussion instrument, respectively. In step S320, the spectrogram of the Mars musical instrument estimated in step S310 and the spectrogram of the percussion instrument are inversely transformed into audio signals using the following equations (6) and (7), respectively, and the estimated S harmonic sound and the estimated percussion sound S Percussive can be obtained.

Figure 112014122926405-pat00012
Figure 112014122926405-pat00012

Figure 112014122926405-pat00013
Figure 112014122926405-pat00013

본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법의 성능을 검증하기 위하여, 실험 음원에 대하여 Ono의 알고리즘, FitzGerald의 알고리즘 및 본 발명의 알고리즘을 각각 적용하여 화성악기와 타악기 소리를 분리하는 실험을 수행하였다.
In order to verify the performance of the method of separating a Mars musical instrument and a percussion sound by using the harmonic structure and the bending structure constraint according to an embodiment of the present invention, Ono's algorithm, FitzGerald's algorithm, The experiment was performed to separate the harmonic and percussive sounds.

도 5는 실험 음원의 스펙트로그램을 도시한 도면이고, 도 6은 Ono의 알고리즘에 의해 분리된 화성악기와 타악기 소리의 스펙트로그램을 도시한 도면이다. 도 6에 도시된 바와 같이, Ono의 알고리즘에 의하면 세로선으로 표현되는 타악기 소리에 화성악기 소리가 여전히 섞여있다. 이는 Ono의 알고리즘이 화성악기 소리들 중에 스펙트로그램 상에서 가로방향으로의 연속성을 가지는 소리만을 분리해냈기 때문이며, 타악기 소리에 화성악기 소리에 해당하는 목소리와 악기의 변주 등이 남아있게 된다.
FIG. 5 is a diagram showing a spectrogram of an experimental sound source, and FIG. 6 is a diagram showing a spectrogram of a Mars musical instrument and a percussion sound separated by Ono's algorithm. As shown in FIG. 6, according to Ono's algorithm, the sound of a Mars musical instrument is still mixed with the percussion sound represented by a vertical line. This is because Ono's algorithm separates only the sound with continuity in the horizontal direction on the spectrogram during the sound of the Mars musical instrument, and the voice corresponding to the sound of the Mars musical instrument and the variation of the musical instrument remain in the percussion sound.

도 7은 FitzGerald의 알고리즘에 의해 분리된 화성악기와 타악기 소리의 스펙트로그램을 도시한 도면이다. 도 7에 도시된 바와 같이, FitzGerald의 알고리즘 또한 화성악기 소리가 시간적인 연속성을 가진다고 가정하였기 때문에, Ono의 알고리즘을 적용했을 때와 마찬가지로 타악기 소리에 배음구조를 가지는 화성악기 소리가 섞이게 됨을 확인할 수 있다.
FIG. 7 is a view showing a spectrogram of a Mars musical instrument and a percussion sound separated by FitzGerald's algorithm. As shown in FIG. 7, since the algorithm of FitzGerald also assumes that the sound of the Mars musical instrument has temporal continuity, it can be confirmed that the sound of the Mars musical instrument having the harmonic structure is mixed with the sound of the percussion instrument as in the case of applying the Ono algorithm .

도 8은 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법을 이용해 분리된 화성악기와 타악기 소리의 스펙트로그램을 도시한 도면이다. 도 8에 도시된 바와 같이, 본 발명의 일실시예에 따른 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법에 의하면, 화성악기 소리와 타악기 소리가 상호 간섭 없이 깨끗하게 분리됨을 확인할 수 있다. 이는 본 발명이 시간적인 연속성을 가정하지 않으며 주파수 기저의 구조만을 고려하였기 때문이다.
8 is a view showing a spectrogram of a Mars musical instrument and a percussion instrument separated using a method of separating a Mars musical instrument and a percussion musical instrument using a harmonic structure and a bending structure constraint according to an embodiment of the present invention. As shown in FIG. 8, according to the method of separating the Mars musical instrument and the percussion instrument sound using the harmonic structure and the bending structure constraint according to the embodiment of the present invention, it is confirmed that the sound of the Mars musical instrument and the sound of the percussion instrument are cleanly separated . This is because the present invention does not assume temporal continuity and considers only the structure of frequency bases.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.The present invention may be embodied in many other specific forms without departing from the spirit or essential characteristics of the invention.

S100: 오디오 신호를 스펙트로그램으로 변환하는 단계
S200: 비음수 행렬 분해 알고리즘을 이용하여 화성악기 소리에 대한 기저가 배음 구조 및 성김 구조를 갖도록 학습하고, 타악기 소리에 대한 기저가 비성김 구조를 갖도록 학습하는 단계
S210: 시간 축 기저 및 주파수 축 기저를 초기화하는 단계
S220: 시간 축 기저 및 주파수 축 기저를 학습하는 단계
S230: 주파수 축 기저들 중에 화성악기 소리에 대한 기저를 대상으로 배음 구조 및 성김 구조를 갖도록 변환하는 단계
S231: 화성악기 소리에 대한 기저가 배음 구조를 갖도록 학습하는 단계
S232: 기저가 0보다 작으면 0으로 설정하는 단계
S233: 화성악기 소리에 대한 기저가 성김 구조를 갖도록 학습하는 단계
S240: 주파수 축 기저들 중에 타악기 소리에 대한 기저를 대상으로 비성김 구조를 갖도록 변환하는 단계
S300: 오디오 신호로 역변환하는 단계
S310: 화성악기 소리와 타악기 소리에 대한 스펙트로그램을 각각 추정하는 단계
S320: 화성악기 소리와 타악기 소리를 각각 추정하는 단계
S100: Step of converting an audio signal into a spectrogram
S200: To learn the basis of harmonic musical instrument sound to have a harmonic structure and a bend structure by using the non-sound number matrix decomposition algorithm, and to learn that the base of the percussion sound has a non-rhythmic structure
S210: initializing the time base basis and the frequency base basis
S220: learning the basis of the time base and the frequency axis
S230: converting the frequency axis bases so as to have a harmonic structure and a bell sound structure for the base of the musical instrument sound
S231: Learning to have a harmonic structure for the base of the musical instrument sound
S232: a step of setting to 0 if the basis is less than 0
S233: Learning to have a base structure for the sound of a musical instrument sound
S240: converting the frequency axis bases so as to have a non-steady structure for the basis of percussion sound
S300: Inverse conversion into an audio signal
S310: estimating the spectrogram for the sound of the Mars musical instrument and the sound of the percussion instrument, respectively
S320: Estimating the sound of the Mars musical instrument and the sound of the percussion instrument, respectively

Claims (8)

화성악기와 타악기 소리의 분리 방법으로서,
(1) 오디오 신호를 스펙트로그램(spectrogram)으로 변환하는 단계;
(2) 비음수 행렬 분해 알고리즘을 이용하여, 상기 변환된 스펙트로그램을 시간 축 기저 및 주파수 축 기저를 나타내는 행렬들의 곱으로 분석하되, 화성악기 소리에 대한 기저가 배음 구조 및 성김 구조를 갖도록 학습하고, 타악기 소리에 대한 기저가 비성김 구조를 갖도록 학습하는 단계; 및
(3) 상기 단계 (2)에서 학습된 화성악기 소리에 대한 기저와 타악기 소리에 대한 기저를 각각 분리하여 오디오 신호로 역변환하는 단계를 포함하되,
상기 단계 (2)에서는,
디리클레 제약조건(Dirichlet constraint)을 이용하여, 상기 배음 구조, 성김 구조 및 비성김 구조에 대한 제약 조건을 갖도록 학습을 유도하는 것을 특징으로 하는, 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법.
As a method for separating a Mars musical instrument and a percussion sound,
(1) converting an audio signal into a spectrogram;
(2) analyzing the converted spectrogram as a product of matrices representing a time axis basis and a frequency axis basis by using a non-sound number matrix decomposition algorithm, learning that the basis of a musical instrument sound has a harmonic structure and a bold structure , Learning the basis for the percussion sound to have a non-rhythmic structure; And
(3) separating the basis of the learned musical instrument sounds and the basis of the percussion instrument sounds learned in the step (2) and converting them back into audio signals,
In the step (2)
A harmonic structure and a percussion instrument using the constraint of a harmonic structure and a bending structure, characterized in that the learning is induced to have a constraint on the harmonic structure, the bell structure, and the non-bell structure using the Dirichlet constraint .
삭제delete 제1항에 있어서, 상기 단계 (2)는,
(2-1) 시간 축 기저 및 주파수 축 기저를 초기화하는 단계;
(2-2) 시간 축 기저 및 주파수 축 기저를 학습하는 단계;
(2-3) 주파수 축 기저들 중에 화성악기 소리에 대한 기저를 대상으로 배음 구조 및 성김 구조를 갖도록 변환하는 단계; 및
(2-4) 상기 주파수 축 기저들 중에 타악기 소리에 대한 기저를 대상으로 비성김 구조를 갖도록 변환하는 단계를 포함하는 것을 특징으로 하는, 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법.
2. The method of claim 1, wherein step (2)
(2-1) initializing a time axis basis and a frequency axis basis;
(2-2) learning the basis of the time base and the frequency axis;
(2-3) transforming the frequency axis bases so as to have a harmonic structure and a bell sound structure for the base of the musical instrument sound; And
(2-4) converting the frequency axis bases so as to have a non-sinusoidal structure with respect to the basis of the percussion sound. Separation method.
제3항에 있어서, 상기 단계 (2)에서는,
상기 단계 (2-2) 내지 단계 (2-4)를 반복(iteration)하여, 상기 변환된 스펙트로그램을 시간 축 기저 및 주파수 축 기저를 나타내는 행렬들의 곱으로 분석하는 것을 특징으로 하는, 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법.
4. The method according to claim 3, wherein in the step (2)
Characterized in that the step (2-2) to (2-4) are repeated to analyze the converted spectrogram as a product of matrices representing a time base basis and a frequency base basis. A Method for Separation of Mars and Percussion Sound Using Constraint Constraints.
제3항에 있어서, 상기 단계 (2-3)은,
(2-3-1) 주파수 축 기저들 중에 화성악기 소리에 대한 기저를 대상으로 배음 구조를 갖도록 변환하고, 변환 결과를 원본 기저에 가중합 하여 상기 화성악기 소리에 대한 기저가 배음 구조를 갖도록 학습하는 단계; 및
(2-3-2) 주파수 축 기저들 중에 화성악기 소리에 대한 기저를 대상으로 성김 구조를 갖도록 변환하고, 변환 결과를 원본 기저에 가중합 하여 상기 화성악기 소리에 대한 기저가 성김 구조를 갖도록 학습하는 단계를 포함하는 것을 특징으로 하는, 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법.
4. The method of claim 3, wherein the step (2-3)
(2-3-1) During the frequency axis bases, the base of the musical instrument sound is converted to have a harmonic structure, and the result of conversion is weighted to the original basis so that the basis of the musical instrument sound has a harmonic structure ; And
(2-3-2) During the frequency axis bases, the base of the musical instrument sound is transformed so as to have a bend structure, and the transformation result is weighted to the original base, so that the base of the musical instrument sound has a bend structure Wherein said step of determining the sound quality of said percussive sound comprises the steps of:
제5항에 있어서, 상기 단계 (2-3-1)과 단계 (2-3-2) 사이에는,
상기 단계 (2-3-1)을 거친 기저가 0보다 작으면 0으로 설정하는 단계를 더 포함하는 것을 특징으로 하는, 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법.
6. The method of claim 5, further comprising, between steps (2-3-1) and (2-3-2)
And setting the value to 0 if the basis through step (2-3-1) is less than 0, wherein the step (2-1) further comprises the step of:
제3항에 있어서, 상기 단계 (2-4)는,
주파수 축 기저들 중에 타악기 소리에 대한 기저를 대상으로 비성김 구조를 갖도록 변환하고, 변환 결과를 원본 기저에 가중합 하여 상기 타악기 소리에 대한 기저가 비성김 구조를 갖도록 학습하는 것을 특징으로 하는, 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법.
4. The method according to claim 3, wherein the step (2-4)
Wherein the learning unit learns the basis of the percussion sound to have a non-voicing structure for the percussive sound among the frequency axis voices, A Method of Separation of Mars and Percussion Sounds Using Structural and Cosmetic Constraints.
제1항에 있어서, 상기 단계 (3)은,
(3-1) 상기 화성악기 소리에 대한 기저들과 타악기 소리에 대한 기저들을 이용해, 화성악기 소리와 타악기 소리에 대한 스펙트로그램을 각각 추정하는 단계; 및
(3-2) 상기 단계 (3-1)에서 추정한 스펙트로그램을 오디오 신호로 역변환하여, 화성악기 소리와 타악기 소리를 각각 추정하는 단계를 포함하는 것을 특징으로 하는, 배음 구조 및 성김 구조 제약조건을 이용한 화성악기와 타악기 소리의 분리 방법.
2. The method of claim 1, wherein step (3)
(3-1) estimating the spectrograms of the Mars musical instrument sound and the percussion instrument sound using the bases for the Mars sound and the bases for the percussion sound, respectively; And
(3-2) a step of inversely converting the spectrogram estimated in the step (3-1) into an audio signal to estimate a sound of a Mars musical instrument and a sound of a percussion instrument, respectively, A Method of Separation of Mars and Percussion Sounds Using.
KR1020140182749A 2014-12-17 2014-12-17 Method of harmonic percussive source separation using harmonicity and sparsity constraints KR101621718B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140182749A KR101621718B1 (en) 2014-12-17 2014-12-17 Method of harmonic percussive source separation using harmonicity and sparsity constraints

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140182749A KR101621718B1 (en) 2014-12-17 2014-12-17 Method of harmonic percussive source separation using harmonicity and sparsity constraints

Publications (1)

Publication Number Publication Date
KR101621718B1 true KR101621718B1 (en) 2016-05-17

Family

ID=56109699

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140182749A KR101621718B1 (en) 2014-12-17 2014-12-17 Method of harmonic percussive source separation using harmonicity and sparsity constraints

Country Status (1)

Country Link
KR (1) KR101621718B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101838408B1 (en) * 2016-12-23 2018-03-14 서울대학교산학협력단 Method and apparatus for processing audio signal
CN111505650A (en) * 2020-04-28 2020-08-07 西北工业大学 HPSS-based underwater target passive detection method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
F.J.Canadas-Quesada wt al., ‘Percussive/harmonic sound separation by non-negative matrix factorization with smoothness/sparseness constraints’, EURASIP Juornal on Audio, Speech, and Music Processing,*
M.Kim et al., ‘Nonnegative matrix partial co-factorization for spectral and temporal drum source separation’, IEEE Journal of Selected Topics in Signal Processing, Vol.5, No.6, pp.1192~1204, 2011.*

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101838408B1 (en) * 2016-12-23 2018-03-14 서울대학교산학협력단 Method and apparatus for processing audio signal
CN111505650A (en) * 2020-04-28 2020-08-07 西北工业大学 HPSS-based underwater target passive detection method

Similar Documents

Publication Publication Date Title
JP6195548B2 (en) Signal analysis apparatus, method, and program
Chien et al. Bayesian factorization and learning for monaural source separation
Miron et al. Monaural score-informed source separation for classical music using convolutional neural networks
US9437208B2 (en) General sound decomposition models
JP2017520784A (en) On-the-fly sound source separation method and system
Seetharaman et al. Music/voice separation using the 2d fourier transform
Cho et al. Sparse music representation with source-specific dictionaries and its application to signal separation
Cogliati et al. Piano music transcription with fast convolutional sparse coding
US8965832B2 (en) Feature estimation in sound sources
KR101621718B1 (en) Method of harmonic percussive source separation using harmonicity and sparsity constraints
KR102128153B1 (en) Apparatus and method for searching music source using machine learning
JP2022539867A (en) Audio separation method and device, electronic equipment
US20150142450A1 (en) Sound Processing using a Product-of-Filters Model
Kasák et al. Music information retrieval for educational purposes-an overview
US9398387B2 (en) Sound processing device, sound processing method, and program
Lashari et al. Soft set theory for automatic classification of traditional Pakistani musical instruments sounds
Benetos et al. Multiple-F0 estimation and note tracking for Mirex 2015 using a sound state-based spectrogram factorization model
JP2020034870A (en) Signal analysis device, method, and program
Lefèvre et al. A convex formulation for informed source separation in the single channel setting
Lee et al. Discriminative training of complex-valued deep recurrent neural network for singing voice separation
JP5807914B2 (en) Acoustic signal analyzing apparatus, method, and program
JP5879813B2 (en) Multiple sound source identification device and information processing device linked to multiple sound sources
JP2017134321A (en) Signal processing method, signal processing device, and signal processing program
Nortier et al. Unsupervised speech enhancement with diffusion-based generative models
Tralie Cover song synthesis by analogy

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190429

Year of fee payment: 4