KR101211059B1 - Apparatus and Method for Vocal Melody Enhancement - Google Patents

Apparatus and Method for Vocal Melody Enhancement Download PDF

Info

Publication number
KR101211059B1
KR101211059B1 KR1020100131625A KR20100131625A KR101211059B1 KR 101211059 B1 KR101211059 B1 KR 101211059B1 KR 1020100131625 A KR1020100131625 A KR 1020100131625A KR 20100131625 A KR20100131625 A KR 20100131625A KR 101211059 B1 KR101211059 B1 KR 101211059B1
Authority
KR
South Korea
Prior art keywords
accompaniment
vocal
melody
frames
copy signal
Prior art date
Application number
KR1020100131625A
Other languages
Korean (ko)
Other versions
KR20120070185A (en
Inventor
송재종
이석필
양창모
서경학
박호종
이세원
윤제열
Original Assignee
전자부품연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전자부품연구원 filed Critical 전자부품연구원
Priority to KR1020100131625A priority Critical patent/KR101211059B1/en
Publication of KR20120070185A publication Critical patent/KR20120070185A/en
Application granted granted Critical
Publication of KR101211059B1 publication Critical patent/KR101211059B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

본 발명은 보컬 멜로디 강화 장치 및 방법에 대하여 개시한다. 본 발명의 일면에 따른 보컬 멜로디 강화 장치는, 다음원 음악 신호의 복수의 프레임에 대한 보컬 대 반주의 크기 비를 산출하고, 상기 복수의 프레임 중에서 상기 보컬 대 반주의 크기 비가 가장 적은 지표 프레임을 선택하는 기본 파라미터 검출 모듈; 및 상기 지표 프레임으로부터 반주 복사본 신호를 생성하고, 상기 반주 복사본 신호를 이용하여 상기 복수의 프레임으로부터 보컬 멜로디가 강화된 상기 음악 신호를 생성하는 보컬 멜로디 강화 모듈을 포함하는 것을 특징으로 한다.The present invention discloses a vocal melody enhancing apparatus and method. According to an aspect of the present invention, a vocal melody enhancing apparatus calculates a ratio of vocal to accompaniment to a plurality of frames of a next source music signal, and selects an index frame having the smallest ratio of the vocal to accompaniment to the plurality of frames. A basic parameter detection module; And a vocal melody reinforcement module generating an accompaniment copy signal from the index frame and generating the music signal in which vocal melody is enhanced from the plurality of frames using the accompaniment copy signal.

Description

보컬 멜로디 강화 장치 및 방법{Apparatus and Method for Vocal Melody Enhancement}Apparatus and Method for Vocal Melody Enhancement

본 발명은 보컬 멜로디 강화 장치에 관한 것으로서, 더 구체적으로는 보컬 멜로디를 강화하여 보컬 피치 추출의 정확도를 향상시킬 수 있는 보컬 멜로디 강화 장치 및 방법에 관한 것이다.The present invention relates to a vocal melody reinforcing device, and more particularly to a vocal melody reinforcing device and method that can enhance the accuracy of vocal pitch extraction by reinforcing vocal melody.

일반적으로, 여러 악기의 음원이 혼합된 다음원 음악 신호에서 보컬 멜로디 추출은 보컬 영역에서 주파수 분석을 통한 보컬 피치 추출로 가능하다. 그런데, 보컬 영역에는 보컬 신호뿐만 아니라 반주 신호도 포함되므로, 보컬 피치를 정확히 찾는 것이 어렵다. 이를 개선하고자, 다음원 음악 신호의 보컬 성분을 강화하여 반주의 영향을 줄인 후, 보컬 피치를 검색하는 방식이 도입되었다.In general, vocal melody extraction from the next source music signal in which sound sources of various instruments are mixed is possible by vocal pitch extraction through frequency analysis in the vocal region. However, since the vocal region includes not only a vocal signal but also an accompaniment signal, it is difficult to accurately find the vocal pitch. To improve this, a method of retrieving the vocal pitch after strengthening the vocal component of the next source music signal to reduce the influence of the accompaniment is introduced.

종래의 보컬 성분 강화 방식은 다음원 음악 신호의 스펙트럼에서 시간축과 주파수축의 변화율을 측정하고, 측정된 변화율을 이용하여 다음원 음악 신호를 하모닉 멜로디 프레임과 퍼커시브(Percussive) 멜로디 프레임으로 구분하고, 보컬 멜로디가 포함된 하모닉 멜로디 프레임으로부터 보컬 피치를 추출하였다. 따라서, 다음원 음악 신호에서 퍼커시브 멜로디가 제거되어, 상대적으로 보컬 멜로디가 강화된 효과를 얻을 수 있다.The conventional vocal component enhancement method measures the rate of change of the time axis and the frequency axis in the spectrum of the next source music signal, and divides the next source music signal into a harmonic melody frame and a percussive melody frame using the measured change rate. The vocal pitch was extracted from the harmonic melody frame including the melody. Thus, the percussive melody is removed from the next source music signal, so that a relatively enhanced vocal melody can be obtained.

그런데, 종래의 보컬 성분 방식은 다음원 음악 신호에서 퍼커시브 멜로디만 프레임 단위로 제거되었을 뿐, 그 외 음원들이 하모닉 멜로디에 그대로 남는다. 즉, 남아있는 음원들에 비해 보컬 멜로디가 강화된 것은 아니기 때문에, 보컬 피치 추출의 정확도 향상을 크게 기대할 수 없다.However, in the conventional vocal component method, only the percussive melody is removed from the next source music signal on a frame basis, and other sound sources remain in the harmonic melody. That is, since the vocal melody is not enhanced compared to the remaining sound sources, it is not expected to greatly improve the accuracy of vocal pitch extraction.

본 발명은 전술한 바와 같은 기술적 배경에서 안출된 것으로서, 음악 신호로부터 반주 멜로디를 제거하여 보컬 멜로디를 강화할 수 있는 보컬 멜로디 강화 장치 및 방법을 제공하는 것을 그 목적으로 한다.The present invention has been made in the technical background as described above, and an object thereof is to provide a vocal melody reinforcement apparatus and method that can enhance the vocal melody by removing the accompaniment melody from the music signal.

본 발명의 일면에 따른 보컬 멜로디 강화 장치는, 다음원 음악 신호의 복수의 프레임에 대한 보컬 대 반주의 크기 비를 산출하고, 상기 복수의 프레임 중에서 상기 보컬 대 반주의 크기 비가 가장 적은 지표 프레임을 선택하는 기본 파라미터 검출 모듈; 및 상기 지표 프레임으로부터 반주 복사본 신호를 생성하고, 상기 반주 복사본 신호를 이용하여 상기 복수의 프레임으로부터 보컬 멜로디가 강화된 상기 음악 신호를 생성하는 보컬 멜로디 강화 모듈을 포함하는 것을 특징으로 한다.According to an aspect of the present invention, a vocal melody enhancing apparatus calculates a ratio of vocal to accompaniment to a plurality of frames of a next source music signal, and selects an index frame having the smallest ratio of the vocal to accompaniment to the plurality of frames. A basic parameter detection module; And a vocal melody reinforcement module generating an accompaniment copy signal from the index frame and generating the music signal in which vocal melody is enhanced from the plurality of frames using the accompaniment copy signal.

본 발명의 다른 면에 따른 보컬 멜로디 강화 방법은, 다음원 음악 신호의 복수의 프레임에 대한 보컬 대 반주의 크기 비를 산출하는 단계; 상기 복수의 프레임 중에서 상기 보컬 대 반주의 크기 비가 가장 적은 지표 프레임을 선택하는 단계; 상기 지표 프레임에 기설정된 이득 값을 곱하여 반주 복사본 신호를 생성하는 단계; 이전 단계의 반주 복사본 신호를 이용하여 생성된 상기 반주 복사본 신호를 갱신 또는 비갱신하는 단계; 및 상기 복수의 프레임으로부터 갱신 또는 비갱신된 상기 반주 복사본 신호를 뺄셈하여 보컬 멜로디가 강화된 상기 음악 신호를 생성하는 단계를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, a method of reinforcing vocal melody includes calculating a ratio of vocal to accompaniment for a plurality of frames of a next original music signal; Selecting an index frame having the smallest ratio of the vocal to accompaniment among the plurality of frames; Generating an accompaniment copy signal by multiplying the index frame by a preset gain value; Updating or not updating the accompaniment copy signal generated using the accompaniment copy signal of the previous step; And subtracting the updated or unupdated accompaniment copy signal from the plurality of frames to generate the music signal enhanced with vocal melody.

본 발명에 따르면, 다음원 멜로디의 하모닉 구조의 변화에 기반할 때, 악기와 구별되는 보컬 멜로디의 고유 특성을 이용하여 보컬 멜로디를 강화하기 때문에, 다양한 종류의 음악에 대해 보다 강건하게 보컬 멜로디를 강화할 수 있는 효과가 있다.According to the present invention, since the vocal melody is enhanced by using the inherent characteristics of the vocal melody distinguished from the musical instrument, based on the change in the harmonic structure of the next source melody, the vocal melody can be strengthened more strongly for various kinds of music. It can be effective.

뿐만 아니라, 본 발명은 음악 신호를 하나의 프레임으로 처리할 수도 있지만, 멀티 프레임 단위로도 처리할 수 있어, 단일 프레임만 처리가능하던 종래의 기술을 문제점을 개선할 수 있다.In addition, the present invention can process the music signal in one frame, but can also process in a multi-frame unit, it is possible to improve the problem of the conventional technology that can process only a single frame.

따라서, 본 발명은 다음원 음악 신호에서 보컬 멜로디의 내용 분석 및 음원 분해가 더욱 정확히 구현되도록 지원할 수 있다.Therefore, the present invention can support the content analysis of the vocal melody and the sound source decomposition more accurately in the next source music signal.

도 1은 본 발명의 실시예에 따른 보컬 멜로디 강화 장치를 도시한 구성도이다.
도 2는 본 발명의 실시예에 따른 파라미터 추출기를 도시한 구성도.
도 3은 본 발명의 실시예에 따른 반주 복사본 신호 갱신기를 도시한 구성도.
도 4는 본 발명의 실시예에 따른 보컬 멜로디 강화기를 도시한 구성도.
1 is a block diagram showing a vocal melody enhancing apparatus according to an embodiment of the present invention.
2 is a block diagram showing a parameter extractor according to an embodiment of the present invention.
3 is a block diagram illustrating an accompaniment copy signal updater according to an embodiment of the present invention.
Figure 4 is a block diagram showing a vocal melody enhancer according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.Advantages and features of the present invention, and methods of achieving the same will become apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as being limited to the embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, and will fully convey the scope of the invention to those skilled in the art. Is provided to fully convey the scope of the invention to those skilled in the art, and the invention is only defined by the scope of the claims. It is to be understood that the terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. In the present specification, the singular form includes plural forms unless otherwise specified in the specification. As used herein, the terms " comprises, " and / or "comprising" refer to the presence or absence of one or more other components, steps, operations, and / Or additions.

이제 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 실시예에 따른 보컬 멜로디 강화 장치를 도시한 구성도이고, 도 2는 본 발명의 실시예에 따른 파라미터 추출기를 도시한 구성도이며, 도 3은 본 발명의 실시예에 따른 반주 복사본 신호 갱신기를 도시한 구성도이며, 도 4는 본 발명의 실시예에 따른 보컬 멜로디 강화기를 도시한 구성도이다.1 is a block diagram showing a vocal melody enhancing apparatus according to an embodiment of the present invention, Figure 2 is a block diagram showing a parameter extractor according to an embodiment of the present invention, Figure 3 according to an embodiment of the present invention 4 is a diagram illustrating an accompaniment copy signal updater, and FIG. 4 is a diagram illustrating a vocal melody enhancer according to an exemplary embodiment of the present invention.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 보컬 멜로디 강화 장치(10)는 기본 파라미터 검출 모듈(100) 및 보컬 멜로디 강화 모듈(200)을 포함한다.As shown in FIG. 1, the vocal melody enhancing apparatus 10 according to an embodiment of the present invention includes a basic parameter detection module 100 and a vocal melody enhancing module 200.

보컬 멜로디 강화 장치(10)는 입력신호를 기설정된 개수의 프레임 단위로 구분하여 입력받아 입력된 프레임에 대한 보컬 멜로디를 강화하는, 멀티 프레임 방식의 처리를 수행한다. 이때, 멀티 프레임 개수는 보컬 멜로디 강화 장치의 성능 및 구성에 따라 다양하게 설정될 수 있다.The vocal melody reinforcement apparatus 10 receives an input signal by dividing the input signal into a predetermined number of frame units and performs a multi-frame process to reinforce the vocal melody for the input frame. In this case, the number of multi-frames may be variously set according to the performance and configuration of the vocal melody reinforcement device.

기본 파라미터 검출 모듈(100)은 전처리기(110), 주파수 변환기(120), 파라미터 추출기(130) 및 파라미터 비교기(140)를 포함한다.The basic parameter detection module 100 includes a preprocessor 110, a frequency converter 120, a parameter extractor 130, and a parameter comparator 140.

전처리기(110)는 입력신호의 멀티 프레임을 입력받아 샘플링 주파수를 낮추어 보컬 멜로디와 관련없는 고대역 정보를 제거한다.The preprocessor 110 receives the multi-frame of the input signal and lowers the sampling frequency to remove high-band information not related to the vocal melody.

예를 들어, 전처리기(110)는 입력신호가 스테레오 신호이면, 모노 신호로 변환한다.For example, if the input signal is a stereo signal, the preprocessor 110 converts the signal into a mono signal.

주파수 변환기(120)는 전처리된 입력신호의 멀티 프레임을 예컨대, 이산 푸리에 변환(DFT; Discrete Fourier Transform)하여 주파수영역으로 변환한다.The frequency converter 120 converts a multi-frame of the preprocessed input signal into a frequency domain by, for example, a Discrete Fourier Transform (DFT).

파라미터 추출기(130)는 주파수영역의 멀티 프레임에서 보컬 멜로디와 반주 멜로디의 에너지값을 각기 산출하고, 입력신호의 각 프레임에 대한 두 에너지값 간의 크기 비를 측정한다.The parameter extractor 130 calculates energy values of the vocal melody and the accompaniment melody in each of the multi-frames in the frequency domain, and measures the magnitude ratio between the two energy values for each frame of the input signal.

도 2를 참조하여 설명하면, 파라미터 추출기(130)는 채널 에너지 측정부(131), 반주 멜로디 예측부(132) 및 잡음비 측정부(133)를 포함한다.Referring to FIG. 2, the parameter extractor 130 includes a channel energy measuring unit 131, an accompaniment melody predicting unit 132, and a noise ratio measuring unit 133.

채널 에너지 측정부(131)는 주파수영역의 입력신호의 각 프레임을 기설정된 다수의 채널로 구분하고, 채널별로 가중치를 적용하여 보컬 멜로디의 에너지값을 계산한다.The channel energy measuring unit 131 divides each frame of the input signal in the frequency domain into a plurality of preset channels, and calculates an energy value of the vocal melody by applying a weight for each channel.

상세하게는, 채널 에너지 측정부(131)는 EVRC(Enhanced Variable Rate Codec) 규격의 적응 잡음 억제 알고리즘을 이용하여 각 프레임을 16개 채널(주파수 대역)로 나누고, 보컬 멜로디 유무와 채널을 확인하여 그에 따라 다른 가중치를 적용하여 채널별 에너지값을 산출하고, 채널별 에너지값을 이용하여 각 프레임의 에너지값을 산출한다. 이때, 각 채널별 가중치는 보컬 멜로디 유무에 따라 달리 적용되도록 EVRC 규격에 미리 테이블화된 것이다.In detail, the channel energy measurement unit 131 divides each frame into 16 channels (frequency bands) by using an adaptive noise suppression algorithm of an enhanced variable rate codec (EVRC) standard, and checks the presence and absence of a vocal melody. The energy value of each channel is calculated by applying different weights, and the energy value of each frame is calculated using the energy value of each channel. At this time, the weight for each channel is pre-table in the EVRC standard to be applied differently depending on the presence or absence of vocal melody.

채널 에너지 측정부(131)는 보컬 멜로디가 존재하는 채널(주파수 밴드)에는 가중치를 많이 적용하고, 보컬 멜로디가 없다고 판단되는 채널에는 가중치를 적게 적용하여 보컬 멜로디가 두드러진 보컬 멜로디의 에너지값을 산출한다.The channel energy measuring unit 131 calculates an energy value of the vocal melody in which the vocal melody is prominent by applying a large weight to a channel (frequency band) in which the vocal melody exists and applying a small weight to a channel determined to have no vocal melody. .

반주 멜로디 예측부(132)는 입력신호의 멀티 프레임 중에서 예컨대, 초기 4개의 프레임으로부터 반주 멜로디를 예측하고, 예측된 반주 멜로디의 에너지값을 계산한다.The accompaniment melody predicting unit 132 predicts the accompaniment melody from, for example, the first four frames among the multi frames of the input signal, and calculates an energy value of the predicted accompaniment melody.

잡음비 측정부(133)는 채널 에너지 측정부(131)에 의해 산출된 보컬 멜로디의 에너지값과 반주 멜로디의 에너지값의 크기 비를 계산한다.The noise ratio measuring unit 133 calculates a ratio of the energy value of the vocal melody and the energy value of the accompaniment melody calculated by the channel energy measuring unit 131.

파라미터 비교기(140)는 입력신호의 멀티 프레임의 크기 비를 확인하여 그 중에서, 크기 비가 가장 적은 지표 프레임을 선택한다.The parameter comparator 140 checks the size ratio of the multi-frames of the input signal and selects the index frame having the smallest size ratio among them.

보컬 멜로디 강화 모듈(200)은 반주 복사본 신호 생성기(210), 반주 복사본 신호 갱신기(220) 및 보컬 멜로디 강화기(230)를 포함한다.The vocal melody enhancement module 200 includes an accompaniment copy signal generator 210, an accompaniment copy signal updater 220, and a vocal melody enhancer 230.

반주 복사본 신호 생성기(210)는 지표 프레임에 이득 값을 곱하여 반주 복사본 신호를 생성한다. 이때, 이득 값(α)은 0.6 이상 1.0 미만의 값일 수 있다.The accompaniment copy signal generator 210 generates an accompaniment copy signal by multiplying an index frame by a gain value. In this case, the gain value α may be a value of 0.6 or more and less than 1.0.

반주 복사본 신호 갱신기(220)는 생성된 반주 복사본 신호의 자기상관계수를 연산하고, 반주 복사본 신호를 갱신하거나, 갱신하지 않고 보컬 멜로디 강화기(230)에 전달한다.The accompaniment copy signal updater 220 calculates an autocorrelation coefficient of the generated accompaniment copy signal and transfers the accompaniment copy signal to the vocal melody enhancer 230 with or without updating the accompaniment copy signal.

도 3을 참조하여 설명하면, 반주 복사본 신호 갱신기(220)는 자기상관계수 측정부(221) 및 반주 복사본 신호 선택부(222)를 포함한다.Referring to FIG. 3, the accompaniment copy signal updater 220 includes an autocorrelation coefficient measuring unit 221 and an accompaniment copy signal selector 222.

자기상관계수 측정부(221)는 현재 과정의 지표 프레임에 의해 생성된 반주 복사본 신호와 이전 과정의 지표 프레임에 의해 생성된 반주 복사본 신호 간의 자기상관계수를 연산한다.The autocorrelation coefficient measuring unit 221 calculates an autocorrelation coefficient between the accompaniment copy signal generated by the index frame of the current process and the accompaniment copy signal generated by the index frame of the previous process.

반주 복사본 신호 선택부(222)는 연산된 자기상관계수를 미리 결정된 임계치(Threshold)와 비교하여 상관관계가 큰지 또는 적은지를 확인하고, 비교 결과에 따라 보컬 멜로디 강화기(230)에 전달한 반주 복사본 신호를 결정한다.The accompaniment copy signal selector 222 compares the calculated autocorrelation number with a predetermined threshold to determine whether the correlation is large or small and transmits the accompaniment copy signal to the vocal melody enhancer 230 according to the comparison result. Determine.

상세하게는, 반주 복사본 신호 선택부(222)는 비교결과 상관관계가 크다고 판단되면(즉, 자기상관계수가 임계치보다 큰 경우) 현재 과정과 이전 과정의 반주 복사본 신호의 평균값을, 상관 관계가 적다고 판단되면(즉, 자기상관계수가 임계치보다 적은 경우), 반주 복사본 신호 생성기(210)에 의해 생성된 전달할 반주 복사본 신호로 결정한다.Specifically, when the accompaniment copy signal selector 222 determines that the correlation is large (ie, when the autocorrelation number is larger than the threshold), the average value of the accompaniment copy signal of the current process and the previous process is small. If it is determined that the autocorrelation number is less than the threshold, the accompaniment copy signal generated by the accompaniment copy signal generator 210 is determined.

이러한 처리를 통해서, 보컬 멜로디 강화 장치(10)는 반주 복사본 신호가 뜻하지 않게 발산하는 현상을 방지할 수 있다.Through this process, the vocal melody reinforcement device 10 can prevent the phenomenon that the accompaniment copy signal diverges unintentionally.

보컬 멜로디 강화기(230)는 전달받은 반주 복사본 신호를 이용하여 입력신호의 멀티 프레임으로부터 보컬 멜로디가 강화된 신호를 생성한다.The vocal melody enhancer 230 generates a signal in which the vocal melody is enhanced from multiple frames of the input signal using the received accompaniment copy signal.

도 4를 참조하여 설명하면, 보컬 멜로디 강화기(230)는 잡음비 비교부(231) 및 반주 신호 제거부(232)를 포함한다.Referring to FIG. 4, the vocal melody enhancer 230 includes a noise ratio comparator 231 and an accompaniment signal canceller 232.

잡음비 비교부(231)는 잡음비 측정부(133)에 의하여 산출된 프레임 보컬 대 반주의 크기 비를 이용하여 반주 복사본 신호에 곱셈될 이득 값을 결정한다.The noise ratio comparator 231 determines a gain value to be multiplied by the accompaniment copy signal using the size ratio of the frame vocal to accompaniment calculated by the noise ratio measurer 133.

이때, 잡음비 비교부(231)는 보컬 대 반주의 크기 비가 보컬 멜로디의 크기가 반주 멜로디에 비해 매우 큰 제1 경우, 보컬 멜로디의 크기가 반주 멜로디에 비해 매우 작은 제2 경우, 그외의 제3 경우인지를 구분하고, 각 경우에 따라 각기 기설정된 이득 값을 결정한다. 이때, 보컬 멜로디의 크기가 반주 멜로디에 비해 매우 크거나 매우 작은지 여부는 기설정된 기준에 의하여 결정됨은 물론이다.In this case, the noise ratio comparator 231 is a first case in which the size ratio of the vocal to accompaniment is very large compared to the accompaniment melody, a second case in which the size of the vocal melody is very small compared to the accompaniment melody, and the other third case. Awareness is identified and each gain value is determined in each case. At this time, whether the size of the vocal melody is very large or very small compared to the accompaniment melody is determined by a predetermined criterion.

반주 신호 제거부(232)는 전달받은 반주 복사 신호에 확인된 제1 내지 제3 경우 중 하나의 경우에 따른 이득 값을 곱한 다음, 입력신호의 멀티 프레임으로부터 곱해진 반주 복사 신호를 뺀 결과, 보컬 멜로디가 강화된 신호를 출력한다.The accompaniment signal removing unit 232 multiplies the received accompaniment radiation signal by a gain value according to one of the first to third cases and then subtracts the multiplied accompaniment radiation signal from the multi-frame of the input signal. The melody outputs an enhanced signal.

이와 같이, 본 발명은 보컬 멜로디의 크기에 따라 반주 복사본 신호의 크기를 달리 적용함으로써, 반주 신호가 보컬 멜로디에 주는 영향을 줄일 수 있다.As described above, the present invention can reduce the influence of the accompaniment signal on the vocal melody by applying the size of the accompaniment copy signal differently according to the size of the vocal melody.

이와 같이, 본 발명은 다음원 멜로디의 하모닉 구조의 변화에 기반할 때, 악기와 구별되는 보컬 멜로디의 고유 특성을 이용하여 보컬 멜로디를 강화하기 때문에, 다양한 종류의 음악에 대해 보다 강건하게 보컬 멜로디를 강화할 수 있다.As such, the present invention reinforces the vocal melody using the inherent characteristics of the vocal melody, which is distinguished from the musical instrument, based on the change in the harmonic structure of the next source melody, thus making the vocal melody more robust to various kinds of music. I can strengthen it.

뿐만 아니라, 본 발명은 음악 신호를 하나의 프레임으로 처리할 수도 있지만, 멀티 프레임 단위로도 처리할 수 있어, 단일 프레임만 처리가능하던 종래의 기술을 문제점을 개선할 수 있다.In addition, the present invention can process the music signal in one frame, but can also process in a multi-frame unit, it is possible to improve the problem of the conventional technology that can process only a single frame.

따라서, 본 발명은 다음원 음악 신호에서 보컬 멜로디의 내용 분석 및 음원 분해가 더욱 정확히 구현되도록 지원할 수 있다.Therefore, the present invention can support the content analysis of the vocal melody and the sound source decomposition more accurately in the next source music signal.

이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.While the present invention has been described in detail with reference to the accompanying drawings, it is to be understood that the invention is not limited to the above-described embodiments. Those skilled in the art will appreciate that various modifications, Of course, this is possible. Accordingly, the scope of protection of the present invention should not be limited to the above-described embodiments, but should be determined by the description of the following claims.

Claims (8)

다음원 음악 신호의 복수의 프레임에 대한 보컬 대 반주의 크기 비를 산출하고, 상기 복수의 프레임 중에서 상기 보컬 대 반주의 크기 비가 가장 적은 지표 프레임을 선택하는 기본 파라미터 검출 모듈; 및
상기 지표 프레임으로부터 반주 복사본 신호를 생성하고, 상기 반주 복사본 신호를 이용하여 상기 복수의 프레임으로부터 보컬 멜로디가 강화된 상기 음악 신호를 생성하는 보컬 멜로디 강화 모듈
을 포함하는 보컬 멜로디 강화 장치.
A basic parameter detection module for calculating a size ratio of vocal to accompaniment for a plurality of frames of a next original music signal, and selecting an index frame having the smallest ratio of the size of the vocal to accompaniment among the plurality of frames; And
A vocal melody reinforcement module generating an accompaniment copy signal from the index frame and generating the music signal with vocal melody enhanced from the plurality of frames using the accompaniment copy signal
Vocal melody enhancing device comprising a.
제1항에 있어서, 상기 기본 파라미터 검출 모듈은,
상기 복수의 프레임을 주파수영역으로 변환하는 주파수 변환기;
상기 주파수영역에서, 상기 복수의 프레임에 대한 상기 보컬 대 반주의 크기 비를 산출하는 파라미터 추출기; 및
상기 주파수영역에서, 상기 복수의 프레임 중에서, 상기 보컬 대 반주의 크기 비가 가장 적은 상기 지표 프레임을 선택하는 파라미터 비교기
를 포함하는 것인 보컬 멜로디 강화 장치.
The method of claim 1, wherein the basic parameter detection module,
A frequency converter for converting the plurality of frames into a frequency domain;
A parameter extractor for calculating a size ratio of the vocal to accompaniment for the plurality of frames in the frequency domain; And
A parameter comparator for selecting the index frame having the smallest ratio of the vocal to accompaniment in the plurality of frames in the frequency domain
Vocal melody reinforcement device comprising a.
제2항에 있어서, 상기 파라미터 추출기는,
상기 주파수영역에서, 상기 복수의 프레임 각각을 복수의 채널로 구분하고, EVRC(Enhanced Variable Rate Codec) 규격에 따라 구분된 상기 채널에 가중치를 적용하여 채널별 에너지값을 산출하고, 상기 채널별 에너지값을 이용하여 상기 복수의 프레임 각각에 대한 보컬 멜로디의 에너지값을 산출하는 채널 에너지 측정부;
상기 복수의 프레임 중 초기 기설정된 개수의 프레임으로부터 반주 멜로디를 예측하고, 예측된 상기 반주 멜로디의 에너지값을 산출하는 반주 멜로디 예측부; 및
상기 보컬 멜로디의 에너지값과 상기 반주 멜로디의 에너지값의 크기 비로부터 상기 보컬 대 반주의 크기 비를 산출하는 잡음비 측정부
를 포함하는 것인 보컬 멜로디 강화 장치.
The method of claim 2, wherein the parameter extractor,
In the frequency domain, each of the plurality of frames is divided into a plurality of channels, an energy value for each channel is calculated by applying weights to the channels classified according to an Enhanced Variable Rate Codec (EVRC) standard, and the energy value for each channel is calculated. A channel energy measurement unit configured to calculate an energy value of a vocal melody for each of the plurality of frames by using a value;
An accompaniment melody prediction unit predicting an accompaniment melody from an initial predetermined number of frames among the plurality of frames and calculating an energy value of the predicted accompaniment melody; And
Noise ratio measuring unit for calculating the size ratio of the vocal to the accompaniment from the ratio of the energy value of the vocal melody and the energy value of the accompaniment melody
Vocal melody reinforcement device comprising a.
제1항에 있어서, 상기 보컬 멜로디 강화 모듈은,
상기 지표 프레임에 기설정된 이득 값을 곱하여 상기 반주 복사본 신호를 생성하는 반주 복사본 신호 생성기;
상기 반주 복사본 신호의 자기상관계수에 따라 상기 반주 복사본 신호를 갱신 또는 갱신하지 않고 출력하는 반주 복사본 신호 갱신기; 및
상기 갱신 또는 갱신되지 않은 상기 반주 복사본 신호를 이용하여 보컬 멜로디 강화기
를 포함하는 것인 보컬 멜로디 강화 장치.
The method of claim 1, wherein the vocal melody enhancement module,
An accompaniment copy signal generator for generating the accompaniment copy signal by multiplying the index frame by a preset gain value;
An accompaniment copy signal updater for outputting the accompaniment copy signal without updating or updating the accompaniment copy signal according to the autocorrelation coefficient of the accompaniment copy signal; And
Vocal melody enhancer using the updated or unupdated accompaniment copy signal
Vocal melody reinforcement device comprising a.
제4항에 있어서, 상기 반주 복사본 신호 갱신기는,
현재 과정에서 생성된 상기 반주 복사본 신호와 상기 현재 과정의 이전 과정에서 생성된 반주 복사본 신호의 자기상관계수를 산출하는 자기상관계수 측정부;
상기 자기상관계수가 기설정된 임계치보다 크면, 현재 과정에서 생성된 상기 반주 복사본 신호와 상기 이전 과정에서 생성된 반주 복사본 신호의 평균치를 출력하고, 작으면 현재 과정에서 생성된 상기 반주 복사본 신호를 갱신하지 않고 그대로 출력하는 반주 복사본 신호 선택부
를 포함하는 것인 보컬 멜로디 강화 장치.
The apparatus of claim 4, wherein the accompaniment copy signal updater comprises:
An autocorrelation coefficient measuring unit configured to calculate an autocorrelation coefficient between the accompaniment copy signal generated in a current process and the accompaniment copy signal generated in a previous process of the current process;
If the autocorrelation number is greater than a preset threshold, an average value of the accompaniment copy signal generated in the current process and the accompaniment copy signal generated in the previous process is output. Accompaniment copy signal selector for output without modification
Vocal melody reinforcement device comprising a.
제4항에 있어서, 상기 보컬 멜로디 강화기는,
상기 보컬 대 반주의 크기 비를 이용하여 이득값을 결정하는 잡음비 비교부; 및
상기 이득값을 갱신 또는 갱신되지 않은 상기 반주 복사본 신호에 곱한 후, 상기 복수의 프레임으로부터 상기 이득값이 곱셈된 상기 반주 복사 신호를 뺀셈하여 상기 보컬 멜로디가 강화된 음악 신호를 생성하는 반주 신호 제거부
를 포함하는 것인 보컬 멜로디 강화 장치.
The method of claim 4, wherein the vocal melody enhancer,
A noise ratio comparator for determining a gain value using the magnitude ratio of the vocal to accompaniment; And
An accompaniment signal canceller which multiplies the gain value by an updated or unupdated accompaniment copy signal, and then subtracts the accompaniment radiation signal multiplied by the gain value from the plurality of frames to generate a music signal enhanced by the vocal melody
Vocal melody reinforcement device comprising a.
다음원 음악 신호의 복수의 프레임에 대한 보컬 대 반주의 크기 비를 산출하는 단계;
상기 복수의 프레임 중에서 상기 보컬 대 반주의 크기 비가 가장 적은 지표 프레임을 선택하는 단계;
상기 지표 프레임에 기설정된 이득 값을 곱하여 반주 복사본 신호를 생성하는 단계;
이전 단계의 반주 복사본 신호를 이용하여 생성된 상기 반주 복사본 신호를 갱신 또는 비갱신하는 단계;
상기 복수의 프레임으로부터 갱신 또는 비갱신된 상기 반주 복사본 신호를 뺄셈하여 보컬 멜로디가 강화된 상기 음악 신호를 생성하는 단계
를 포함하는 보컬 멜로디 강화 방법.
Calculating a magnitude ratio of vocal to accompaniment for a plurality of frames of a next original music signal;
Selecting an index frame having the smallest ratio of the vocal to accompaniment among the plurality of frames;
Generating an accompaniment copy signal by multiplying the index frame by a preset gain value;
Updating or not updating the accompaniment copy signal generated using the accompaniment copy signal of the previous step;
Subtracting the updated or un-updated accompaniment copy signal from the plurality of frames to generate the vocal melody enhanced music signal.
Vocal melody strengthening method comprising a.
제7항에 있어서, 상기 산출하는 단계는,
상기 복수의 프레임 각각을 복수의 채널로 구분하고, EVRC(Enhanced Variable Rate Codec) 규격에 따라 구분된 상기 채널에 가중치를 적용하여 채널별 에너지값을 산출하는 단계;
상기 채널별 에너지값을 이용하여 상기 복수의 프레임 각각에 대한 보컬 멜로디의 에너지값을 산출하는 단계;
상기 복수의 프레임 중 초기 기설정된 개수의 프레임으로부터 반주 멜로디를 예측하고, 예측된 상기 반주 멜로디의 에너지값을 산출하는 단계; 및
상기 보컬 멜로디의 에너지값과 상기 반주 멜로디의 에너지값의 크기 비로부터 상기 보컬 대 반주의 크기 비를 산출하는 단계
를 포함하는 것인 보컬 멜로디 강화 방법.
The method of claim 7, wherein the calculating step,
Dividing each of the plurality of frames into a plurality of channels and calculating an energy value for each channel by applying weights to the channels classified according to an Enhanced Variable Rate Codec (EVRC) standard;
Calculating an energy value of a vocal melody for each of the plurality of frames by using the energy value of each channel;
Predicting an accompaniment melody from an initial preset number of frames among the plurality of frames and calculating an energy value of the predicted accompaniment melody; And
Calculating a size ratio of the vocal to the accompaniment from the ratio of the energy value of the vocal melody to the energy value of the accompaniment melody
Vocal melody reinforcement method comprising a.
KR1020100131625A 2010-12-21 2010-12-21 Apparatus and Method for Vocal Melody Enhancement KR101211059B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100131625A KR101211059B1 (en) 2010-12-21 2010-12-21 Apparatus and Method for Vocal Melody Enhancement

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100131625A KR101211059B1 (en) 2010-12-21 2010-12-21 Apparatus and Method for Vocal Melody Enhancement

Publications (2)

Publication Number Publication Date
KR20120070185A KR20120070185A (en) 2012-06-29
KR101211059B1 true KR101211059B1 (en) 2012-12-11

Family

ID=46688109

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100131625A KR101211059B1 (en) 2010-12-21 2010-12-21 Apparatus and Method for Vocal Melody Enhancement

Country Status (1)

Country Link
KR (1) KR101211059B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006017940A (en) 2004-06-30 2006-01-19 Sony Corp Sound signal processing equipment and voice degree calculation method
JP2007004202A (en) 1999-02-09 2007-01-11 At & T Corp Method of speech enhancement with gain limitations based on speech activity, recording medium, and device
JP2008116952A (en) 2006-10-31 2008-05-22 Harman Becker Automotive Systems Gmbh Model-based enhancement of speech signal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007004202A (en) 1999-02-09 2007-01-11 At & T Corp Method of speech enhancement with gain limitations based on speech activity, recording medium, and device
JP2006017940A (en) 2004-06-30 2006-01-19 Sony Corp Sound signal processing equipment and voice degree calculation method
JP2008116952A (en) 2006-10-31 2008-05-22 Harman Becker Automotive Systems Gmbh Model-based enhancement of speech signal

Also Published As

Publication number Publication date
KR20120070185A (en) 2012-06-29

Similar Documents

Publication Publication Date Title
EP2539885B1 (en) Apparatus and method for modifying an audio signal using harmonic locking
Ono et al. Separation of a monaural audio signal into harmonic/percussive components by complementary diffusion on spectrogram
KR101670313B1 (en) Signal separation system and method for selecting threshold to separate sound source
JP4650662B2 (en) Signal processing apparatus, signal processing method, program, and recording medium
JP2007041593A (en) Method and apparatus for extracting voiced/unvoiced classification information using harmonic component of voice signal
EP2022041A1 (en) Selection of tonal components in an audio spectrum for harmonic and key analysis
JP5141397B2 (en) Voice processing apparatus and program
Benetos et al. Auditory spectrum-based pitched instrument onset detection
JP4217616B2 (en) Two-stage pitch judgment method and apparatus
KR101211059B1 (en) Apparatus and Method for Vocal Melody Enhancement
Amado et al. Pitch detection algorithms based on zero-cross rate and autocorrelation function for musical notes
Rigaud et al. Drum extraction from polyphonic music based on a spectro-temporal model of percussive sounds
Zaunschirm et al. A sub-band approach to modification of musical transients
Kraft et al. The tonalness spectrum: feature-based estimation of tonal components
JP5193130B2 (en) Telephone voice section detecting device and program thereof
WO2020039598A1 (en) Signal processing device, signal processing method, and signal processing program
JP6447357B2 (en) Audio signal processing apparatus, audio signal processing method, and audio signal processing program
Yasuraoka et al. I-divergence-based dereverberation method with auxiliary function approach
Zhou et al. A real-time frame-based multiple pitch estimation method using the resonator time-frequency image
KR101779563B1 (en) Boosting method and apparatus for harmonic components of audio signals
JP6930089B2 (en) Sound processing method and sound processing equipment
Boháč et al. Direct magnitude spectrum analysis algorithm for tone identification in polyphonic music transcription
Mauch Simple chord estimate: Submission to the MIREX chord estimation task
Mattern et al. A case study about the effort to classify music intervals by chroma and spectrum analysis
Stamatopoulos Harmonic Audio Object Processing in Time Domain

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee