KR101840015B1 - 스테레오 음악신호를 위한 반주신호 추출방법 및 장치 - Google Patents

스테레오 음악신호를 위한 반주신호 추출방법 및 장치 Download PDF

Info

Publication number
KR101840015B1
KR101840015B1 KR1020160175302A KR20160175302A KR101840015B1 KR 101840015 B1 KR101840015 B1 KR 101840015B1 KR 1020160175302 A KR1020160175302 A KR 1020160175302A KR 20160175302 A KR20160175302 A KR 20160175302A KR 101840015 B1 KR101840015 B1 KR 101840015B1
Authority
KR
South Korea
Prior art keywords
signal
percussion
value
harmonic
accompaniment
Prior art date
Application number
KR1020160175302A
Other languages
English (en)
Inventor
박형민
김범정
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020160175302A priority Critical patent/KR101840015B1/ko
Application granted granted Critical
Publication of KR101840015B1 publication Critical patent/KR101840015B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • G10H2210/305Source positioning in a soundscape, e.g. instrument positioning on a virtual soundstage, stereo panning or related delay or reverberation changes; Changing the stereo width of a musical source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/135Autocorrelation

Abstract

본 발명에 따르는 스테레오 음악신호를 위한 반주신호 추출장치는, 스테레오 음악신호를 입력받아 소프트 마스크를 상기 시간-주파수 영역의 음악신호에 적용하여 노래음성신호와 백그라운드 반주신호를 분리하여 출력하는 패닝 프로세싱부; 상기 패닝 프로세싱부가 출력하는 노래음성신호를 저해상도 스펙트럼으로 변환하여 크기 스펙트럼을 기준으로 메디안 필터링하여 하모닉 및 타악신호를 추출하는 하모닉 및 타악신호 분리부; 및 상기 백그라운드 반주신호와 상기 하모닉 및 타악신호를 입력받아 가산하여 강화된 반주신호를 생성하여 출력하는 가산부;로 구성됨을 특징으로 한다.

Description

스테레오 음악신호를 위한 반주신호 추출방법 및 장치{Music Accompaniment Extraction Method for Stereophonic Songs}
본 발명은 스테레오 음악신호를 위한 반주신호 추출기술에 관한 것으로, 더욱 상세하게는 스테레오 음악신호에 대해 패닝 프로세싱과 메디안 필터를 이용하여 반주신호를 추출하는 스테레오 음악신호를 위한 반주신호 추출방법 및 장치에 관한 것이다.
음악신호는 사람의 노래 음성에 따른 신호뿐만 아니라 다양한 악기가 발생하는 신호가 혼합된 신호이며, 이는 모노(mono) 음악신호와 스테레오(stereo) 음악신호 등으로 나뉠 수 있다.
상기 스테레오 음악신호는 좌 신호와 우 신호를 포함한다. 상기 스테레오 음악신호는 2채널 신호뿐만 아니라, 멀티 채널 신호(5.1채널 또는 7.1 채널)도 포함된다. 상기 멀티 채널 신호는 서브 우퍼(woofer) 채널, 센터 채널과 몇 쌍의 2채널 스테레오 신호(Left front와 Right front, Left surround와 Right surround 등)로 구성된다.
상기한 바와 같은 좌 신호와 우 신호로 스테레오 음악신호를 구성하는 스테레오 기술을 이용하여 제작자는 보컬 신호와 악기 신호들을 좌 신호와 우 신호에 서로 다른 에너지 비율로 패닝하여 스테레오 음악신호를 듣는 청취자에게 입체감을 줄 수 있다.
최근에는 청취자에게 입체감을 주기 위해 제작된 스테레오 음악신호를 다시 보컬 신호와 반주 신호로 분리하는 기술이 제안되고 있다. 이는 가라오케 서비스 나 멜로디 전사(melody transcription) 서비스 등에서 그 활용범위가 매우 넓다.
그러나 보컬 또는 반주는 매우 다양한 성질을 가지므로, 단순하고 전형적인 모델로는 반주를 명확하고 구체적으로 기술하기는 어렵다. 이에 음악신호를 보컬신호와 반주신호를 효과적으로 분리하기 위한 노력은 계속되어 왔다.
특히 보컬은 주요 피치의 굴곡을 식별하고 그의 하모닉 구조를 추정하는 것으로부터 추정될 수 있고, 반주는 가우시안 혼합 모델(Gaussian mixture model,GMM)에 근거한 확률적인 프레임 워크를 사용하거나 반복 패턴을 검출하는 것에 의해 추정될 수 있다. 또한 하모닉이나 타악기 분리는 노래 음성 강화를 위해 채용되기도 한다.
이러한 기술들이 주로 모노 방식의 음악신호를 위해 제안되었으나, 인기있는 대부분의 음악은 스테레오 방식으로 녹음되므로 스테레오 음악신호에 대한 반주신호 추출기술이 요구되었다. 이러한 스테레오 음악신호의 경우에는 스테레오 음악신호를 구성하는 좌 및 우신호 사이의 차이를 이용하고 있다.
이러한 기술로는 대한민국 특허청에 보컬 신호 제거 장치 및 방법을 명칭으로 하여 특허공개된 제10-2012-0132342호가 있으며, 이는 스테레오 신호의 입력 좌 신호와 입력 우 신호 사이의 차 신호를 추출하는 단계; 입력 좌 신호로부터 입력 좌 신호의 좌 패닝(panning) 정보를 획득하고, 입력 우 신호로부터 입력 우 신호의 우 패닝 정보를 획득하는 단계; 및 차 신호에 좌 패닝 정보를 적용하여 출력 좌 신호를 생성하고, 차 신호에 우 패닝 정보를 적용하여 출력 우 신호를 생성하는 단계를 포함하는 보컬 신호 제거 기술을 개시한다.
그리고 대한민국 특허청에 음성 신호 분리 장치를 명칭으로 하여 특허공개된 제10-2012-0130908호가 있다. 이는 입력된 음악 신호에 포함된 음성 신호의 특징을 이용하여 상기 음악 신호에 대한 상기 음성 신호의 기여도를 계산하는 기여도 계산부; 및 계산된 상기 기여도를 기초로 한 상기 음성 신호에 대한 필터 이득으로 상기 음악 신호로부터 상기 음성 신호를 분리하는 음성 신호 분리부를 포함하는 음성 신호 분리 기술을 개시하고 있다.
그리고 대한민국 특허청에 오디오 신호 처리방법 및 장치를 명칭으로 하여 특허공개된 제10-2010-0024477호는, 적어도 하나 이상의 오브젝트 신호가 다운믹스된 다운믹스 정보를 수신하는 단계; 오브젝트 정보를 포함하는 부가 정보와, 믹스 정보를 획득하는 단계; 상기 획득된 부가 정보와 믹스 정보에 기초하여 멀티 채널 정보를 생성하는 단계; 및 상기 멀티 채널 정보를 이용하여, 상기 다운믹스 정보로부터 출력 채널 신호를 생성하는 단계를 포함하되, 상기 오브젝트 정보는 상기 오브젝트 신호의 레벨 정보, 상관 정보, 게인 정보 및 그들의 보충 정보 중 적어도 하나를 포함하는 오디오 신호 처리 기술을 개시하고 있다.
상기한 바와 같이 종래에는 스테레오 음악신호로부터 노래음성신호를 분리하여 반주신호를 생성하는 다양한 기술이 제안되고 있으나, 품위가 높은 반주 신호를 추출하기 위한 노력은 계속되고 있다.
또한 반주 신호의 추출을 위한 계산 과정 및 소요 시간을 감소시켜 모바일 단말 등에서도 반주 생성 서비스를 원활하게 제공할 수 있게 하는 기술의 개발이 요구되었다.
대한민국 특허공개 제10-2012-0132342호 대한민국 특허공개 제10-2012-0130908호 대한민국 특허공개 제10-2010-0024477호
본 발명은 스테레오 음악신호에서 노래음성신호를 효과적으로 분리하여 품위가 높은 반주신호를 추출할 수 있는 스테레오 음악신호를 위한 반주신호 추출방법 및 장치를 제공하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명에 따르는 스테레오 음악신호를 위한 반주신호 추출장치는, 스테레오 음악신호를 입력받아 소프트 마스크를 상기 시간-주파수 영역의 음악신호에 적용하여 노래음성신호와 백그라운드 반주신호를 분리하여 출력하는 패닝 프로세싱부; 상기 패닝 프로세싱부가 출력하는 노래음성신호를 저해상도 스펙트럼으로 변환하여 크기 스펙트럼을 기준으로 메디안 필터링하여 하모닉 및 타악신호를 추출하는 하모닉 및 타악신호 분리부; 및 상기 백그라운드 반주신호와 상기 하모닉 및 타악신호를 입력받아 가산하여 강화된 반주신호를 생성하여 출력하는 가산부;로 구성됨을 특징으로 한다.
상기한 본 발명은 스테레오 음악신호에서 노래음성신호를 효과적으로 분리하여 품위가 높은 반주신호를 추출할 수 있는 효과를 야기한다.
도 1은 본 발명의 바람직한 실시예에 따르는 스테레오 음악신호를 위한 반주신호 추출장치의 구성도.
도 2는 테스트 노래들의 반주신호들을 통해 얻은 스테레오 패닝 노브 값의 샘플 표준 편차를 예시한 도면.
도 3은 본 발명의 바람직한 실시예에 따르는 스테레오 음악신호를 위한 반주신호 추출장치의 성능을 실험한 결과를 정리한 표들을 도시한 도면.
본 발명은 스테레오 음악신호에서 노래음성신호를 추출하는 것뿐만 아니라 원곡과 동일한 반주신호를 추출하여 품위가 높은 반주 서비스를 제공할 수 있게 한다.
또한 본 발명은 스테레오 음악신호를 얻는 즉시 모바일 장치에서 빠른 시간내에 반주 서비스를 즐길 수 있도록 하기 위해 계산속도를 향상시킨다.
일반적으로 스테레오 녹음에 따른 음악신호를 구성하는 좌우채널신호는 그들 사이의 차이가 중요한 정보를 제공하며, 노래음성의 경우에는 패닝을 통해 센터로 패닝된다. 이에 본 발명은 노래음성신호를 추출하기 위해 좌우채널신호의 유사도를 이용하며, 시간-주파수(t-f) 영역에서 스테레오 패닝 노브(knob)로부터 계산된 가중치로 소프트 마스킹함으로써 백그라운드 반주신호를 추출한다.
또한 베이스와 같은 저주파수 구성요소의 패닝은 일반적으로 주파수가 감소함에 따라 센터에 접근한다. 이에 본 발명은 저주파수 영역에서의 백그라운드 반주신호의 추출을 향상시키기 위한 가중치를 반주의 선택 제어 폭이 스테레오 패닝 노브의 표준편차에 비례하는 가우시안 윈도우에 의해 결정한다.
또한 추정된 스테레오 패닝 노브의 불확정성 때문에, 상기 소프트 마스크의 가중치에 대한 바닥 값은 전체 음악 파워에 대한 반주 파워의 평균 비율에 따라 증감한다.
한편 노래음성뿐만 아니라 드럼 사운드 등과 같은 다양한 타악 구성요소들도 중심으로 이동되는 편이라, 패닝 기반 반주 추출 방식에 따르면 타악 성분들이 의도치 않게 제거되었다.
이렇게 제거된 타악 성분들은 원음에 가까운 반주신호를 생성하기 위해서는 반주신호에 포함되어야만 한다. 이에 본 발명은 저해상도 스펙트럼에 메디안 필터링을 적용하여 패닝기반 추출된 노래음성신호에서 타악 성분을 분리하고, 이 타악 성분을 상기 패닝기반 추출된 백그라운드 반주신호에 부가한다.
이러한 본 발명에 따르는 스테레오 음악신호를 위한 반주신호 추출장치의 구성을 도 1을 참조하여 설명한다.
상기 스테레오 음악신호를 위한 반주신호 추출장치는 패닝 프로세싱부(100)와 하모닉 및 타악신호 분리부(102)와 가산부(104)로 구성된다.
상기 패닝 프로세싱부(100)는 스테레오 음악신호를 입력받아 패닝기반 추출된 노래음성신호와 패닝기반 백그라운드 반주신호로 분리하여 출력한다. 상기 하모닉 및 타악신호 분리부(102)는 상기 패닝기반 노래음성신호를 입력받아 중심으로 패닝된 하모닉 및 타악신호와 음성신호를 서로 분리하여 출력한다. 상기 가산부(104)는 상기 패닝기반 추출된 백그라운드 반주신호와 상기 하모닉 및 타악신호를 가산하여 강화된 반주신호를 생성하여 출력한다.
이제 상기한 본 발명에 따르는 패닝 프로세싱부(100)와 상기 하모닉 및 타악 신호 분리부(102)의 처리절차를 좀 더 상세히 설명한다.
<패닝 프로세싱부>
대부분의 음악들에서 패닝은 스테레오 효과를 시뮬레이트하기 위해 사용되며, 개별적인 소스들 또는 그들 자신의 진폭 패닝은 노래를 편집하기 위해 혼합된다. 또한 노래음성은 전형적으로 센터로 패닝된다. 이에 스테레오 음악신호에서 좌우채널신호 사이의 차이는 노래음성신호와 백그라운드 반주신호를 분리하는 데에 중요한 정보를 제공한다.
상기 패닝 프로세싱부(100)는 먼저 STFT(short-time Fourier transform)를 이행하며, 이는 시간-주파수 영역에서의 분석을 위해 44.1 kHz의 샘플링 레이트에서 2048 샘플 프레임 시프트를 가지는 4096 포인트의 해밍 윈도우를 사용한다.
만일 음악신호가 n개의 소스들
Figure 112016125447969-pat00001
로 구성된다면, 주파수 빈 k와 프레임 m에서, 좌우 채널 신호
Figure 112016125447969-pat00002
,
Figure 112016125447969-pat00003
는 수학식 1로 나타낼 수 있다.
Figure 112016125447969-pat00004
상기 수학식 1에서,
Figure 112016125447969-pat00005
는 좌우 채널 신호, k는 주파수 빈 식별번호, m은 프레임 식별번호, j는 소스식별번호,
Figure 112016125447969-pat00006
는 j번째 소스,
Figure 112016125447969-pat00007
는 좌 또는 우 채널 신호에서 j번째 소스
Figure 112016125447969-pat00008
의 패닝 계수를 나타낸다.
여기서, 에너지 보존 법칙에 의해,
Figure 112016125447969-pat00009
Figure 112016125447969-pat00010
이므로,
Figure 112016125447969-pat00011
이다. 그리고 상기
Figure 112016125447969-pat00012
는 스테레오 패닝 노브(knob) 값이다.
만일 i번째 소스가 시간-주파수 영역의 일부(t-f segment)에서 우세하다고 가정하면, 수학식 1은 수학식 2로 근사화된다.
Figure 112016125447969-pat00013
그리고 상기 스테레오 패닝 노브 값은 유사성 측정은 수학식 3으로 정의된다.
Figure 112016125447969-pat00014
상기 수학식 3에서 *은 복합 공액 연산자를 나타내고,
Figure 112016125447969-pat00015
는 유사성 측정값이고,
Figure 112016125447969-pat00016
는 스테레오 패닝 노브(knob) 값이다.
여기서, 만일 해당 소스가 사이드 양쪽으로 패닝되었다면, 상기 유사성 측정값은 0으로 최소화되고, 소스가 중앙으로 패닝되었다면 상기 유사성 측정값은 최대값을 가진다.
이러한 유사성 측정은 소프트 마스크
Figure 112016125447969-pat00017
의 계산이 사용되며, 이는 좌우 채널 신호
Figure 112016125447969-pat00018
,
Figure 112016125447969-pat00019
을 노래음성 신호와 백그라운드 반주 신호로 분류시에 적용되며, 이는 수학식 4로 표현된다.
Figure 112016125447969-pat00020
상기 수학식 4에서
Figure 112016125447969-pat00021
는 좌우 채널 신호에서의 패닝 프로세싱된 신호의 t-f 표현이고, 상기
Figure 112016125447969-pat00022
는 좌우 채널 신호에 대한 소프트 마스크이고, 상기
Figure 112016125447969-pat00023
는 좌우 채널 신호이다.
상기 시간 영역에서 필터링된 좌우 채널 신호는, 역 STFT과 오버랩-가산(OLA) 방법을 사용하여 재합성될 수 있다.
상기 노래음성신호는 상기 소프트 마스크
Figure 112016125447969-pat00024
에 의해 추출되며, 상기 소프트 마스크
Figure 112016125447969-pat00025
는 수학식 5에 따른다.
Figure 112016125447969-pat00026
상기 수학식 5에서
Figure 112016125447969-pat00027
는 음악적인 노이즈를 회피하기 위한 바닥값이며,
Figure 112016125447969-pat00028
는 노래음성신호의 선택도에 대응되는 폭을 제어하는 값이며,
Figure 112016125447969-pat00029
는 좌우 채널 신호의 유사성 측정값이다.
본 발명은 백그라운드 반주신호의 효과적인 추출을 위해 수학식 6에 따른 소프트 마스크를 이용한다.
Figure 112016125447969-pat00030
상기 수학식 6에서,
Figure 112016125447969-pat00031
는 노래음성신호의 선택도에 대응되는 폭을 제어하는 값으로 고정된 값이 아닌 주파수에 따라 변화하는 값이며,
Figure 112016125447969-pat00032
는 음악적인 노이즈를 회피하기 위한 바닥값이며,
Figure 112016125447969-pat00033
는 추정된 스테레오 패닝 노브 값을 나타내며, 이는 수학식 7에 의해 획득된다.
Figure 112016125447969-pat00034
상기 수학식 7에서
Figure 112016125447969-pat00035
는 유사성 측정값이다.
일반적으로 노래음성의 피치는 80Hz보다 높다고 알려졌으므로, 80Hz보다 낮은 주파수 영역에서의 모든 성분들은 배경 반주 신호로 간주하여 통과시킨다.
도 2(a)는 20개의 테스트 노래들의 반주신호들을 통해 얻은 스테레오 패닝 노브 값
Figure 112016125447969-pat00036
의 샘플 표준 편차를 나타낸다. 이를 참조하면, 베이스 등과 같은 저주파 성분들의 패닝은 주파수가 감소됨에 따라 노래음성신호의 패닝에 대응되는 센터로 근접한다.
이에 저주파 영역에서 배경 반주의 선택적 증가를 위해, 상기 수학식 6에서
Figure 112016125447969-pat00037
는 추정된 스테레오 패닝 노브 값
Figure 112016125447969-pat00038
의 평균 샘플 표준 편차를 회귀하여 얻은 값에 비례하며, 이는 수학식 8에 따른다.
Figure 112016125447969-pat00039
상기 수학식 8에서
Figure 112016125447969-pat00040
는 k번째 주파수 빈에 따른 노래음성신호의 선택도에 대응되는 폭을 제어하는 값이며,
Figure 112016125447969-pat00041
는 비례상수로서
Figure 112016125447969-pat00042
로 설정되며,
Figure 112016125447969-pat00043
는 80Hz보다 큰 모든 주파수에서의 스테레오 패닝 노브 값
Figure 112016125447969-pat00044
의 평균 샘플 표준 편차를 회귀 함수를 나타내며 이는 수학식 9에 따른다.
Figure 112016125447969-pat00045
상기 수학식 9에서 k는 주파수 빈을 나타낸다.
또한 상기 수학식 6에서 상기
Figure 112016125447969-pat00046
는 주파수 영역의 대부분에서 작은 양의 숫자로 설정된다. 하지만, 약 0.5로 추정된 스테레오 패닝 노브 값은, 반주신호를 포함하는 대부분의 구성요소들은 중심으로 패닝되는 저주파 영역에서 노래음성에 대응되는 것을 의미하지는 않는다.
이러한 추정된 스테레오 패닝 노브 값의 불확정성때문에, 80Hz보다 큰 전체 주파수 영역에서
Figure 112016125447969-pat00047
는 증가되며 이는 수학식 10에 따른다.
Figure 112016125447969-pat00048
상기 수학식 10에서
Figure 112016125447969-pat00049
는 k번째 주파수 빈에 사용할 음악적인 노이즈를 회피하기 위한 바닥 값이며,
Figure 112016125447969-pat00050
는 음악적인 노이즈를 회피하기 위한 원래의 바닥 값에 대응되며,
Figure 112016125447969-pat00051
Figure 112016125447969-pat00052
으로, 도 2의 (b)에 나타낸 테스트된 20곡의 평균에 근거한 전체 음악신호의 파워와 반주신호의 파워의 비율을 회기시키는 함수이다.
<하모닉 및 타악신호 분리부(102)>
이제 본 발명의 바람직한 실시예에 따르는 하모닉 및 타악신호 분리부(102)의 동작을 설명한다.
전형적인 스테레오 녹음에서, 드럼 소리 등과 같은 하모닉 및 타악 구성요소는 노래음성과 함께 중심으로 패닝된다. 그러므로 패닝 프로세싱부(100)는 소프트 마스크를 추정하여 추출된 백그라운드 반주신호에서 하모닉 및 타악 성분을 제거하였다. 의도하지 않게 제거된 하모닉 및 타악 성분들은 패닝 기반 소프트 마스크의 반전(invert)에 의해 획득된 신호, 즉 패닝기반 추출된 노래음성신호에 포함된다.
상기 하모닉 및 타악 구성요소들은 주파수 빈들과 시간 프레임들에서 저해상도의 스펙트럼에 메디안 필터를 적용하여 분리할 수 있으며, 이는 반주신호의 강화를 위해 패닝 프로세싱부(100)에 의해 추출된 반주신호에 가산된다.
일반적으로 하모닉 및 타악 이벤트는 t-f 스펙트럼에서 수직 및 수평 라인으로 강하게 나타나므로, 상기 하모닉 및 타악 이벤트는 주파수 빈들과 타임 프레임들 각각에 대해, 크기를 기준으로 메디안 필터링하여 추출한다. 즉 메디안 필터는 미리 정해진 크기를 초과하는 스펙트럼을 하모닉 또는 타악 이벤트로서 추출하여 출력한다.
그리고 하모닉 및 타악 성분을 효과적으로 추출하기 위해, 메디안 필터는 저해상도 스펙트럼에 적용된다.
그러므로 패닝 프로세싱으로부터 복원된 좌우 채널 시간 영역의 신호들은 512 샘플들의 프레임 쉬프트를 가진 1024 샘플들의 FFT 저해상도 스펙트럼으로 변환된다.
상기 스펙트럼에서, 주파수 빈 k'와 타임 프레임 m'에서 강화될 하모닉 및 타악 구성요소들은 좌우 채널 신호들
Figure 112016125447969-pat00053
,
Figure 112016125447969-pat00054
로부터 소프트 마스크에 의해 추출될 수 있으며, 이는 수학식 11에 따른다.
Figure 112016125447969-pat00055
상기 수학식 11에서
Figure 112016125447969-pat00056
는 타악 성분을 분리하기 위한 소프트 마스크를 나타내고,
Figure 112016125447969-pat00057
는 하모닉 억압 스펙트럼을 나타내고,
Figure 112016125447969-pat00058
는 타악 억압 스펙트럼을 나타낸다.
상기한 하모닉 및 타악 구성요소들은 패닝 기반 소프트 마스크의 반전(invert)에 의해 획득된 신호, 즉 패닝기반 추출된 노래음성신호에 포함된다.
상기 수학식 11에서
Figure 112016125447969-pat00059
,
Figure 112016125447969-pat00060
는 하모닉 및 타악 억압 스펙트럼을 나타내며, 이는 수학식 12에 따른다.
Figure 112016125447969-pat00061
상기 수학식 12에서
Figure 112016125447969-pat00062
는 9개의 주파수 빈과 9개의 타임 프레임에 대한 메디안 필터이다. 상기
Figure 112016125447969-pat00063
Figure 112016125447969-pat00064
로부터 계산된 저해상도 스펙트럼을 나타낸다.
그러므로 하모닉 및 타악 구성요소들의 스펙트럼은 수학식 13에 의해 추출된다.
Figure 112016125447969-pat00065
상기 수학식 13에서,
Figure 112016125447969-pat00066
는 추출한 타악 성분 신호의 t-f 표현을 나타내고,
Figure 112016125447969-pat00067
는 타악 성분을 분리하는 소프트 마스크를 나타내며, 수학식 12에 의해 획득된
Figure 112016125447969-pat00068
,
Figure 112016125447969-pat00069
를 수학식 11에 적용하여 획득한 것이다. 그리고,
Figure 112016125447969-pat00070
는 패닝 프로세싱으로 분리된 타악 성분이 섞인 목소리 신호의 t-f 표현을 나타낸다.
상기한 바와 하모닉 및 타악 구성요소들이 추출되면, 이를 시간영역의 신호로 복구한다. 이후 상기 시간영역의 하모닉 및 타악신호는 패닝 프로세싱에 의해 시간 영역 백그라운드 반주 신호에 가산되어 반주 신호를 강화한다. 여기서, 좌우 채널 신호들은 스테레오 효과가 유지된 음악 반주 신호들을 획득하기 위해 개별적으로 처리된다.
<실험결과>
본 발명의 성능을 평가하기 위해 보컬 및 반주 트랙을 별도로 사용하지 않는 입체 음향 녹음 기능이 있는 20개의 한국 대중 음악을 선택하였다.
그리고 성능은 측정을 위해 널리 채택되는 툴 박스인 BSS EVAL 툴박스를 사용한다. 이는 SDR(signal-to-distortion ratio), SIR(signal-to-interference ratio), SAR(signal-toartifacts ratio)를 측정하는 것이다.
그리고 보컬 트랙에는 코러스 파트가 포함되어 있지 않은데, 코러스 파트는 중심으로 패닝되지 않는다. 이에 코러스 파트가 있는 구간이 없는 구간을 선택하여 평가하였으며, 평가 결과는 도 3에 도시한 바와 같으며 모든 결과는 20곡의 평균이다.
상기 도 3의 표 1은 백그라운드 반주신호가 수학식 8 및 10에 의해 얻어진
Figure 112016125447969-pat00071
Figure 112016125447969-pat00072
를 가진 수학식 7에 의해 추정된 스테레오 패닝 노브를 사용하는 수학식 6의 패닝 기반 소프트 마스크에 의해 추출된 성능 결과를 나타낸다. 이러한 성능 결과는 본 발명이 기존의 패닝 방법보다 반주 추출에 효과적이라는 것을 나타낸다.
상기 도 3의 표 2는 메디안 필터링에 의해 증강된 본 발명에 따르는 성능 점수를 나타내며, 모노럴 녹음의 음악 및 음성 분리를 위한 적응적 REPET(adaptive repeating pattern extraction technique)은 반복적인 음악 구조에 의해 배경 반주를 효과적으로 추출할 수 있기 때문에, 참조용으로 채택되었다.
상기 적응형 REPET를 수행하기 위해, STFT는 50%의 오버랩을 가진 24s의 길이를 가진 윈도우를 이용하여 비트 스펙트럼이 계산되는 동안, 20ms의 프레임 쉬프트를 가진 40ms의 길이를 가지는 윈도우를 이용하여 계산된다.
소프트 t-f 마스킹은 높은 측정 점수로 반주를 추출하였고 다른 매개 변수는 같은 값으로 설정된다.
이에 따르는 표 2에 나타낸 결과는 본 발명이 백그라운드 반주를 성공적으로 추출하고 있음을 나타낸다.
본 발명에 따르는 방법의 계산 시간은 3.40 GHz의 Intel(R) Xeon(R) CPU E3-1231 v3와 32 GB RAM을 가진 PC의 Matla에서 평균 3초의 음악에 대해 약 1초이므로, 충분히 효율적이다.
이와 같이 본 발명은 패닝 프로세싱과 후속하는 메디안 필터링을 통하여 스테레오 녹음된 음악신호에 대해 반주신호를 효과적으로 추출함과 아울러 계산시간을 현격하게 감소시킬 수 있다. 또한 이는 20곡의 한국 대중 음악을 이용한 실험을 통해 확인하였다.
100 : 패닝 프로세싱부
102 : 하모닉 및 타악 신호 분리부
104 : 혼합부

Claims (10)

  1. 스테레오 음악신호를 위한 반주신호 추출장치에 있어서,
    스테레오 음악신호를 입력받아 소프트 마스크를 시간-주파수 영역의 음악신호에 적용하여 노래음성신호와 백그라운드 반주신호를 분리하여 출력하는 패닝 프로세싱부;
    상기 패닝 프로세싱부가 출력하는 노래음성신호를 저해상도 스펙트럼으로 변환하여 크기 스펙트럼을 기준으로 메디안 필터링하여 하모닉 및 타악신호를 추출하는 하모닉 및 타악신호 분리부; 및
    상기 백그라운드 반주신호와 상기 하모닉 및 타악신호를 입력받아 가산하여 강화된 반주신호를 생성하여 출력하는 가산부;로 구성되며,
    상기 패닝 프로세싱부는,
    채널 신호간 유사성 측정값으로 특정되는 스테레오 패닝 노브값과 노래음성의 선택도에 대응되게 변화되는 제어값에 따라 변화하는 소프트 마스크를 상기 스테레오 음악신호에 적용함을 특징으로 하는 스테레오 음악신호를 위한 반주신호 추출장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 소프트 마스크는 수학식 14에 따름을 특징으로 하는 스테레오 음악신호를 위한 반주신호 추출장치.
    수학식 14
    Figure 112016125447969-pat00073

    Figure 112016125447969-pat00074

    Figure 112016125447969-pat00075

    상기 수학식 14에서,
    Figure 112016125447969-pat00076
    는 노래음성신호의 선택도에 대응되는 폭을 제어하는 값이고,
    Figure 112016125447969-pat00077
    는 음악적인 노이즈를 회피하기 위한 바닥값이며,
    Figure 112016125447969-pat00078
    는 추정된 스테레오 패닝 노브 값을 나타내며,
    Figure 112016125447969-pat00079
    는 유사성 측정값이고,
    Figure 112016125447969-pat00080
    는 k번째 주파수 빈에 따른 노래음성신호의 선택도에 대응되는 폭을 제어하는 값이며,
    Figure 112016125447969-pat00081
    는 비례상수이고,
    Figure 112016125447969-pat00082
    는 미리 정해둔 주파수보다 큰 모든 주파수에서의 스테레오 패닝 노브 값
    Figure 112016125447969-pat00083
    의 평균 샘플 표준 편차를 회귀 함수임.
  4. 제3항에 있어서,
    상기 바닥값은 미리 정해진 주파수 이상인 경우에는 전체 음악신호의 파워와 반주신호의 파워의 비율을 회기시키는 바닥값을 가짐을 특징으로 하는 스테레오 음악신호를 위한 반주신호 추출장치.
  5. 제1항에 있어서,
    상기 하모닉 및 타악신호 분리부는 수학식 15에 따라 하모닉 및 타악신호를 추출함을 특징으로 하는 스테레오 음악신호를 위한 반주신호 추출장치.
    수학식 15
    Figure 112016125447969-pat00084

    상기 수학식 15에서,
    Figure 112016125447969-pat00085
    는 추출한 타악 성분 신호의 t-f 표현을 나타내고,
    Figure 112016125447969-pat00086
    는 저해상도 스펙트럼에 대해 크기 스펙트럼을 기준으로 메디안 필터링하여 획득한 하모닉 억압 스펙트럼과 타악 억압 스펙트럼에 따라 결정되는 소프트 마스크를 나타내고,
    Figure 112016125447969-pat00087
    는 패닝 프로세싱으로 분리된 타악 성분이 섞인 노래음성신호의 t-f 표현을 나타냄.
  6. 스테레오 음악신호를 위한 반주신호 추출방법에 있어서,
    스테레오 음악신호를 입력받아 소프트 마스크를 시간-주파수 영역의 음악신호에 적용하여 노래음성신호와 백그라운드 반주신호를 분리하여 출력하는 패닝 프로세싱단계;
    상기 노래음성신호를 입력받아 저해상도 스펙트럼으로 변환하여 크기 스펙트럼을 기준으로 메디안 필터링하여 하모닉 및 타악신호를 추출하는 하모닉 및 타악신호 분리단계; 및
    상기 백그라운드 반주신호와 상기 하모닉 및 타악신호를 입력받아 가산하여 강화된 반주신호를 생성하여 출력하는 가산단계;로 구성되며,
    상기 패닝 프로세싱 단계에서,
    상기 소프트 마스크는 채널 신호간 유사성 측정값으로 특정되는 스테레오 패닝 노브값과 노래음성의 선택도에 대응되게 변화되는 제어값에 따라 변화시킴을 특징으로 하는 스테레오 음악신호를 위한 반주신호 추출방법.
  7. 삭제
  8. 제6항에 있어서,
    상기 소프트 마스크는 수학식 16에 따름을 특징으로 하는 스테레오 음악신호를 위한 반주신호 추출방법.
    수학식 16
    Figure 112017112947095-pat00088

    Figure 112017112947095-pat00089

    Figure 112017112947095-pat00090

    상기 수학식 16에서,
    Figure 112017112947095-pat00091
    는 노래음성신호의 선택도에 대응되는 폭을 제어하는 값이고,
    Figure 112017112947095-pat00092
    는 음악적인 노이즈를 회피하기 위한 바닥값이며,
    Figure 112017112947095-pat00093
    는 추정된 스테레오 패닝 노브 값을 나타내며,
    Figure 112017112947095-pat00094
    는 유사성 측정값이고,
    Figure 112017112947095-pat00095
    는 k번째 주파수 빈에 따른 노래음성신호의 선택도에 대응되는 폭을 제어하는 값이며,
    Figure 112017112947095-pat00096
    는 비례상수이고,
    Figure 112017112947095-pat00097
    는 미리 정해둔 주파수보다 큰 모든 주파수에서의 스테레오 패닝 노브 값
    Figure 112017112947095-pat00098
    의 평균 샘플 표준 편차를 회귀 함수임.
  9. 제8항에 있어서,
    상기 바닥값은 미리 정해진 주파수 이상인 경우에는 전체 음악신호의 파워와 반주신호의 파워의 비율을 회기시키는 바닥값을 가짐을 특징으로 하는 스테레오 음악신호를 위한 반주신호 추출방법.
  10. 제6항에 있어서,
    상기 하모닉 및 타악신호 분리는 수학식 17에 따라 하모닉 및 타악신호를 추출함을 특징으로 하는 스테레오 음악신호를 위한 반주신호 추출방법.
    수학식 17
    Figure 112016125447969-pat00099

    상기 수학식 17에서,
    Figure 112016125447969-pat00100
    는 추출한 타악 성분 신호의 t-f 표현을 나타내고,
    Figure 112016125447969-pat00101
    는 저해상도 스펙트럼에 대해 크기 스펙트럼을 기준으로 메디안 필터링하여 획득한 하모닉 억압 스펙트럼과 타악 억압 스펙트럼에 따라 결정되는 소프트 마스크를 나타내고,
    Figure 112016125447969-pat00102
    는 패닝 프로세싱으로 분리된 타악 성분이 섞인 노래음성신호의 t-f 표현을 나타냄.
KR1020160175302A 2016-12-21 2016-12-21 스테레오 음악신호를 위한 반주신호 추출방법 및 장치 KR101840015B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160175302A KR101840015B1 (ko) 2016-12-21 2016-12-21 스테레오 음악신호를 위한 반주신호 추출방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160175302A KR101840015B1 (ko) 2016-12-21 2016-12-21 스테레오 음악신호를 위한 반주신호 추출방법 및 장치

Publications (1)

Publication Number Publication Date
KR101840015B1 true KR101840015B1 (ko) 2018-04-26

Family

ID=62082531

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160175302A KR101840015B1 (ko) 2016-12-21 2016-12-21 스테레오 음악신호를 위한 반주신호 추출방법 및 장치

Country Status (1)

Country Link
KR (1) KR101840015B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102070071B1 (ko) * 2019-04-25 2020-01-31 방종철 연주 노래 공유 및 재생 가능한 노래 반주기, 노래 재생 방법 및 노래 반주 시스템
KR20200065248A (ko) 2018-11-30 2020-06-09 한국과학기술원 음원의 가수 목소리를 사용자의 음색으로 변환하는 시스템 및 방법
CN111276122A (zh) * 2020-01-14 2020-06-12 广州酷狗计算机科技有限公司 音频生成方法及装置、存储介质
CN111667805A (zh) * 2019-03-05 2020-09-15 腾讯科技(深圳)有限公司 一种伴奏音乐的提取方法、装置、设备和介质
WO2022200136A1 (en) * 2021-03-26 2022-09-29 Sony Group Corporation Electronic device, method and computer program

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200065248A (ko) 2018-11-30 2020-06-09 한국과학기술원 음원의 가수 목소리를 사용자의 음색으로 변환하는 시스템 및 방법
CN111667805A (zh) * 2019-03-05 2020-09-15 腾讯科技(深圳)有限公司 一种伴奏音乐的提取方法、装置、设备和介质
CN111667805B (zh) * 2019-03-05 2023-10-13 腾讯科技(深圳)有限公司 一种伴奏音乐的提取方法、装置、设备和介质
KR102070071B1 (ko) * 2019-04-25 2020-01-31 방종철 연주 노래 공유 및 재생 가능한 노래 반주기, 노래 재생 방법 및 노래 반주 시스템
CN111276122A (zh) * 2020-01-14 2020-06-12 广州酷狗计算机科技有限公司 音频生成方法及装置、存储介质
CN111276122B (zh) * 2020-01-14 2023-10-27 广州酷狗计算机科技有限公司 音频生成方法及装置、存储介质
WO2022200136A1 (en) * 2021-03-26 2022-09-29 Sony Group Corporation Electronic device, method and computer program

Similar Documents

Publication Publication Date Title
KR101840015B1 (ko) 스테레오 음악신호를 위한 반주신호 추출방법 및 장치
Cano et al. Musical source separation: An introduction
US9111526B2 (en) Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
US8805697B2 (en) Decomposition of music signals using basis functions with time-evolution information
Liutkus et al. Adaptive filtering for music/voice separation exploiting the repeating musical structure
CA2790651C (en) Apparatus and method for modifying an audio signal using envelope shaping
US20130064379A1 (en) Audio separation system and method
FitzGerald Vocal separation using nearest neighbours and median filtering
CN107851444A (zh) 用于将声学信号分解为声音对象的方法和系统、声音对象及其使用
Buyens et al. A stereo music preprocessing scheme for cochlear implant users
Benetos et al. Auditory spectrum-based pitched instrument onset detection
CN115699160A (zh) 电子设备、方法和计算机程序
Goto A predominant-F0 estimation method for polyphonic musical audio signals
Vincent et al. Blind audio source separation
Doğan et al. Music/singing voice separation based on repeating pattern extraction technique and robust principal component analysis
Sharma et al. Singing characterization using temporal and spectral features in indian musical notes
Ilmoniemi et al. Subjective evaluation of musical instrument timbre modifications
US20230057082A1 (en) Electronic device, method and computer program
Sofianos et al. Singing voice separation based on non-vocal independent component subtraction and amplitude discrimination
Marxer et al. Modelling and separation of singing voice breathiness in polyphonic mixtures
Deif et al. A local discontinuity based approach for monaural singing voice separation from accompanying music with multi-stage non-negative matrix factorization
Ghisingh et al. Study of Indian classical music by singing voice analysis and music source separation
Razzaq et al. An Advanced DSP Algorithm for Music-Less Audio Stream Generation
Magi et al. Objective and subjective evaluation of seven selected all-pole modelling methods in processing of noise corrupted speech
Burute et al. Comparative Study of Filter Performance for Separation of Singing Voice from Music Accompaniment

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant