KR101481060B1 - 판소리 자동 채보 장치 및 방법 - Google Patents

판소리 자동 채보 장치 및 방법 Download PDF

Info

Publication number
KR101481060B1
KR101481060B1 KR1020130123824A KR20130123824A KR101481060B1 KR 101481060 B1 KR101481060 B1 KR 101481060B1 KR 1020130123824 A KR1020130123824 A KR 1020130123824A KR 20130123824 A KR20130123824 A KR 20130123824A KR 101481060 B1 KR101481060 B1 KR 101481060B1
Authority
KR
South Korea
Prior art keywords
sound
node
pansori
pitch
unit
Prior art date
Application number
KR1020130123824A
Other languages
English (en)
Inventor
이준환
주영호
Original Assignee
전북대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전북대학교산학협력단 filed Critical 전북대학교산학협력단
Priority to KR1020130123824A priority Critical patent/KR101481060B1/ko
Application granted granted Critical
Publication of KR101481060B1 publication Critical patent/KR101481060B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G3/00Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
    • G10G3/04Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

본 발명은 판소리 음원을 자동으로 분석하여 채보하는 판소리 자동 채보 장치 및 방법에 관한 것으로, 본 발명의 판소리 자동 채보 장치는 판소리 음원을 입력받아 구조를 분석하여 장단과 마디를 예측하는 구조 분석부, 구조 분석을 통해 판소리 음원의 소리 부분을 부호화하고 채보하는 소리부분 채보부를 포함한다.

Description

판소리 자동 채보 장치 및 방법{Device and method for automatic Pansori transcription}
본 발명은 자동 채보 장치 및 방법에 관한 것으로, 더 구체적으로는 판소리 음원을 자동으로 분석하여 채보하는 판소리 자동 채보 장치 및 방법에 관한 것이다.
인류에게 노래는 오래전부터 존재해왔던 하나의 문화 현상이며 감정표현의 수단이자 유희의 도구였다. 노래는 음성의 범주에 속하며 발성 기관을 통해 표현되어 언어적인 모습을 지닌다. 하지만 음악은 음성과는 다르게 음고, 음량, 음가, 음색 등과 같은 음악적 속성을 기준으로 구별된다.
ISMIR(International Symposium of Music Information Retrieval)과 함께 개최되는 MIREX(Music Information Retrieval Evaluation eXchange)에서는 해마다 음악적 특징을 바탕으로 곡조 인식, 박자 인식, 음정 찾기, 가사 찾기, 곡 정보 알아내기 등등 다양한 과제를 경쟁하며 기술과 정보가 교류되고 있다.
자동 음악 채보 장치는 기존의 음악에 익숙한 전문가가 직접 노래를 듣고 채보하는 방법과는 다르게, 음악 및 악기 인식은 소리로부터 그 소리를 특징 짓는 속성을 추출하고 이를 이용하여 자동으로 채보를 진행한다. 이러한 자동 음악 채보 장치은 허밍의 형태로 흥얼거리는 소리를 악보로 옮겨주기 때문에 작곡의 보조적인 수단으로 활용할 수 있으며, 자동 음악 채보 결과는 악보를 활용한 음원 검색, 악보기반의 음악의 감성분류 및 검색, 가창 교육 프로그램 개발 등에 다양하게 응용될 수 있다.
최근 음성 신호 처리와 기계학습 기술이 발전하면서 국내에서도 자동 채보, 내용기반 음원 검색 등에 대한 연구가 상당히 진척되어 왔지만 우리 전통음악과 관련된 음악 정보 분석과 자동 채보 등은 미진한 단계에 머물러 있다. 한편 우리 전통음악은 점점 대중들에게 잊혀지면서 구전으로 전해 내려오는 수많은 노래들이 점차적으로 명맥이 끊길 위기에 처해 있다. 뿐만 아니라 유네스코 지정 무형문화유산인 판소리 역시 정보공학적인 분석과 자동 채보 방법 등 다각적인 연구가 필요한 시점이다. 즉 정보공학적인 연구를 통해 판소리 등 전통음악의 지역적 차이, 음율의 차이, 이야기별 차이, 또는 명창과 계보의 차이 등을 연구하여 문화적 가치를 올려야 한다. 나아가 컴퓨터를 이용하여 판소리를 들으면서 해설의 도움을 받을 수 있고, 인문학적으로나 음악적으로나 검색을 뒷받침할 수 있는 기본적인 토대가 필요하다.
전술한 바와 같이 정보이론적인 접근을 통해 판소리를 채보하려는 연구는 극히 제한적이었다.
박형순은 녹음실에서 창자의 목소리를 음악의 직접 녹음하여 음성 시각기를 이용한 채보 방법을 제안하였다. 박형순의 방법은 사람의 발성을 음향학적 형태로 구별하여 채보하는 방법을 제시하였지만, 사람이 듣고 판단하여 일일이 녹음 구간을 나누어 사용하고 있어서 자동 채보 방법이라 보기 어렵다.
한국등록특허공보 제0059566호(출원일 : 1989.10.31)
본 발명의 목적은 판소리 구조 분석을 통해 판소리 음원을 자동으로 분석하고 채보하여 사용자가 판소리를 들을 시 해설의 도움을 받을 수 있는 판소리 자동 채보 장치 및 방법을 제공하는 것이다.
상술한 본 발명의 목적을 달성하기 위하여, 본 발명은 판소리 음원을 입력받아 구조를 분석하여 장단과 마디를 예측하는 구조 분석부, 구조 분석을 통해 판소리 음원의 소리 부분을 부호화하고 채보하는 소리부분 채보부를 포함하는 판소리 자동 채보 장치 및 방법을 제공할 수 있다.
여기서, 구조 분석부는, 판소리 음원의 피치(pitch) 정보, 에너지, MFCC(Mel-Frequency Cepstral Coefficients)의 특징을 추출하는 특징추출부, 피치 정보의 유무에 따라 음성구간과 비음성구간을 구별하는 소리분별부, 판소리 음원으로부터 전문가를 통해 분별된 합 또는 궁(진양조의 경우는 합과 궁)의 위치에서 15차원 벡터 열 형태의 윈도우 템플릿을 구성하여 장단을 구별하는 장단분별부, 합과 궁의 주기가 가우시언(Gaussian) 분포를 가진다고 가정하고 선형 칼만 필터를 통해 장단의 합과 궁의 관측된 시간간격을 평활화시켜 마디를 추정하는 마디예측부를 포함한다.
다음으로, 소리부분 채보부는, 마디분별부에서 찾은 마디를 통해 마디가 지속되는 기간으로 소리의 템포를 알고 해당 소리의 장단을 기준으로 음길이를 산정하며 소리 부분에서 음성구간과 비음성구간을 구분하고 비음성구간은 쉼표로, 음성 구간은 IOI(Inter Onset Interval;동일 온셋 구간)들을 분할하여 산정된 음 길이에 따라 음길이 부호를 결정하는 음길이부호부, IOI들의 피치값을 표준 주파수 테이블과 비교하여 코드를 산정하고 해당 코드의 주파수에 따라 음높이를 상대음정으로 부호화하는 음높이부호부를 포함한다.
본 발명의 판소리 자동 채보 장치 및 방법에 따르면, 판소리 구조 분석을 통해 판소리 음원을 자동으로 분석하고 채보함으로써 판소리 내용을 파악할 수 있고, 판소리 음원이 담고 있는 정서를 예측하는데도 활용할 수 있다.
도 1은 본 발명의 바람직한 실시예에 따른 판소리 자동 채보 장치의 구성도;
도 2는 판소리 자동 채보 방법의 흐름도;
도 3은 소리와 아니리의 시작 지점의 특징을 나타내는 도면;
도 4는 합 또는 궁 분별 윈도우 템플릿의 생성 과정을 나타내는 도면;
도 5는 장단별 합 또는 궁 분별 윈도우 템플릿의 길이 산출 과정을 나타내는 도면;
도 6은 소리부분의 자동채보 과정을 나타내는 도면;
도 7은 음높이 부호화의 구분 기준을 나타내는 도면; 및
도 8은 장단에 따른 마디 내의 박자수 및 음표의 관계를 나타내는 도면이다.
이하, 첨부한 도면을 참조로 본 발명의 바람직한 실시예에 따른 판소리 자동 채보 장치 및 방법에 대하여 상세하게 설명한다.
도 1에 도시한 바와 같이, 본 실시예에 따른 판소리 자동 채보 장치(100)은 판소리 음원(110), 구조 분석부(200), 소리부분 채보부(300)를 포함한다.
구조 분석부(200)는 공연 실황을 녹음한 판소리 음원(110)을 입력받아 컴퓨터가 처리할 수 있는 wave 형태로 저장하여 훈련 집합과 검증 집합으로 나누어 처리한다.
또한, 구조 분석부(200)는 특징추출부(210), 소리분별부(220), 장단분별부(230), 마디예측부(240)를 포함한다.
먼저, 특징추출부(210)는 훈련 집합과 검증 집합의 모든 판소리 음원(110)에서 합을 찾기 위한 북소리와 음성 부분의 취득을 위해 피치(pitch) 정보, 에너지, MFCC(Mel-Frequency Cepstral Coefficients) 등의 특징을 추출한다.
피치(pitch) 정보는 음고를 표현하며, 단일음의 주파수와 관계된 지각적인 특성으로 AMDF(Average Magnitude Difference Function)를 이용하여 추출한다.
Figure 112013093708487-pat00001
[수학식 1]은 샘플링된 음성신호 x(n)과 이 위치에서 m만큼 이동된 음성신호 x(n+m)의 차의 절대값의 평균으로, 본 발명에서는 샘플링 주파수 23000Hz, 프레임 크기 N은 320, 창(window) 함수의 넓이는 230으로 설정하여 매 0.01초마다 피치정보를 추출하였다.
음원의 에너지는 시간에 따른 음의 세기(amplitude)를 보여주는 특징으로 [수학식 2]와 같이 표현되며, 여기서 x(n)은 음성신호, w(n)은 창 함수를 표현한다.
Figure 112013093708487-pat00002
MFCC 특징은 주파수 분포 중에서 인간의 청각장치에 민감한 부분을 포착하는 것이며 13차원 벡터로 표현되고, 소리 분류에 사용되는 대표적인 특징이다. 인간 청각장치의 소리영역 주파수 인식은 선형적이지 않고 로그분포를 따르기 때문에 MFCC는 청각의 주파수인식장치을 모델로 하여 주파수를 인식 모델을 구현한다.
다음으로, 소리분별부(220)는 소리와 아니리가 포함되어 있는 판소리 음원(110)에서 소리만을 분별해내기 위하여 의미있는 피치 정보의 유무에 따라 음성구간과 비음성구간(pause)을 구별한다.
즉, 도 3에 도시한 바와 같이, 소리의 시작 지점을 전후로 비교해보면 아니리 부분은 비음성구간이 음성구간에 비해 많고 비음성구간이 짧게 끊어지는 특징을 가진 반면, 소리 부분은 비음성구간보다 음성구간의 길이가 길고 비율도 높다. 또한, 소리를 시작하는 부분에 있어 소리꾼이 크게 호흡을 하므로 약 0.3초 이상의 비음성구간이 항상 존재한다.
소리분별부(220)는 판소리 음원(110) 내의 피치 정보 유무에 따라 음성구간과 비음성구간을 분할한 후, 현재 비음성구간의 길이가 0.3초 이상이고 이전 10개의 구간에서 음성구간/비음성구간이 1.0 이하이고 다음 10개의 구간에서 음성구간/비음성구간이 1.0 이상일 때, 현재의 위치부터 소리의 시작 지점으로 판별한다. 그리고, 현재 비음성구간의 길이가 0.3초 이상이고 이전 10개의 구간에서 음성구간/비음성구간이 1.0 이상이고 다음 10개의 구간에서 음성구간/비음성구간이 1.0 이하일 때, 현재의 위치부터 아니리의 시작 지점으로 판별한다. 위의 두 단계를 음원의 끝까지 반복한다.
다음으로, 장단분별부(230)는 훈련 집합에 속해 있는 판소리 음원(110)으로부터 전문가를 통해 분별된 합과 궁(진양조)의 위치에서 15차원 벡터 열 형태의 윈도우 템플릿을 구성하여 장단을 분별한다.
여기서, 합과 궁은 북소리에 해당한다.
상술한 바와 같이 음향적 속성을 나타내는 13차원 벡터인 피치 정보, 에너지, MFCC 등 3가지 속성을 시간 축 상에 늘어놓으면 한 시간 단면에서 15차원의 벡터가 되며, 이를 전문가에 의해 미리 찾아진 합의 전후에서 매 0.01초 단위로 취득하면 도 4(a)의 한 합의 부분에서와 같은 모습의 15차원 벡터 열이 생성된다. 따라서 훈련 집합에 속하는 장단이 알려진 소리마다 합 또는 궁(진양조의 경우 합과 궁) 부분을 전후해서 이들을 추출하고 평균을 내면 각 장단의 합 또는 궁 분별 15차원 다차원 벡터 열 형태의 윈도우 템플릿을 구성할 수 있다.
합 또는 궁 부분에서 북소리의 지속시간은 장단마다 다르고 이를 최적으로 검출하기 위한 윈도우 템플릿의 지속시간 역시 다르다. 따라서 본 발명에서는 각 장단의 최적의 윈도우의 지속시간을 도 5와 같이 예측하였다. 즉 100ms부터 2000ms까지 100ms 단위로 도 4에서와 같이 추출한 윈도우 템플릿의 크기를 다르게 하여 합 위치 부근에서 NCC(Normalized Cross Correlation;정규화된 상호연관성)를 구하고 국부 최대치 부분을 찾아 합 또는 궁 위치라고 가정할 때, 이들 위치들에서 NCC 값의 평균을 최대로 하는 윈도우 템플릿의 지속시간을 장단별 윈도우 템플릿의 지속시간으로 간주하였다.
도 5에서 NCC는 [수학식 3]과 같이 구해질 수 있다.
Figure 112013093708487-pat00003
[수학식 3]에서 T는 윈도우 템플릿의 크기 N을 갖는 대표치 추정 윈도우에서의 15차원 특징벡터 열을 의미하고, F는 판소리 음원의 해당위치에서의 특징벡터 열을 의미한다. 또한, Tj(i)와 Fj(i)는 j번째 성분의 윈도우 내의 i위치에서의 특징 값을 의미하며
Figure 112013093708487-pat00004
Figure 112013093708487-pat00005
는 j번째 성분들의 템플릿과 판소리 음원(110)의 윈도우 내에서의 특징 값의 평균을,
Figure 112013093708487-pat00006
Figure 112013093708487-pat00007
는 표준편차를 의미한다.
즉, 벡터 열의 NCC 값은 각 성분의 NCC 값의 평균에 해당한다.
NCC를 구한 후, 합(궁) 주변에 높은 유사성을 가지는 지점이 많이 나타나므로 유사성의 국부 최대치를 가지는 부분을 찾기 위해 NLMS(Non-Local Maxima Suppression) 과정을 거친다. NLMS란 국부 최대치를 구하는 방법으로, 자신보다 크기가 작은 인접값을 0으로 만드는 연산을 의미한다.
이와 같이, 장단에 따른 최적의 합 또는 궁 분별 윈도우 템플릿의 특징 및 그 지속시간이 모두 상이하기 때문에, 이를 이용하게 되면 장단의 종류를 분별할 수 있다.
즉, 진양조의 합 과 궁은 여느 다른 장단과의 특성과 전혀 다르므로 오로지 진양조의 분별 윈도우 템플릿를 이용하여 유사성을 판별하였을 때 가장 높은 유사도를 나타낸다. 따라서 예상되는 여러 합의 위치에서 장단별 윈도우 템플릿과 유사성을 판별하였을 때 유사성이 가장 크고, 소리 부분 전체에서 가장 많이 나타나는 장단이 현재 소리 부분의 장단이라고 판단할 수 있다. 따라서 소리 부분 전체에서 에너지가 높게 나타나는 부분을 추려놓고 그 부분에서 각 장단의 윈도우 템플릿들과 유사성을 판별하여 가장 높은 NCC 값을 제공하는 장단에 투표를 진행하며 다수결의 원칙에 따라 소리 전체에 대해 가장 많이 득표를 한 장단을 해당 장단으로 판단한다.
다음으로, 마디예측부(240)는 장단에 따라 음길이를 예측하고 음길이를 부호화하기 위해 필요한데 합과 합 사이를 마디라고 간주하고 각 마디의 박자수와 2분박 또는 3분박에 따라 음표의 길이를 산출할 수 있다.
진양조의 경우에는 24박이 합 또는 궁의 위치에 따라 4등분으로 나누어질 수 있으며 6박씩을 한 마디로 가정하고 3분박이라는 가정 하에 이 마디 길이를 6으로 나눈 길이를 8분 음표 3개로 가정할 수 있다.
먼저, 소리 부분은 중간에 변박이 없기 때문에 마디 구분을 위한 합(궁)의 출현 시기도 일정하게 반복된다. 그러나 실제 NCC와 NLMS 과정을 거친 합(궁) 예상지점은 매우 불규칙적이다. 즉, 유사도를 바탕으로 한 측정치에 오차를 가질 수 있으며 경우에 따라서는 고수가 합 또는 궁을 생략할 수도 있어 누락될 가능성이 있다.
따라서, 본 발명에서는 합 또는 궁의 주기가 가우시언(Gaussian) 분포를 가진다고 가정하고 선형 칼만 필터(Kalman filter)를 이용하여 장단의 합과 궁의 관측된 마디위치를 평활화한 결과를 활용하여 마디를 추정한다.
칼만 필터는 정확한 시간 간격을 알지 못해도 시간에 따라 변화하는 추세를 반영하면서 합 또는 궁 예상 지점의 평균적인 시간 간격을 추정한다.
본 발명에서 사용된 선형 칼만 필터는 예측단계와 갱신단계에서 [수학식 4]와 같다.
Figure 112013093708487-pat00008
[수학식 4]에서 0, t, t-1는 몇 번째 데이터인지를, ^는 추정값, y는 측정값을 나타내며, x는 상태값들로 인접한 합 또는 궁과 합 또는 궁 사이의 시간간격 즉, 주기를 의미한다.
갱신 단계에서는 1차 저주파 통과 필터(가중 이동 평균)와 동일한 형태로 예측값과 현재 측정값을 사용하며 본 발명의 합 또는 궁 위치의 기반이 된다. F와 H는 시스템 모델 행렬로, 본 발명에서는 1 x 1로 1을 취하였다. Q와 R은 이들 상태와 출력의 잡음 공분산을 정의하는 잡음 행렬로서, 역시 1 x 1로 Q는 0.0001, 측정노이즈 R은 0.01로 지정하였다. 초기 오차공분산 P0는 1000으로 하였으며,
Figure 112014096042145-pat00009
은 진양조는 11초, 중모리는 10초, 중중모리는 6초, 자진모리는 3초의 장단별 시간 간격을 예측값 x의 초기값으로 지정하였다. 해당 초기값들은 훈련 집합의 판소리 음원(110)의 소리부분의 평균적인 장단별 합 또는 궁의 시간 간격이다.
본 발명에서 최초의 합 또는 궁 위치 시작은 소리 부분에서의 첫 15초 안(적어도 첫 번째 합 또는 궁이 예상되는 시기)에 NLMS로 추려진 NCC 값이 0.4 이상(안전하게 합 또는 궁에서의 값이라고 판단)인 지점을 기준점으로 삼았다. 만약 구간 내에 해당 기준점이 없다면 구간 내에서 가장 큰 NCC 유사도 측정값의 지점을 기준점으로 삼는다. 기준점 이후의 NLMS로 추려진 NCC 값들의 국부 최대 위치들의 시간 간격을 계산하며 이들을 측정 값 y로 간주하였다. 칼만 필터에 의한 갱신 값들은 정상상태에 도달하기까지는 데이터에 따라 변화폭이 크기 때문에 기준점 위치로부터 일정 기간 동안의 갱신치는 안정된 추정 위치를 제공하지 못한다.
따라서, 본 발명에서는 장단이 구별된 소리부분을 뒤에서부터 앞으로 재추정하는 방법을 사용하여 소리의 시작부분의 부정확한 갱신치들의 정확성을 향상시켰다.
즉, 시간이 진행하는 방향(순방향)으로 추정해 나가다가 소리의 끝 부분에서 마지막으로 추정된 지점을 바탕으로 찾은 합 또는 궁 위치를 기준으로 역방향으로 칼만 필터를 다시 적용하였다. 이때 이전 칼만 필터의 순방향 단계의 변수들을 그대로 계승하여 진행한다.
최종적인 합 또는 궁 위치의 판단은 역으로 진행되는 칼만 필터를 적용할 시 갱신된 합 또는 궁의 지점에서의 전후 1초 내에 NLMS로 추려진 NCC의 국부 최대치가 존재 한다면 해당 지점을 합 또는 궁의 지점, 즉 마디 분별위치라 판별한다. 만약 그런 국부 최대치가 존재하지 않는다면 고수가 합 또는 궁의 북소리를 생략했다고 판단하여 예측된 지점을 마디라 판별한다.
소리부분 채보부(300)는 음길이부호정보추출부(310)와 음높이/길이부호부(320)를 포함한다.
소리부분 채보부(300)는 구조 분석부에서 찾은 마디를 통해 마디가 지속되는 기간으로 소리의 템포를 알고 해당 소리의 장단을 기준으로 음길이를 산정한다. 마찬가지로 소리부분에서 음성구간과 비음성구간을 구분하고 비음성구간은 쉼표로, 음성 구간은 IOI(Inter Onset Interval;동일 온셋 구간)들을 분할하여 산정된 음 길이에 따라 음길이 부호를 결정할 수 있다. 또한 음의 높이는 IOI들의 피치값을 표준 주파수 테이블과 비교하여 코드를 산정하고 해당 코드의 주파수에 따라 상대음정으로 부호화한다.
음길이부호정보추출부(310)는 구조 분석부(200)에서 얻은 장단과 마디위치를 이용하여 음길이 부호화에 필요한 정보를 얻는다.
구조 분석부(200)에서는 소리의 장단을 분별해내며 각 장단에서의 합 또는 궁의 위치를 찾아낸다. 이 합 또는 궁의 위치로부터 마디를 추출할 수 있으며 이 마디는 장단 정보와 함께 템포의 변화에 따른 음 길이를 추출하는데 중요한 정보를 제공한다.
음높이/길이부호부(320)는 음높이부호부(330)와 음길이부호부(340)을 포함한다.
음높이부호부(330)는 피치추출부(330a), 피치평활화부(330b), 피치분할부(330c), 음높이부호화부(330d)를 포함한다.
먼저 피치추출부(330a)는 소리분별부(220)에서 얻은 소리부분의 wave 파일로부터 상술한 [수학식 1]의 AMDF(Average Magnitude Difference Function)을 이용하여 피치를 추출한다.
소리 부분에서 ADMF로 추출된 피치 정보는 동일 피치에서도 잡음에 따른 변화가 심하므로, 피치평활화부(330b)가 TV(Total Variation) 필터를 통해 피치 정보를 평활화시킨다.
TV(Total Variation)란 연속된 신호 값 사이에 얼마나 많은 변화가 있는지를 측정하는 방법이다.
원래 신호 x와 잡음 n을 가정할 때, 잡음이 섞인 신호 y는 [수학식 5]와 같으며, TV 필터는 [수학식 6]의 목적함수 J(x)를 최소로 하는 추정치
Figure 112013093708487-pat00010
을 구하는 것이다.
Figure 112013093708487-pat00011
Figure 112013093708487-pat00012
[수학식 6]에서 λ를 통해 평활화의 정도를 조절할 수 있으며 잡음 레벨이 클수록 λ를 크게 선택한다.
다음으로, 피치분할부(330c)는 TV 필터를 거친 피치 정보를 음성구간과 비음성구간으로 구분하고, 음성구간에서는 음정이 동일하게 유지되는 IOI들을 추출한다. 이를 위해 BIC(Baysian Information Criteria) 기반 알고리즘을 이용한다.
본 발명에서는 분할된 음절을 개별 음으로 보고, 개별 음이 유지되는 기간을 동일음정 구간(IOI)으로 간주한다. 그러나 노래 부르는 사람의 음정이 불안한 경우에는 음절 분할이 파편화되어 많은 IOI들이 추출되는 경향이 있다. 따라서 이러한 파편화에 따른 채보 불안정함을 완화하기 위해 인접한 IOI의 피치의 로그 값이 0.05 이하인 경우에는 병합하였다. 또한 에너지 성분 중 전체 에너지의 평균 이하는 절삭하여 0으로 수정하고 이 구간을 휴지기로 판단한다.
다음으로, 음높이부호화부(330d)는 피치 정보에 따라 음높이(음정)을 부호화하는데, 그 방법으로는 절대음정을 이용하는 방법, 상대음정을 이용하는 방법이 있다. 절대음정을 이용하는 경우에는 노래의 건(key)을 고려하여 부호화할 수 있으며, 상대음정을 이용하는 경우에는 건 정보는 무시되고 모든 음이 다장조를 기준으로 부호화된다.
본 발명에서는 사람이 음정을 인지할 때와 같이 외부에서 주어지는 기준 음에 의존하여 음정을 판별하는 상대음정 부호화 방법을 사용하는데, 즉 옥타브 및 음계별 표준 주파수 표를 이용하여 음의 높이를 판단한다.
그러나 국악의 5음계와 서양의 12음계의 모델이 서로 다르기 때문에 동일한 방법을 적용하는데 문제가 있다. 국악의 음악에서는 5음계(도(궁), 레(상), 미(각), 솔(치), 라(우))로만 이루어져 있고 반음이 존재하지 않는다. 서양 음악을 채보할 시 IOI의 대표치와 가까운 피치에 해당하는 음 높이를 부여하면 되지만, 국악의 경우는 도 7과 같은 부호화 구분기준을 적용해야 한다.
따라서 서양 음계로 도 7의 피치 기준을 이용하여 우리 음계의 음 높이로 부호화한다. 즉 도(궁)와 레(상), 레(상)와 미(각), 솔(치)과 라(우)의 경우에는 각각 해당 서양 반음 음정들을 기준으로 나누게 되고, 반음 관계인 미(각)와 솔(치)의 경우 서양 음계의 파와 파#의 중간 지점을, 라(우)와 도(궁)의 경우 서양 음계의 라#과 시의 중간 지점을 기준으로 음 높이를 부호화한다.
그러나 국악의 특성상 피치 정보가 정확하지 않은 경우가 있는데, 비교적 높은 음정임에도 피치 추출기로부터 지나치게 낮게 피치가 추출되는 경우는 일정기간 지속되는 음이 아닌 순간적인 파열음 또는 고수의 북소리와 소리꾼의 노래가 섞여 있을 때 발생하게 된다. 따라서 이러한 특징을 갖는 IOI는 미결정(undefined)으로 분류되어 건을 탐색하는 과정에서 제외되고 음 높이 채보에서 제외한다.
음 높이를 부호화하는 과정은 다음과 같다.
먼저 상대 음정으로 음높이 부호화를 달성하기 위해서 건을 추정한 후, 이는 전술한 파열음 구간을 제외하고 21개의 건 모델의 상대 음과의 유사성을 측정하여 가장 높은 유사도를 건 모델을 찾고 이를 이용하여 도 7의 기준에 따라 5음계(도(궁), 레(상), 미(각), 솔(치), 라(우))에 대한 음높이 부호화를 시도한다. 각 IOI의 강건한 대표 음정의 결정을 위해 외톨이(outlier) 데이터를 배제한 알파 절삭 평균(trimmed mean)을 이용한다.
음길이부호부(340)는 음길이산정부(340a), 음길이부호화부(340b), 음길이보정부(340c)를 포함한다.
음길이산정부(340a)는 음길이부호정보추출부(310)에서 얻은 장단과 마디 지속시간 정보를 통해 마디마다 음 길이에 해당하는 음 지속 시간을 알아낸다. 도 8의 두 번째와 세 번째 열은 장단에 따른 한 마디의 박자 수 및 대응되는 음 길이를 보여주고 있으며, 마지막 열은 마디의 지속시간을 D라 할 경우
Figure 112013093708487-pat00013
에 해당하는 길이를 환산하여 보여주고 있다.
예로써 자진모리의 경우 한 마디 D가 4 박이며 박자의 기준이 점 4분 음표이기 때문에
Figure 112013093708487-pat00014
가 한 마디 내에 12개 존재할 수 있고 따라서
Figure 112013093708487-pat00015
의 길이는 D/12에 해당한다. (단 진양조의 경우는 장단이 4개의 각으로 이루어져 있으며 각각의 각을 마디라 가정할 경우를 표현하였다.)
Figure 112013093708487-pat00016
의 길이에 0.5(
Figure 112013093708487-pat00017
), 1.0초(
Figure 112013093708487-pat00018
), 1.5(
Figure 112013093708487-pat00019
), 2(
Figure 112013093708487-pat00020
), 3(
Figure 112013093708487-pat00021
), 4(
Figure 112013093708487-pat00022
), 6(
Figure 112013093708487-pat00023
), 8(
Figure 112013093708487-pat00024
)을 곱하면 음길이 부호화에 사용될 음표 길이가 산출되며, 음길이 부호화부(340b)에서는 조정된 IOI 또는 휴지기들의 길이를 이들 길이와 비교하는 방식으로 음표 부호화가 진행된다.
즉 IOI와 가장 가까운 음표의 길이로 임시 부호화되고 이 임시 음표는 다음 단계인 음길이 보정단계에서 탐색집합을 구성하는데 활용된다. 본 발명에서는 32분 음표 이하의 음은 고려하지 않으므로, IOI가 최소 음길이 즉 32분 음표보다 짧을 경우, BIC에 의한 음절분할 과정에서 파편화에 의해 발생하였다고 가정하여 이전 IOI와 병합하여 부호화한다.
따라서, 구조 분석부(200)에서 예측한 마디의 지속시간이 길면 템포가 느린 구간이고, 마디의 지속시간이 짧으면 템포가 빠른 구간인 것으로 판단됨에 따라 동일한 장단의 동일 음표라도 발성되는 기간이 달라지기 때문에 템포 변화에 무관한 음길이 부호화를 위해서 음길이부호화부(340b)는 템포 정보를 반영하여 음길이를 부호화한다.
음길이보정부(340c)는 IOI들을 가장 가까운 음 길이의 음표로 임시로 부호화하고 난 후 음표 길이의 합이 마디를 다 채우지 못하거나 남는 경우 음표 길이를 보정한다.
먼저 IOI와 음표의 길이 사이의 오차를 고려하여 임시로 부여된 음표의 길이를 조정하고, 마디 내의 최적의 음표 조합을 찾기 위해 모든 조합의 가능성을 고려하되 탐색공간을 줄이기 위해 임시로 부여된 음표의 길이에 최대 한 단계 음표 차이를 두고 탐색 음표조합을 구성한다.
즉 현재 임시로 부여된 음표보다 한 단계 위의 음표와 한 단계 아래의 음표, 혹은 그대로의 음표를 고려하여 탐색 음표조합을 구성한다.
또한 음표의 길이는 4분음표 이하 비율이 0.5씩 일정한 증분으로 증가하지만 점 4분음표부터 증분이 커지게 되므로 탐색조합에 포함하면 변화량이 커져 최적의 음표조합으로 선정되기 어렵기 때문에 불필요한 탐색을 줄이기 위해 임시 부여된 음표가 점 4분 음표 이상은 고려하지 않는다.
이렇게 구해진 탐색집합의 모든 음표 조합의 길이가 박자수와 일치하는 것들을 찾아내고 마디 내 모든 IOI와 해당 음표의 길이 사이의 절대오차의 합이 최소로 되는 최적의 음표조합을 찾아 음길이 부호화를 수행한다.
도 2에 도시한 바와 같이, 본 실시예에 따른 판소리 자동 채보 방법은 판소리 음원을 입력받아 wave 형태로 저장하여 훈련 집합과 검증 집합으로 나누는 제1단계(S110); 상기 판소리 음원의 피치 정보, 에너지, MFCC 특징을 추출하는 제2단계(S120); 상기 피치 정보를 통해 판소리 음원의 음성구간과 비음성구간을 나누어 소리의 구간을 분별하는 제3단계(S130); 상기 훈련 집합에 속해 있는 상기 판소리 음원의 소리 구간에서 획득한 템플릿을 이용하여 장단을 분별하는 제4단계(S140); 상기 장단에 따른 합의 위치를 예상하고 합과 합 사이를 마디로 예측하는 제5단계(S150); 상기 음성구간의 IOI(Inter Onset Interval;동일 온셋 구간)들의 피치 정보에 따라 음높이를 부호화하는 제6단계(S160); 상기 장단과 상기 마디의 지속 시간을 통해 마디마다 음길이를 환산하고 음길이를 부호화하는 제7단계(S170)를 포함한다.
이상, 본 발명의 바람직한 실시예를 참조로 본 발명의 판소리 자동 채보 장치 및 방법에 대하여 설명하였지만, 명세서에 언급된 수치들은 다르게 변형될 수 있고, 본 발명의 권리범위는 상술한 실시예에 한정되지 않으며, 본 발명의 사상을 벗어나지 않는 범위 내에서 수정, 변경 및 다양한 변형실시예가 가능함은 당업자에게 명백하다.
110 : 판소리 음원 200 : 구조 분석부
210 : 특징추출부 220 : 소리분별부
230 : 장단분별부 240 : 마디예측부
300 : 소리부분 채보부 310 : 음길이부호정보추출부
320 : 음높이/길이부호부 330 : 음높이부호부
330a : 피치추출부 330b : 피치평활화부
330c : 피치분할부 330d : 음높이부호화부
340 : 음길이부호부 340a : 음길이산정부
340b : 음길이부호화부 340c : 음길이보정부

Claims (13)

  1. 판소리 음원을 입력받아 구조를 분석하여 장단과 마디를 예측하는 구조 분석부;
    상기 구조 분석을 통해 상기 판소리 음원의 소리 부분을 부호화하고 채보하는 소리부분 채보부를 포함하고,
    상기 구조 분석부는,
    상기 판소리 음원의 피치(pitch) 정보, 에너지 및 MFCC(Mel-Frequency Cepstral Coefficients)의 특징을 추출하는 특징추출부;
    상기 피치 정보의 유무에 따라 음성구간과 비음성구간을 구별하는 소리분별부;
    상기 판소리 음원으로부터 전문가를 통해 분별된 합과 궁의 위치에서 15차원 벡터 열 형태의 윈도우 템플릿을 구성하여 장단을 구별하는 장단분별부;
    상기 합과 궁의 주기가 가우시언(Gaussian) 분포를 가진다고 가정하고 선형 칼만 필터를 통해 상기 장단의 합과 궁으로 관측된 마디위치를 평활화시켜 마디를 추정하는 마디예측부를 포함하며,
    상기 MFCC의 특징은,
    주파수 분포 중에서 특정 부분을 포착하는 것으로, 13차원 벡터로 표현되는 것을 특징으로 하는 판소리 자동 채보 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 판소리 음원을 입력받아 구조를 분석하여 장단과 마디를 예측하는 구조 분석부;
    상기 구조 분석을 통해 상기 판소리 음원의 소리 부분을 부호화하고 채보하는 소리부분 채보부를 포함하고,
    상기 구조 분석부는,
    상기 판소리 음원의 피치(pitch) 정보, 에너지 및 MFCC(Mel-Frequency Cepstral Coefficients)의 특징을 추출하는 특징추출부;
    상기 피치 정보의 유무에 따라 음성구간과 비음성구간을 구별하는 소리분별부;
    상기 판소리 음원으로부터 전문가를 통해 분별된 합과 궁의 위치에서 15차원 벡터 열 형태의 윈도우 템플릿을 구성하여 장단을 구별하는 장단분별부;
    상기 합과 궁의 주기가 가우시언(Gaussian) 분포를 가진다고 가정하고 선형 칼만 필터를 통해 상기 장단의 합과 궁으로 관측된 마디위치를 평활화시켜 마디를 추정하는 마디예측부를 포함하며,
    상기 소리분별부는,
    상기 판소리 음원 내의 피치 정보 유무에 따라 음성구간과 비음성구간을 분할한 후, 현재 비음성구간의 길이가 0.3초 이상이고 이전 10개의 구간에서 음성구간/비음성구간이 1.0 이하이고 다음 10개의 구간에서 음성구간/비음성구간이 1.0 이상일 때, 현재의 위치부터 소리의 시작 지점으로 판별하고, 현재 비음성구간의 길이가 0.3초 이상이고 이전 10개의 구간에서 음성구간/비음성구간이 1.0 이상이고 다음 10개의 구간에서 음성구간/비음성구간이 1.0 이하일 때, 현재의 위치부터 아니리의 시작 지점으로 판별하며, 위의 두 단계를 음원의 끝까지 반복하는 것을 특징으로 하는 판소리 자동 채보 장치.
  7. 판소리 음원을 입력받아 구조를 분석하여 장단과 마디를 예측하는 구조 분석부;
    상기 구조 분석을 통해 상기 판소리 음원의 소리 부분을 부호화하고 채보하는 소리부분 채보부를 포함하고,
    상기 구조 분석부는,
    상기 판소리 음원의 피치(pitch) 정보, 에너지 및 MFCC(Mel-Frequency Cepstral Coefficients)의 특징을 추출하는 특징추출부;
    상기 피치 정보의 유무에 따라 음성구간과 비음성구간을 구별하는 소리분별부;
    상기 판소리 음원으로부터 전문가를 통해 분별된 합과 궁의 위치에서 15차원 벡터 열 형태의 윈도우 템플릿을 구성하여 장단을 구별하는 장단분별부;
    상기 합과 궁의 주기가 가우시언(Gaussian) 분포를 가진다고 가정하고 선형 칼만 필터를 통해 상기 장단의 합과 궁으로 관측된 마디위치를 평활화시켜 마디를 추정하는 마디예측부를 포함하며,
    상기 장단분별부는,
    윈도우 템플릿의 크기를 다르게 하여 합 위치 부근에서 NCC(Normalized Cross Correlation;정규화된 상호연관성)를 구하고 국부 최대치 부분을 찾아 합 또는 궁의 위치라고 가정할 때, 이들 위치들에서 NCC 값의 평균을 최대로 하는 윈도우 템플릿의 지속시간을 장단별 윈도우 템플릿의 지속시간으로 간주하고, 합 또는 궁 주변에서 국부 최대치를 갖는 부분을 구하는 NLMS(Non-Local Maxima Suppression) 과정을 거쳐, 가장 높은 NCC 값을 제공하는 장단에 투표를 하여 소리 구간 전체에 대해 가장 많이 득표를 한 장단을 해당 장단으로 판별하는 것을 특징으로 하는 판소리 자동 채보 장치.
  8. 삭제
  9. 판소리 음원을 입력받아 구조를 분석하여 장단과 마디를 예측하는 구조 분석부;
    상기 구조 분석을 통해 상기 판소리 음원의 소리 부분을 부호화하고 채보하는 소리부분 채보부를 포함하고,
    상기 구조 분석부는,
    상기 판소리 음원의 피치(pitch) 정보, 에너지 및 MFCC(Mel-Frequency Cepstral Coefficients)의 특징을 추출하는 특징추출부;
    상기 피치 정보의 유무에 따라 음성구간과 비음성구간을 구별하는 소리분별부;
    상기 판소리 음원으로부터 전문가를 통해 분별된 합과 궁의 위치에서 15차원 벡터 열 형태의 윈도우 템플릿을 구성하여 장단을 구별하는 장단분별부;
    상기 합과 궁의 주기가 가우시언(Gaussian) 분포를 가진다고 가정하고 선형 칼만 필터를 통해 상기 장단의 합과 궁으로 관측된 마디위치를 평활화시켜 마디를 추정하는 마디예측부를 포함하며,
    상기 소리부분 채보부는,
    상기 마디예측부에서 추정한 마디를 통해 마디가 지속되는 기간으로 소리의 템포를 알고 해당 소리의 장단을 기준으로 음길이를 산정하며 상기 소리 부분에서 음성구간과 비음성구간을 구분하고 비음성구간은 쉼표로, 음성 구간은 IOI(Inter Onset Interval;동일 온셋 구간)들을 분할하여 산정된 음 길이에 따라 음길이 부호를 결정하는 음길이부호부;
    IOI들의 피치값을 표준 주파수 테이블과 비교하여 코드를 산정하고 해당 코드의 주파수에 따라 음높이를 상대음정으로 부호화하는 음높이 및 길이 부호부를 포함하고,
    상기 음높이 및 길이부호부는,
    상기 소리 부분으로부터 AMDF(Average Magnitude Difference Function) 함수를 이용하여 피치를 추출하는 피치추출부;
    TV 필터를 통해 상기 피치 정보를 평활화시키는 피치평활화부;
    상기 피치 정보를 음성구간과 비음성구간으로 구분하고 상기 음성구간에서 음정이 동일하게 유지되는 IOI를 추출하는 피치분할부;
    상기 피치 정보에 따라 노래의 건(key)을 무시하고 다장조를 기준으로 모든 음을 부호화하는 음높이부호화부를 포함하는 판소리 자동 채보 장치.
  10. 판소리 음원을 입력받아 구조를 분석하여 장단과 마디를 예측하는 구조 분석부;
    상기 구조 분석을 통해 상기 판소리 음원의 소리 부분을 부호화하고 채보하는 소리부분 채보부를 포함하고,
    상기 구조 분석부는,
    상기 판소리 음원의 피치(pitch) 정보, 에너지 및 MFCC(Mel-Frequency Cepstral Coefficients)의 특징을 추출하는 특징추출부;
    상기 피치 정보의 유무에 따라 음성구간과 비음성구간을 구별하는 소리분별부;
    상기 판소리 음원으로부터 전문가를 통해 분별된 합과 궁의 위치에서 15차원 벡터 열 형태의 윈도우 템플릿을 구성하여 장단을 구별하는 장단분별부;
    상기 합과 궁의 주기가 가우시언(Gaussian) 분포를 가진다고 가정하고 선형 칼만 필터를 통해 상기 장단의 합과 궁으로 관측된 마디위치를 평활화시켜 마디를 추정하는 마디예측부를 포함하며,
    상기 소리부분 채보부는,
    상기 마디예측부에서 추정한 마디를 통해 마디가 지속되는 기간으로 소리의 템포를 알고 해당 소리의 장단을 기준으로 음길이를 산정하며 상기 소리 부분에서 음성구간과 비음성구간을 구분하고 비음성구간은 쉼표로, 음성 구간은 IOI(Inter Onset Interval;동일 온셋 구간)들을 분할하여 산정된 음 길이에 따라 음길이 부호를 결정하는 음길이부호부;
    IOI들의 피치값을 표준 주파수 테이블과 비교하여 코드를 산정하고 해당 코드의 주파수에 따라 음높이를 상대음정으로 부호화하는 음높이 및 길이 부호부를 포함하고,
    상기 음길이부호부는,
    장단과 마디 지속시간 정보를 통해 마디마다 음 길이에 해당하는 음 지속 시간을 구하는 음길이산정부;
    상기 IOI와 음 길이 사이의 오차를 고려하여 임시로 부여된 음표의 길이를 조정하고, 모든 조합의 가능성을 고려하되 탐색공간을 줄이기 위해 임시로 부여된 음표의 길이에 최대 한 단계 음표 차이를 두고 탐색 음표조합을 구성한 후, 모드 음표 조합의 길이가 박자수와 일치하는 것을 찾아내고 마디 내 모든 IOI와 해당 음표의 길이 사이의 절대오차의 합이 최소로 되는 음표조합을 찾아 음길이를 부호화하는 음길이보정부를 포함하는 판소리 자동 채보 장치.
  11. 판소리 음원을 입력받아 훈련 집합과 검증 집합으로 나누는 단계;
    상기 판소리 음원의 피치 정보, 에너지 및 MFCC(Mel-Frequency Cepstral Coefficients) 특징을 추출하는 단계;
    상기 피치 정보를 통해 판소리 음원의 음성구간과 비음성구간을 나누어 소리의 구간을 분별하는 단계;
    상기 훈련 집합에 속해 있는 상기 판소리 음원의 소리 구간에서 장단을 분별하는 단계;
    상기 장단에 따른 합의 위치를 예상하고 합과 합 사이를 마디로 예측하는 단계;
    상기 음성구간의 IOI(Inter Onset Interval;동일 온셋 구간)들의 피치 정보에 따라 음높이를 부호화하는 단계;
    상기 장단과 상기 마디의 지속 시간을 통해 마디마다 음길이를 환산하고 음길이를 부호화하는 단계를 포함하는 판소리 자동 채보 방법.
  12. 청구항 11에 있어서,
    상기 장단을 분별하는 단계는,
    윈도우 템플릿의 크기를 다르게 하여 합 위치 부근에서 NCC(Normalized Cross Correlation;정규화된 상호연관성)를 구하고 국부 최대치 부분을 찾아 합 또는 궁의 위치라고 가정할 때, 이들 위치들에서 NCC 값의 평균을 최대로 하는 윈도우 템플릿의 지속시간을 장단별 윈도우 템플릿의 지속시간으로 간주하고, 합 또는 궁 주변에서 국부 최대치를 갖는 부분을 구하는 NLMS(Non-Local Maxima Suppression) 과정을 거쳐, 가장 높은 NCC 값을 제공하는 장단에 투표를 하여 소리 구간 전체에 대해 가장 많이 득표를 한 장단을 해당 장단으로 판별하는 것을 특징으로 하는 판소리 자동 채보 방법.
  13. 청구항 11에 있어서,
    상기 마디의 예측은,
    선형 칼만 필터(Kalman filter)를 통해 장단의 합과 궁의 관측된 마디위치를 평활화함으로써 마디를 예측하는 것을 특징으로 하는 판소리 자동 채보 방법.
KR1020130123824A 2013-10-17 2013-10-17 판소리 자동 채보 장치 및 방법 KR101481060B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130123824A KR101481060B1 (ko) 2013-10-17 2013-10-17 판소리 자동 채보 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130123824A KR101481060B1 (ko) 2013-10-17 2013-10-17 판소리 자동 채보 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101481060B1 true KR101481060B1 (ko) 2015-01-21

Family

ID=52590460

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130123824A KR101481060B1 (ko) 2013-10-17 2013-10-17 판소리 자동 채보 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101481060B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106531195A (zh) * 2016-11-08 2017-03-22 北京理工大学 一种对话冲突检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0744163A (ja) * 1993-07-27 1995-02-14 Nec Corp 自動採譜装置
KR20100101548A (ko) * 2010-08-16 2010-09-17 전북대학교산학협력단 자동 노래 채보장치
WO2011010647A1 (ja) * 2009-07-21 2011-01-27 独立行政法人産業技術総合研究所 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0744163A (ja) * 1993-07-27 1995-02-14 Nec Corp 自動採譜装置
WO2011010647A1 (ja) * 2009-07-21 2011-01-27 独立行政法人産業技術総合研究所 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法
KR20100101548A (ko) * 2010-08-16 2010-09-17 전북대학교산학협력단 자동 노래 채보장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106531195A (zh) * 2016-11-08 2017-03-22 北京理工大学 一种对话冲突检测方法及装置
CN106531195B (zh) * 2016-11-08 2019-09-27 北京理工大学 一种对话冲突检测方法及装置

Similar Documents

Publication Publication Date Title
Paulus et al. Measuring the similarity of Rhythmic Patterns.
US5521324A (en) Automated musical accompaniment with multiple input sensors
Turetsky et al. Ground-truth transcriptions of real music from force-aligned midi syntheses
Li et al. Separation of singing voice from music accompaniment for monaural recordings
Gómez et al. Melody description and extraction in the context of music content processing
CN109979488B (zh) 基于重音分析的人声转乐谱系统
Rocamora et al. Comparing audio descriptors for singing voice detection in music audio files
Lu Indexing and retrieval of audio: A survey
Klapuri Musical meter estimation and music transcription
Gómez et al. Predominant Fundamental Frequency Estimation vs Singing Voice Separation for the Automatic Transcription of Accompanied Flamenco Singing.
Koduri et al. A survey of raaga recognition techniques and improvements to the state-of-the-art
Lehner et al. Towards Light-Weight, Real-Time-Capable Singing Voice Detection.
JP2010054802A (ja) 音楽音響信号からの単位リズムパターン抽出法、該方法を用いた楽曲構造の推定法、及び、音楽音響信号中の打楽器パターンの置換法
Sonnleitner et al. A simple and effective spectral feature for speech detection in mixed audio signals
Shenoy et al. Key determination of acoustic musical signals
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
KR101481060B1 (ko) 판소리 자동 채보 장치 및 방법
Nagavi et al. An extensive analysis of query by singing/humming system through query proportion
Shih et al. A statistical multidimensional humming transcription using phone level hidden Markov models for query by humming systems
CN106548784B (zh) 一种语音数据的评价方法及系统
Sridhar et al. Music information retrieval of carnatic songs based on carnatic music singer identification
KR20050003814A (ko) 음정 인식 장치
Fujihara et al. Concurrent estimation of singing voice F0 and phonemes by using spectral envelopes estimated from polyphonic music
Joder et al. Hidden discrete tempo model: A tempo-aware timing model for audio-to-score alignment
JP2006227429A (ja) 楽譜情報抽出方法、及び、楽譜情報抽出装置

Legal Events

Date Code Title Description
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20171220

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20181226

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20200122

Year of fee payment: 6