KR20050003814A - 음정 인식 장치 - Google Patents

음정 인식 장치 Download PDF

Info

Publication number
KR20050003814A
KR20050003814A KR1020030045319A KR20030045319A KR20050003814A KR 20050003814 A KR20050003814 A KR 20050003814A KR 1020030045319 A KR1020030045319 A KR 1020030045319A KR 20030045319 A KR20030045319 A KR 20030045319A KR 20050003814 A KR20050003814 A KR 20050003814A
Authority
KR
South Korea
Prior art keywords
pitch
tone
comb
segment
spectrum
Prior art date
Application number
KR1020030045319A
Other languages
English (en)
Inventor
송정민
윤경로
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020030045319A priority Critical patent/KR20050003814A/ko
Publication of KR20050003814A publication Critical patent/KR20050003814A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

본 발명은 톤 메져(tone measure)를 사용하는 음정 인식 시스템에 관한 것이다.
본 발명의 음정 인식 시스템은 일반적으로 음악에서 사용하는 것보다 더 세밀한 간격으로 나누어져 있는 과양자화된 음계에서 음 높이를 추출하는 피치 추정 장치와, 오디오 프레임에 음악적인 tone이 포함되어 있는 정도를 나타내는 톤 메져를 사용해서, 잡음(noise), 묵음(silence), 무성음(unvoiced sound)이 포함되어 있는 오디오 프레임을 판별하여 음 길이를 추출하는 템포럴 세그멘테이션 장치;를 포함하여 이루어지는 것을 특징으로 한다.

Description

음정 인식 장치{INTERVAL RECOGNITION SYSTEM}
본 발명은 사람의 노래, 허밍 입력나 악기의 연주음 입력 등의 오디오 입력으로부터 음악적인 정보인 음정을 인식하는 시스템에 관한 것으로서, 입력된 오디오 신호로부터 음의 높이와 음의 길이를 자동으로 인식하는 음정 인식장치에 관한것이다.
음정 인식은 마이크와 같은 오디오 입력 장치로부터 입력된 사람의 노래나 허밍, 또는 악기의 연주 등으로부터 음악적인 정보인 음 높이와 음 길이를 판단하는 것이다. 사람의 노래, 허밍, 악기의 연주로부터 발생하는 오디오 신호는 주파수 영역에서 일정한 간격상에 큰 에너지 값을 보이는 피크(peak)를 나타내는 하모닉 (harmonic)구조를 보인다. 이것은 사람의 발성기관과 악기의 구조 때문에 드러나는 특징으로써, 하모닉 구조상의 피크 간격이 음의 높이를 결정한다. 또한 이러한 음이 시간적으로 어느 정도 지속되는지를 판단하여 음의 길이를 결정한다.
보통 음 높이의 판단 결과는 음악적인 음의 단위, 예를 들어 12음계의 어떤 음에 해당하는지를 옥타브와 함께 표현하는데, 이는 주파수 영역에서 추정한 음 높이 단위를 음악적인 음의 단위로 변환하는 과정을 필요로 한다. 음 길이의 결정은 시간 영역에서 어떤 높이의 음이 어느 정도의 시간 동안 지속되는지를 판단하는 것이며, 묵음(silence) 부분, 잡음(noise) 부분, 또한 음 높이를 판단할 수 없는 부분에 대한 검출을 필요로 하고, 인식의 결과로 출력하는 음의 높이의 단위 측면에서 보았을 때, 음의 높이가 변화하는 부분에 대한 검출이 필요하다.
종래에 음 길이를 결정하는 대표적인 방법은 음의 세기를 이용하는 방법이다. 음악적인 오디오의 특성상 특정한 음을 발생시키기 위해서는 짧은 시간의 온셋 타임(onset time)을 보이는데 이 구간에서는 보통 음의 세기가 작다. 따라서 묵음(silence)에 의한 음의 분리, 그리고 온셋 타임에 의한 음의 분리 성질을 이용하여 음의 길이를 결정하는 것이다. 즉, 온셋 타임과 묵음을 이용해서 음간을 분리하고 분리된 각각의 지점 사이의 시간을 고려함으로써 해당 높이의 음이 얼마나 지속되는지를 판별하여 음 길이를 결정하는 것이다.
상기 기존의 방법은 묵음의 특성과 온셋 타임의 특성을 이용하여 오디오의 에너지가 작아지는 부분을 음 길이 구분을 위한 경계로 설정한다. 이러한 방법은 임계치를 이용해서 묵음과 묵음이 아닌 오디오 프레임을 판별하며, 온셋 타임 또한 임계치를 이용해서 판별하므로 묵음과 묵음이 아닌 오디오 프레임을 판별하기 위한 임계치, 온셋 타임을 판별하기 위한 임계치가 반드시 필요하다.
그러나 노래 입력은 사람마다 다른 오디오 입력 크기를 가지는 경우가 대부분이고, 악기의 연주 등에 있어서도 여러가지 환경에 따라 다른 오디오 입력 크기를 가지는 경우가 대부분이므로 상기 음길이 결정을 위한 임계치를 결정하기 어려운 문제점이 있다. 또한 오디오 입력의 특성상 부분적인 잡음이 입력될 수 있고, 잡음 부분에 대해서도 음 판별을 시도하는 오류를 범할 수 있다. 그리고 이러한 방법에는 묵음을 파악하는 모듈, 온셋 타임을 파악하는 모듈, 그리고 잡음 부분을 걸러내는 모듈이 각각 필요하게 되어 장치가 복잡해진다.
본 발명은 마이크와 같은 입력 수단을 통해서 입력된 사람의 허밍이나 노래, 악기의 연주에 해당하는 오디오 신호로부터 음악적인 정보인 음 높이와 음 길이를 자동으로 추출하여 음정을 인식하는 장치를 제공하는데 그 목적이 있다.
특히 본 발명은 음 높이의 추정을 위한 오디오 프레임을 판별하는데 있어서 톤 메져(tone measure) 하나만을 사용함으로써 잡음, 묵음, 무성음(unvoicedsound)이 포함되어 있는 오디오 프레임을 정확하게 판별해낼 수 있도록 한 음정 인식장치를 제공하는데 그 목적이 있다.
또한 본 발명은 오디오의 에너지를 바탕으로 하지 않는 음 길이의 판별 방법을 제공하며, 음 높이를 판별할 수 있는 부분과 음 높이를 판별할 수 없는 부분을 결정하는데 있어서 톤 메져를 사용함을 특징으로 하는 음정 인식장치를 제공하는데 그 목적이 있다.
또한 본 발명에서는 음 높이를 추출하고 표현하는 단위인 음계의 단위를 보통 음악에서 사용하는 12음계를 사용하지 않고 이보다 더 세밀한 주파수 간격을 나타내는 음계의 단위를 사용하는 과양자화 기반의 음정 인식장치를 제공하는데 그 목적이 있다.
본 발명에서는 보통 일반적으로 사용하는 12음계보다 더 세밀한 주파수 간격으로 음계를 나누는 방법인 음계의 과양자화를 사용함으로써 음악적으로 의미 있고, 오디오 신호처리의 측면에서도 정확한 음 높이의 추출과 표현이 가능한 음정 인식장치를 제공하는데 그 목적이 있다.
도1은 본 발명의 음정 인식장치의 블럭도
도2는 본 발명의 음정 인식장치에서 피치 추정 장치의 블럭도
도2는 본 발명의 음정 임식장치에서 템포럴 세그멘테이션 장치의 블럭도
<도면의 주요 부분에 대한 부호의 설명>
100a: 피치 추정부 100b: 템포럴 세그멘테이션부
101: 스펙트럼 구성부 102: 피치 추출부
103: 피치 결정부 104: 전처리부
105: 톤 메져 산출부 106: 톤 메져 검색부
107: 평탄화 및 안정화부 108: 세그머트 피치 추출부
109: 후처리부
상기 목적을 달성하기 위한 본 발명의 음정 인식장치는 입력 오디오 신호로부터 음의 높이 및 음의 길이를 추출하기 위하여, 입력 오디오 신호의 피치를 추정하는 장치와 입력 오디오 신호의 음 길이를 산출하는 장치로 이루어진다.
즉, 본 발명의 음정 인식장치는 일반적으로 음악에서 사용하는 것보다 더 세밀한 간격으로 나누어져 있는 과양자화된 음계에서 음 높이를 추출하는 피치 추정장치와, 오디오 프레임에 음악적인 tone이 포함되어 있는 정도를 나타내는 톤 메져를 사용해서, 잡음(noise), 묵음(silence), 무성음(unvoiced sound)이 포함되어 있는 오디오 프레임을 판별하여 음 길이를 추출하는 템포럴 세그멘테이션 장치;를 포함하여 이루어지는 것을 특징으로 한다.
또한 본 발명의 음정 인식장치에서, 상기 피치 추정 장치는 오디오 프레임의 스펙트럼을 구성하는 스펙트럼 구성수단, 상기 스펙트럼의 불요 정보를 제거하는 평탄화 수단, 상기 원래의 스펙트럼과 평탄화된 스펙트럼의 차이로 피크 스펙트럼을 산출하는 피크 스펙트럼 산출수단, 주파수 영역에서의 피크를 나타내는 FFT 인덱스와 그 주위의 인덱스를 선택하여 피치의 후보로 선택하는 피치 후보 선택수단, 상기 선택된 피치 후보에 대하여 콤 웨이트의 산출 및 출력을 수행하는 콤 필터링수단, 상기 콤 필터링 결과 중에서 가장 작은 출력에 해당하는 주파수 인덱스를 선택하여 최종적인 피치로 결정하는 최소 콤 출력 산출수단; 을 포함하는 것을 특징으로 한다.
또한 본 발명의 음정 인식장치에서, 상기 콤 필터링 수단은 모든 가능한 주파수 인덱스에 대하여 산출하여 놓은 콤 웨이트를 이용하여, 피치 후보 선택 과정에서 선택된 주파수 인덱스에 대해서만 콤 출력을 산출하는 것을 특징으로 한다.
또한 본 발명의 음정 인식 장치에서, 상기 과양자화된 음계가 일반적으로 음악에서 사용하는 옥타브당 12음계보다 세밀한 옥타브당 36음계를 사용하는 것을 특징으로 한다.
또한 본 발명의 음정 인식장치에서, 상기 과양자화된 음계를 사용하여 피치를 추정함에 있어서 콤 필터링을 사용할 때, 콤 필터가 과양자화된 음계에 해당하는 주파수 인덱스에 맞추어 산출되고, 과양자화된 음계에 해당하는 주파수 인덱스에 맞추어 산출된 콤 출력을 산출하며, 최소 콤 출력에 해당하는 주파수 인덱스를 과양자화된 음계에 해당하는 주파수 인덱스에서 산출하여 피치로 결정하는 것을 특징으로 한다.
또한 본 발명의 음정 인식장치에서, 상기 과양자화된 음계의 단위에서 추출된 음 높이 정보를 일반적으로 음악에서 사용하는 음계의 단위로 변환하기 위하여, 과양자 음계와 일반적으로 음악에서 사용하는 음계 사이의 관계를 나타내는 표를 만들어서 변환하는 것을 특징으로 한다.
또한 본 발명의 음정 인식장치에서, 상기 템포럴 세그멘테이션 장치는 피크 스펙트럼의 주파수별 합산으로 산출되는 톤 메져의 산출수단, 상기 톤 메져가 특정 임계치보다 작은 부분을 검출함으로써 이루지는 톤 메져에 기반한 세그멘테이션 수단, 각 오디오 프레임 별로 산출된 피치의 값에서 시간적으로 일정 구간 안의 값을 평균하여 산출함으로써 피치 시퀀스 스무딩 처리를 하는 피치 시퀀스 평탄화 수단, 추정된 피치 값의 시간적인 변이 중에서 일정시간 같은 값을 추출하여 그 값을 주위 오디오 프레임의 대표값으로 설정하는 안정화 수단, 인접한 피치 시퀀스 사이에 특정 피치 값 이상이 되는 오디오 프레임을 세그먼트의 경계로 설정하는 추정된 피치에 기반한 세그멘테이션수단, 세그먼트를 대표하는 피치 값을 세그먼트 내에 포함되어 있는 모든 오디오 프레임의 피치 정보로써 산출하는 세그먼트 피치 산출수단으로 구성됨을 특징으로 한다.
또한 본 발명의 음정 인식장치에서, 상기 피치 시퀀스 평탄화 수단에서 각 오디오 프레임 별로 산출된 피치의 값에서 시간적으로 일정 구간 안의 값을 평균하여 피치 시퀀스를 평탄화 함에 있어서, 특정 오디오 프레임에서의 평탄화된 피치 값을 얻기 위해 특정 오디오 프레임의 시간적으로 이전 프레임보다 이후에 프레임에 대한 피치 정보를 더 많이 반영하는 것을 특징으로 한다.
또한 본 발명의 음정 인식장치에서, 상기 세그먼트의 경계로 설정하는 기반이 되는 피치 값 차이의 임계치는 피치 추정 장치에서 사용하는 음계의 단위에 비례하거나, 상기 피치 추정 장치에서 36음계를 사용할 때 2로 설정하는 것을 특징으로 한다.
또한 본 발명의 음정 인식장치에서, 상기 세그먼트를 대표하는 피치 값을 세그먼트 안에 포함되어 있는 모든 오디오 프레임의 피치 값을 평균하여 산출하거나, 상기 세그먼트를 대표하는 피치 값을 세그먼트 안에 포함되어 있는 모든 오디오 프레임의 피치 값에 대한 돗수를 구하여 가장 많은 돗수를 가지는 피치 값으로 선택하는 것을 특징으로 한다.
또한 본 발명의 음정 인식장치에서, 상기 톤 메져는 스펙트럼과 이를 평탄화한 스펙트럼의 차로써 산출된 피크 스펙트럼의 주파수별 합으로 산출되는 것을 특징으로 한다.
또한 본 발명의 음정 인식장치에서, 상기 톤 메져와 하나의 임계치만으로 잡음, 묵음, 무성음이 포함되어 있는 오디오 프레임을 판별해 내는 것을 특징으로 한다.
본 발명에서 입력 오디오 신호는 사람의 노래나 허밍, 악기의 연주 등의 입력이며, 마이크와 같은 입력장치를 통해서 상기 오디오 신호를 입력받고 입력된 오디오 신호는 적절하게 샘플링되어 디지털 신호로 변환된 후에 음높이 및 음길이 추출을 통한 음정 인식에 사용된다.
본 발명에서 입력 오디오의 음 높이 및 음 길이 추출은 허밍이나 노래, 악기 연주 등과 같은 오디오 입력으로부터 음악적인 정보인 음 높이와 음 길이를 추출하는 과정이다. 예를 들어 사용자가 노래 멜로디의 특정 부분을 허밍 하며, 이 때 가사가 포함되어 있지 않은 허밍이나 가사가 포함되어 있는 노래, 혹은 이 두 가지가 복합된 형태의 입력에 대해서도 음 높이와 음 길이를 추출해 낼 수 있다.
본 발명의 음정 인식장치에 의한 음정인식의 과정은 크게 피치 추정(pitch estimation) 과정과 템포럴 세그멘테이션(temporal segmentation) 과정으로 나눌 수 있는데, 피치 추정 과정은 각 오디오 프레임(audio frame)의 피치(pitch) 정보를 추출하는 과정이고, 템포럴 세그멘테이션 과정은 그 피치 정보가 얼마나 지속되는지를 알아내는 과정이다.
도1은 본 발명의 실시예로써, 음정 인식장치의 예를 보여준다. 도1에 나타낸 바와 같이 본 발명의 음정 인식장치는 크게 나누어, 오디오 입력의 스펙트럼을 기반으로 피치 검출을 이용해서 음높이(피치)를 추정하여 출력하는 피치 추정부(100a)와, 상기 피치 추정부에서 제공되는 스펙트로그램 및 피치정보, 그리고 오디오 입력에 대하여 톤 메져(TM)를 기반으로 음길이를 산출하여 음정 인식 결과를 출력하는 템포럴 세그멘테이션부(100b)로 구성된다.
상기 피치 추정부(100a)는 스펙트럼 구성부(101), 피치 추출부(102), 피치 결정부(103)를 포함한다. 상기 스펙트럼 구성부(101)는 입력 오디오 샘플에 대하여 해닝 윈도우를 적용하고 FFT 변환을 수행하여 피치 스펙트럼을 구성하며, 상기 피치 추출부(102)는 오디오 프레임에서 얻은 스펙트럼을 이용해서 피이크 스펙트럼을 구성하고 오디오 대역에서 실제적으로 피치가 나타날 가능성이 높은 후보를 선택한다. 상기 피치 결정부(103)는 콤 필터링을 기반으로 해서, 상기 피치의 후보들 중에서 해당 오디오 프레임을 대표하는 피치값을 결정한다.
한편, 상기 템포럴 세그멘테이션부(100b)는 전처리부(104), 톤 메져 산출부(105), 톤 메져 검색부(106), 평탄화 및 안정화부(107), 세그먼트 피치 추출부(108), 후처리부(109)를 포함한다.
상기 전처리부(104)는 톤 메져를 기반으로 묵음의 검출 및 무성음 프레임을 검색하며, 톤 메져 산출부(105)는 상기 피치 추정부(100a)로부터 제공되는 피이크 스펙트로그램을 이용해서 톤 메져를 산출해 준다. 상기 톤 메져 검색부(106)는 톤 메져(TM)를 기반으로 하는 세그멘테이션을 수행하여 피치 시퀀스를 구하며, 평탄화 및 안정화부(107)는 피치 시퀀스의 미세한 변화를 감소시키고 안정화시켜 세그멘테이션 결과를 향상시킨다.
상기 세그먼트 피치 추출부(108)는 인접 오디오 프레임간 피치 차이를 이용해서 세그멘테이션을 수행하고 세그먼트 피치를 산출하며, 후처리부(109)는 산출된 피치 정보에서 불요한 값들의 제거 및 세그먼트 피치의 경계 설정 등의 후처리를 수행함으로써, 최종적으로 인식된 결과를 내놓게 된다.
지금까지 설명한 상기 본 발명의 음정 인식장치에서, 피치 추정은 윈도잉(windowing), FFT, 스펙트럼 평탄화(spectrum smoothing), 피크 스펙트럼(peak spectrum) 구성, 피치 후보(pitch candidate) 선택, 콤 필터링(comb filtering)을 포함하고, 템포럴 세그멘테이션은 톤 메져 산출과 이를 이용한 세그멘테이션, 피치 시퀀스 평탄화(sequence smoothing) 및 안정화(stabilization), 추정된 피치 정보를 이용하는 세그멘테이션, 세그먼트(segment)를 대표하는 피치 산출, 추출된 음악적 정보를 MIDI 포맷(format)의 음악적 정보로 변환하는 과정이 포함된다. 그러므로 음정 인식 장치의 최종 출력은 MIDI 포맷에 맞는 음 높이 정보와 음 길이 정보가 되는 것을 하나의 예로 들 수 있다.
도2는 본 발명에서 상기 피치 추정장치, 즉 도1의 피치 추정부의 실시예를 보여준다. 피치 추정부는 스펙트럼 구성부(201), 스펙트럼 평탄화부(202), 피크 스펙트럼 추출부(203), 피크 선택부(204), 콤 웨이트 생성부(205), 콤 출력 산출부(206), 최소값 선택부(207)를 포함하고 있다. 도1과 비교하면, 스펙트럼 구성부(101)는 스펙트럼 구성부(201) 및 스펙트럼 평탄화부(202)로 이루어지며, 피치 추출부(102)는 피크 스펙트럼 추출부(203) 및 피크 선택부(204)로 이루어지며, 피치 결정부(103)는 콤 웨이트 생성부(205), 콤 출력 산출부(206), 최소값 선택부(207)로 이루어짐을 알 수 있다.
다음에는 상기 본 발명의 각 구성요소와 이에 따른 음높이 및 음길이 인식의 과정에 대하여 차례로 설명한다.
[피치 추정]
1.윈도잉(windowing)
음높이 추정과 후술하는 음길이 추출을 목적으로 오디오 입력 샘플을 해석하기 위해서는 입력된 오디오 신호를 FFT 변환하게 된다. 그런데 원래의 푸리어 변환(Fourier transform)은 시간적으로 무한인 신호에 대해서 해석하는 방법이지만, 실제적인 경우에 있어서 시간적으로 무한인 신호(음의 무한대 시간부터 양의 무한대 시간에까지 이르는)는 얻을 수 없다. 따라서 해석하려는 신호가 정체(stationary) 되어 있다는 가정 하에서 전체의 신호 중에서 일부분 만을 분석하고 전체의 신호를 해석하는 방법을 사용한다.
부분의 신호를 사용해서 분석하는 경우에 이론적으로 전체의 신호를 분석한 신호와의 차이가 최소가 되도록 윈도우를 설계하는데, 그러한 차이가 가장 작게 되는 최적의 윈도우(optimum window)는 델타(delta) 함수이다. 그러나 델타 함수의 주파수 응답은 음의 무한대 주파수부터 양의 무한대 주파수에 걸쳐서 신호가 나타나야 하므로 실제적으로 구현하기 불가능하여 아-최적(sub-optimum)의 윈도우를 설계하여 사용한다. 이러한 아-최적의 윈도우 또한 부분의 신호에 대한 분석과 전체의 신호에 대한 분석에 대한 차이가 최소가 되게 하여야 하며, 시간영역과 주파수영역에서 권장하는 특성을 지녀야 한다. 이러한 조건에 알맞은 여러 가지 윈도우 함수가 발견되었으며, 흔히 해밍(hamming) 윈도우나 해닝(hanning) 윈도우를 많이 사용한다. 본 발명에서는 다음과 같은 해닝 윈도우를 사용한다.
wha(t) = 1/2(1+cos(πt/T)), |t|≤T
wha(t) = 0, elsewhere
실제 음정 인식 장치의 구현상에서는 윈도우 계수(window coefficient)를 미리 계산해 두고 이 것을 기억장치에 저장해 두었다가 이용하는 것이 속도 측면에서 바람직하며, 윈도잉(windowing)은 상기 스펙트럼 구성부(201)에 탑재된다.
2. 고속 푸리어 변환(Fast Fourier Transform)
본 발명의 피치 추출(pitch extraction) 과정은 사용자의 허밍과 같은 오디오 입력으로부터 음 높이를 추정하는 과정이다. 사람의 발성과 악기의 연주로부터 발생하는 소리는 관이나 현의 진동에 의한 소리이므로 일정한 주기를 가지는데 이 주기를 찾아내는 것이 음 높이 추정의 기본 개념이다. 상기 주기는 주파수 영역에서 피치 주파수(pitch frequency), 시간 영역에서 피치 주기(pitch period)로 나타내며, 이러한 주기성을 찾아내기 위한 방법은 시간영역에서는 자동 상관(autocorrelation) 방법과 주파수 영역에서는 FFT를 이용하는 방법이 있다. 본 발명에서는 FFT를 이용하여 피치 주파수 정보를 추출하며, 흔히 분석하는 영역(시간영역 혹은 주파수영역)이 정해지면 주기나 주파수의 단어를 빼고 피치라는 단어로 이 주기성을 표현한다. 즉, 스펙트럼 구성부(201)에서 상기 윈도잉 및 FFT를 기반으로 입력 오디오에 대한 피치 주파수 스펙트럼을 구성하는 것이다.
본 발명에서 피치를 해석(analysis)하는 방법은 STFT(short-time Fourier transform)이다. 실제 마이크를 통해서 들어와 샘플링되고, 양자화되어 주파수 해석을 하려는 신호는 전체 시간에 걸쳐서 정체성(stationary)을 갖고 있지 않다. 짧은 시간 간격마다 변화없이 정지되어 있다는 가정 하에 전체의 샘플들을 짧은 시간 간격으로 나누어 오디오 프레임을 형성하면, 전체 신호는 오디오 프레임의 시퀀스(sequence)가 된다. FFT를 각 오디오 프레임마다 수행하여 주파수 영역에서의 특징을 해석하며, 오디오 프레임간의 불연속성(discontinuity)을 제거하기 위하여 일정 간격의 오버랩(overlap)을 둔다. 이렇게 형성된 주파수 스펙트럼의 시퀀스를 스펙트로그램(spectrogram)이라 하고, 주파수 특성의 시간적인 변이를 파악할 수 있다.
본 발명의 실시예에서 사용하는 오디오 프레임의 크기는 1024 샘플(16kHz sampling rate에서)이고, 768 샘플의 오버랩을 둔다.
3. 평탄화 스펙트럼 구성(Smoothed spectrum)
상기 스펙트럼 구성부(201)에 의해서 오디오 프레임을 FFT하여 얻은 스펙트럼은 그 신호 속에 음성의 모든 정보가 포함되어 있다. 본 발명에서 필요한 정보는 피치에 관련된 정보인데, 이 피치 정보를 추출하기 위해서 필요 없는 데이터를 제거하고 피치 정보의 추출을 용이하게 하는 과정이 필요하다. 스펙트럼 평탄화부(202)는 스펙트럼의 주된 바이어스(bias) 요소를 제거하고, 부분적인 파동(fluctuation)을 제거하는 과정이다. 이 과정의 수행으로 음성의 모음 발성에 따르는 포르만트(formant)를 제거하여 이후의 수행 단계인 피크 선정시의 오류를 줄일 수 있고, 하모닉에 의한 뚜렷한 피크를 얻을 수 있다.
4. 피크 스펙트럼(peak spectrum)의 구성
피크 스펙트럼 추출부(203)에서 이루어지는 이 과정은 실제로하모닉(harmonic)에 의한 피크 성분을 추출해 내는 과정으로서 오디오 프레임으로부터 얻은 스펙트럼 SP와 스펙트럼 평탄화 과정을 통해서 얻은 스펙트럼(smoothed spectrum) SS의 차이로써 피크 스펙트럼 PS를 다음과 같이 산출한다.
PSt(n) = SPt(n) - SSt(n), SPt(n) - SSt(n) ≥0
PSt(n) = 0, SPt(n) - SSt(n) < 0
5. 피치 후보 선택(pitch candidate selection)
피크 선택부(205)에서 이루어지는 과정으로서, 오디오 프레임의 스펙트럼에 나타나는 피크 인덱스(peak index)를 얻어 내는 과정이다. 피크 선택부(205)는 오디오 프레임의 전체 스펙트럼 대역에 대해서 수개의 피크를 그 피크 값의 순으로 얻어내어 해당 오디오 프레임의 후보 피치 값으로 선정한다. 본 발명의 실시예에서는 16kHz의 신호에 대해서 1024 포인트 FFT를 사용하므로 0~8kHz에 해당하는 주파수 대역에서 피크를 찾는 것, 즉 피치의 후보를 선정하는 것이다. 그러나, 실제적으로 피치가 나타날 가능성이 매우 희박한 매우 낮은 주파수 혹은 매우 높은 주파수에서는 피치 후보를 선택하지 않는다.
6. 콤 필터링(Comb filtering)
콤 필터링 과정은 이전의 과정인 오디오 프레임의 주파수 스펙트럼에서 선택된 피치의 후보들 중에서 해당 오디오 프레임을 대표하는 피치 값을 결정하는 과정으로서, 프레임 별로 수행되는 일련의 과정 중에서 마지막 과정이고 가장 중요한 과정이며, 콤 웨이트 생성부(205)에 의한 콤 웨이트 생성, 콤 출력 산출부(206)에의한 콤 출력의 산출, 최소값 선택부(207)에 의한 최종 추정 피치값의 선택 출력이 이루어진다.
본 발명에서는 주파수 영역에서의 콤 필터링을 수행한다. 그 개요를 보면, 먼저 모든 가능한 피치 주파수에 대한 콤 웨이트(comb weight)를 콤 웨이트 생성부(205)에서 산출하여 저장하고, 콤 출력 산출부(206)에서는 오디오 프레임의 주파수 스펙트럼으로부터 선택한 피치 후보들의 주파수에 해당하는 콤 웨이트 집합들을 불러온 후, 오디오 프레임의 피크 스펙트럼과 콤 웨이트와의 웨이트 합(weighted sum)을 구하여 각 피치 후보들의 주파수에 대한 출력으로 삼고, 최소값 선택부(207)에서는 상기 출력들 중에서 가장 작은 출력을 내는 피치 후보의 주파수를 오디오 프레임의 피치로 결정한다.
여기서 주파수 인덱스(Frequency index)에 대해서 좀 더 상세하게 살펴보기로 한다.
본 발명에서 사용하는 주파수 인덱스(frequency index)는 실제의 주파수 인덱스(Hz)나 FFT 인덱스가 아니고, 음악에서 사용하는 12음계 단위를 이용하는 주파수 인덱스를 사용한다. 음악에서 실제로 사용하는 음계는 한 옥타브에 12개의 음을 배치해 놓은 것으로 인접한 두 개의 음은 일정한 비율의 주파수를 나타낸다. 하나의 옥타브에 해당하는 주파수 비율이 2이므로 12개 각 음 사이의 주파수 비율을 산출할 수 있다.
위의 산술식에서와 같이 12음계로 나타내는 음 높이 표시 체계에서 음계상 인접한 두 음 사이의 주파수 비율은 1.059463이다. 보통 A4음을 기준 음으로 삼으며, 4번째 옥타브의 A음을 의미하며 440Hz에 해당하는 음이다.
실제로 본 발명에 사용되는 주파수 인덱스는 기본적으로 음악에서 사용하는 음 높이 표시 체계를 사용하고 있지만, 음계상의 인접한 두 음 사이의 주파수 비율을 좀더 낮게 설정하였다. 즉 하나의 옥타브 안에 다음과 같이 36개의 음이 존재하도록 하여 좀 더 세밀한 주파수 표현과 해석을 가능하게 하였다.
위에서 설명한 음악에서의 음계는 FFT를 통한 주파수 인덱스와 비교하여 비선형적인 특성을 지닌다. 이는 같은 주파수 대역에 대하여 같은 수의 인덱스로 표현한다면 FFT의 주파수 인덱스와 음악에서 사용하는 음계의 각 음에 해당하는 주파수 인덱스를 서로 맴핑(mapping)하게 되면 FFT 주파수 인덱스의 저주파수 부분에 많은 수의 음악적 주파수 인덱스가 맵핑된다.
본 발명에서는 0~8kHz의 주파수 대역을 위와 같은 방법으로 양자화하여 129개의 주파수 인덱스를 형성하였다. 직류성분을 포함하는 매우 작은 주파수의 영역을 제거하고 첫번째 주파수 인덱스 (즉 0 index)는 60.559Hz에 해당하며 가장 높은 주파수에 해당하는 인덱스는 712.040Hz에 해당한다.
앞서 언급한 바와 같이 콤 웨이트 생성부(205)에서는 위에서 설명한 본 발명에서 사용하는 주파수 인덱스에 따라서 콤 웨이트 어레이(comb weight array)를 형성한다. 즉, 각각의 주파수 인덱스에 대하여 FFT 인덱스 어레이에서 콤 웨이트 값 CW를 다음과 같이 구한다.
여기에서 CW(i,n)은 i번째 주파수 인덱스, n번째 FFT 인덱스에 대한 콤 웨이트를 의미하며, NF는 I번째 주파수 인덱스의 실제 주파수 값, SR은 샘플링 비(sampling rate, 16kHz), N은 분석하는 FFT 인덱스의 개수(예; 512)를 나타낸다.
이러한 콤 웨이트는 샘플링 비와 오디오 프레임의 크기(size)가 결정되면, 피치 추정의 전과정에 공통적으로 쓰일 수 있으므로, 실제 구현상에서는 어레이의 값을 미리 계산하여 하드-코딩(hard-coding) 하는 것이 가능하고, 피치 추정의 속도 측면에서 유리하다.
다음에는 콤 출력 산출부(206)에 의한 콤 출력 산출(Comb output calculation)이 이루어지는데, 이 것은 위 과정에서 선택한 피치 후보에 대한 콤 출력(comb output)을 산출하는 과정이다. 콤 출력은 오디오 프레임의 피크 스펙트럼과 주파수 스펙트럼에서 선택한 피치 후보의 주파수 인덱스에 해당하는 콤 웨이트와의 합(weighted sum)으로 산출한다. 개념적으로 본 발명에서의 콤 필터링은 대역 저지 필터링(band rejection filter)이며, 콤 출력이 가장 작은 주파수 인덱스를 최소값 선택부(207)에서 선택하여 해당 오디오 프레임의 피치로 결정한다.
그런데, 주파수 스펙트럼에서 선택한 피치 후보로부터 콤 출력을 산출할 때는 피치 후보의 FFT 인덱스에 해당하는 콤 웨이트에 대한 콤 출력 뿐만 아니라, 그FFT 인덱스의 앞뒤 FFT 인덱스에 해당하는 콤 웨이트에 대한 콤 출력도 함께 산출하여, 정확히 피치 주파수의 정수배에 해당하는 주파수에서 하모닉이 나타나지 않는 경우에도 대응하여 최소 콤 출력을 산출할 수 있도록 한다. 콤 출력(CO)은 다음과 같이 산출된다.
본 발명에서는 피치 후보를 5개를 설정하므로 피치 후보에 대한 콤 출력은 각 피치 후보의 FFT 인덱스에 대한 콤 출력 5개, 각 피치 후보의 FFT 인덱스의 이웃(neighbor)에 해당하는 FFT 인덱스들에 대한 콤 출력 10개 미만, 총 15개 미만이 산출된다. 이 15개 미만의 콤 출력 중에서 가장 작은 값은 나타내는 피치 후보를 해당 오디오 프레임의 피치로 결정한다.
결과적으로 각 오디오 프레임에 피치 값을 하나 추출하게 되므로, 전체적인 오디오 프레임의 측면에서 보면, 피치 추정 과정의 출력은 피치 주파수의 시퀀스 라고 할 수 있다.
[템포럴 세그멘테이션(Temporal segmentation)]
다음에는 템포럴 세그멘테이션에 대해서 설명한다. 도3은 템포럴 세그멘테이션부(100b)의 실시예 구성을 보여준다. 도3에 나타낸 바와 같이 템포럴 세그멘테이션부는 톤 메져 산출부(301), 묵음 검출부(302), 무성음 검색부(303), 톤 메져(TM)세그멘테이션부(304), 피치 평탄화부(305), 안정화부(306), 세그멘테이션부(307), 세그먼트 피치 산출부(308), 불요정보 제거부(309), 음정 결정부(310)를 포함하고 있다.
상기 템포럴 세그멘테이션 동작을 각 구성요소를 참조하여 설명한다.
1. 톤 메져(TM: Tone measure)
사람의 음성은 유성음(voiced sound)과 무성음(unvoiced sound)으로 나눌 수 있다. 본 발명의 음정 인식 시스템 입력은 허밍 입력이나 노래 입력이 모두 가능한데, 음 높이 정보를 파악할 수 있는 피치 정보는 허밍 입력이나 노래 입력에서 나타나는 유성음에서 나타나며 이 것 에서만 피치 정보를 추출할 수 있고, 따라서 음 높이 정보를 추출할 수 있다. 이러한 유성음 부분의 판단을 위해서 매 오디오 프레임 별로 톤 메저 산출부(301)에서 톤 메져를 산출한다.
톤 메져는 특정 오디오 프레임에 하모닉 구조가 포함되어 있는지의 여부를 판단하는 것으로 묵음과 잡음에 의해서 음 높이를 판별할 수 없는 부분, 무성음에 의해서 음 높이를 판별할 수 없는 부분을 분리하며, 묵음을 파악하는 모듈, 온셋 타임을 파악하는 모듈, 잡음의 부분을 걸러내는 모듈을 각각 구현할 필요 없이 하나의 메져(measure)로 음 길이를 결정할 수 있다.
이 톤 메져는 유성음 부분에서는 주파수 스펙트럼이 매우 뚜렷한 하모닉 구조를 보이고, 피크 스펙트럼에서도 큰 피크 값들이 나타나게 된다. 따라서, 유성음이 나타나는 오디오 프레임에서는 매우 큰 톤 메져 값을 보인다. 이와는 반대로 무성음이 나타나는 부분에서는 하모닉 구조가 나타나지 않으며, 피크 스펙트럼에서 뚜렷한 피크 값들이 나타나지 않는다. 따라서 톤 메져 값은 작게 나타난다.
톤 메져는 이러한 방식으로 유성음과 무성음을 구분하는데 사용하는 것과 더불어 묵음과 잡음에 해당하는 오디오 프레임을 구분해내는 용도로 쓰인다. 묵음 부분에서는 스펙트럼 자체의 에너지가 나타나지 않으므로 피크 스펙트럼에서의 에너지도 나타나지 않으며, 따라서 톤 메져 값도 없다(혹은 매우 작게 나타난다). 잡음 부분에서는 하모닉 구조가 나타나지 않으므로 톤 메져값이 매우 작게 된다.
따라서 톤 메져를 이용해서 묵음 검출부(302) 및 무성음 검색부(303)에서 묵음과 무성음 부분을 구별할 수 있게 된다. 즉, 이렇게 톤 메져는 오디오 프레임 중에서 피치 정보를 추출할 수 있는 유성 오디오 프레임을 피치 정보를 추출할 수 없는 무성 오디오 프레임, 묵음 오디오 프레임, 잡음 오디오 프레임과 구분해준다. 특히 기존에 에너지를 이용하는 묵음 검출의 방법이 그 임계치를 결정하는데 매우 어려운 반면에 톤 메져를 이용하는 방법은 소리의 크기와는 관계가 없기 때문에 고정 임계치를 사용할 수 있는 장점이 있다.
2. 톤 메져 검색 (segmentation based on tone measure)
상기 산출한 톤 메져는 유성음을 나타내는 오디오 프레임을 무성음, 묵음, 잡음을 나타내는 오디오 프레임과 구별하는 척도이다. 톤 메져 검색 과정에서는 이러한 유성음의 오디오 프레임을 얻어내는 동시에 무성음, 묵음, 잡음으로 인해서 나타나는 유성음의 불연속점, 즉 톤(tone)에 의한 세그먼트 경계(segmentboundary)를 결정할 수 있다. 톤 메져는 허밍 소리의 크기에 관계없이 묵음을 추출할 수 있으며, 하나의 메져로써 무성음과 잡음에 해당하는 오디오 프레임을 동시에 걸러낼 수 있는 장점이 있다.
톤 메져에 의해서 검출 가능한 무성음, 묵음, 잡음에 의한 유성음의 불연속점을 기반으로 하는 세그멘테이션, 즉 톤 메져에 의한 세그먼트 경계(segment boundary)는 다음과 같은 조건일 때 생긴다.
즉, 톤 메져가 임계치(ToneThres)보다 작다가 임계치보다 커지는 지점, 그리고 톤 메져가 임계치보다 크다가 임계치보다 작아지는 지점에서 톤 메져에 의한 세그먼트 경계가 형성된다. 이러한 톤 메져에 의한 세그멘테이션이 이루어지고 난 후에, 각 세그먼트의 톤 메져를 산출한다. 세그먼트의 톤 메져는 하나의 세그먼트안에 포함되어 있는 모든 오디오 프레임의 톤 메져 값을 평균하여 얻는다.
톤 메져가 임계치보다 작은 오디오 프레임과 세그먼트에서는 콤 필터링에 의한 정확한 피치 추정이 이루어 질 수 없으며, 이때 추정된 값은 연속적인 오디오 프레임들 사이에 매우 불규칙하다. 반면에 톤 메져가 임계치보다 큰 세그먼트에서는 추정된 피치 값은 연속적인 오디오 프레임 사이에서 규칙적인 시퀀스를 이룬다.
이와 같은 특성을 기바능로 TM세그멘테이션부(304)에서 오디오 프레임에 대한 세그멘테이션을 수행하게 된다.
3. 피치 시퀀스 평탄화 및 안정화(pitch sequence smoothing and stabilization)
상기 피치 추정과정에서 산출한 오디오 프레임들의 피치 값들은 시간적인 변화를 관찰하였을 때, 매우 작은 값의 변화를 보인다. 일정한 지속시간 동안에 변하지 않는 피치의 특성이 이후에 있을 피치 기반의 세그멘테이션과정에서 안정적인 결과를 산출할 수 있으므로, 피치 시퀀스를 피치 평탄화부(305)에서 평탄화(smoothing)하여 시간적인 피치 시퀀스의 미세한 변화를 감소시키는 과정을 수행한다. 이 과정은 이후의 과정인 추정된 피치에 의한 세그멘테이션 과정에서의 오류를 줄이는 역할을 한다.
본 발명에서는 평탄화에 참여하는 프레임의 수를 이전 6 프레임, 이후 6 프레임으로 하였을 때, 가장 좋은 세그멘테이션 결과와 가장 높은 검색 정확도를 보였다.
또한 추정된 피치 값의 시간적인 변이 중에서 일정시간 같은 값을 추출하여 그 값을 주위 오디오 프레임의 대표값으로 설정하는 피치 시퀀스 안정화 과정(Finding Stable points)을 안정화부(306)에서 수행하여, 세그멘테이션 결과를 향상시킨다.
4. 추정된 피치 차 기반 세그멘테이션(Segmentation based on differenceof estimated pitch)
이 과정은 세그멘테이션부(307)에 의해서 수행된다. 상기 톤 메져에 의한 세그멘테이션은 허밍에서 나타나는 포즈(pause) 부분, 즉 묵음에 의한 세그멘테이션을 위한 것이라면, 추정된 피치에 의한 세그멘테이션은 포즈에 의해 분리되지 않은 세그먼트 안에서의 피치의 차이에 의한 세그멘테이션이다. 이를 위해서 인접한 오디오 프레임간의 피치 차이를 산출하는데, 이전 과정에서의 평탄화와 안정화를 통해 미세한 피치 차이를 제거한 후 피치 시퀀스를 이용한다. 인접한 오디오 프레임간의 피치 차이가 3이상일 때, 그 오디오 프레임간에 세그먼트 경계(segment boundary)가 형성되었다는 결정을 내린다.
5. 세그먼트 피치(Segment pitch)
상기 세그멘테이션은 톤 메져와 피치 차이를 기반으로 수행하게 되는데, 그 목적은 일정한 높이의 피치가 지속되는 오디오 프레임 상에서의 구간을 결정하기 위함이다. 세그멘테이션 과정 후에는 각 세그먼트 별로 세그먼트 피치를 세그먼트 피치 산출부(308)에서 산출하는데, 이는 오디오 프레임별로 구해진 피치를 평균함으로써 산출한다.
세그먼트의 피치를 구하는 과정까지 모두 거치면 허밍에서 음 높이 정보인 피치와 음 길이 정보인 세그먼트를 구하는 과정이 모두 끝나게 된다.
여기서 후처리 과정으로 불요 정보 제거부(309)에서 상기 산출된 피치의 불요한 정보를 제거하고, 세그먼트 피치와 경계를 앞서 설명한 바와 같이 결정함으로써 음정 결정부(310)에서 음 높이 정보인 피치와 음 길이 정보인 세그먼트에 관련된 정보를 모두 출력해 주게 되는 것이다.
6. MIDI 포맷 변환(Conversion to MIDI format)
지금까지 설명한 피치 추정 과정과 세그멘테이션 과정을 거쳐서 나온 음 높이 정보(estimated pitch)와 음 길이 정보(segment)는 검색을 위한 멜로디 특징 추출에 사용된다. 검색의 대상은 MIDI 파일이기 때문에 음 높이 정보와 음 길이 정보를 MIDI 포맷으로 변환한다. 피치 추정에 사용하는 음 높이 정보는 실제 음악과 MIDI에서 사용하는 음계인 12음계보다 더 많은 단계를 포함하는 36음계이므로 36음계를 12음계로 변환하는 표에 따라서 12음계로 변환한다. 음 길이 정보는 오디오 프레임의 단위이므로 샘플링 비와 프레임의 크기, 프레임 오버랩의 길이 등을 고려하여 MIDI에서 사용하는 길이의 단위로 변환한다.
본 발명은 오디오의 에너지를 바탕으로 하지 않는 음 길이의 판별 방법을 제공하며, 특히 본 발명은 음 높이를 판별할 수 있는 부분과 음 높이를 판별할 수 없는 부분을 결정하는데 있어서 톤 메져를 사용함으로써 오디오의 에너지를 바탕으로 하지 않는 음 길이의 판별 방법을 제공한다.
본 발명은 톤 메져를 사용해서 묵음과 잡음에 의해서 음 높이를 판별할 수 없는 부분, 무성음에 의해서 음 높이를 판별할 수 없는 부분을 분리하며, 묵음을 파악하는 모듈, 온셋 타임을 파악하는 모듈, 잡음의 부분을 걸러내는 모듈을 각각구현할 필요 없이 하나의 메져(measure)로 음 길이를 결정할 수 있다.
또한 본 발명에서는 과양자화된 음계를 사용함으로써 음악적으로 의미 있고, 오디오 신호처리의 측면에서도 정확한 음 높이의 추출과 표현이 가능하다.

Claims (12)

  1. 일반적으로 음악에서 사용하는 것보다 더 세밀한 간격으로 나누어져 있는 과양자화된 음계에서 음 높이를 추출하는 피치 추정 장치;
    오디오 프레임에 음악적인 tone이 포함되어 있는 정도를 나타내는 톤 메져를 사용해서, 잡음(noise), 묵음(silence), 무성음(unvoiced sound)이 포함되어 있는 오디오 프레임을 판별하여 음 길이를 추출하는 템포럴 세그멘테이션 장치;를 포함하여 이루어지는 것을 특징으로 하는 음정 인식 장치.
  2. 제 1 항에 있어서, 상기 피치 추정 장치는
    오디오 프레임의 스펙트럼을 구성하는 스펙트럼 구성수단,
    상기 스펙트럼의 불요 정보를 제거하는 평탄화 수단,
    상기 원래의 스펙트럼과 평탄화된 스펙트럼의 차이로 피크 스펙트럼을 산출하는 피크 스펙트럼 산출수단,
    주파수 영역에서의 피크를 나타내는 FFT 인덱스와 그 주위의 인덱스를 선택하여 피치의 후보로 선택하는 피치 후보 선택수단,
    상기 선택된 피치 후보에 대하여 콤 웨이트의 산출 및 출력을 수행하는 콤 필터링수단,
    상기 콤 필터링 결과 중에서 가장 작은 출력에 해당하는 주파수 인덱스를 선택하여 최종적인 피치로 결정하는 최소 콤 출력 산출수단;
    을 포함하는 것을 특징으로 하는 음정 인식 장치.
  3. 제 2 항에 있어서, 상기 콤 필터링 수단은 모든 가능한 주파수 인덱스에 대하여 산출하여 놓은 콤 웨이트를 이용하여, 피치 후보 선택 과정에서 선택된 주파수 인덱스에 대해서만 콤 출력을 산출하는 것을 특징으로 하는 음정 인식장치.
  4. 제 1 항에 있어서, 상기 과양자화된 음계가 일반적으로 음악에서 사용하는 옥타브당 12음계보다 세밀한 옥타브당 36음계를 사용하는 것을 특징으로 하는 음정 인식장치.
  5. 제 1 항에 있어서, 상기 과양자화된 음계를 사용하여 피치를 추정함에 있어서 콤 필터링을 사용할 때, 콤 필터가 과양자화된 음계에 해당하는 주파수 인덱스에 맞추어 산출되고, 과양자화된 음계에 해당하는 주파수 인덱스에 맞추어 산출된 콤 출력을 산출하며, 최소 콤 출력에 해당하는 주파수 인덱스를 과양자화된 음계에 해당하는 주파수 인덱스에서 산출하여 피치로 결정하는 것을 특징으로 하는 음정 인식장치.
  6. 제 1 항에 있어서, 상기 과양자화된 음계의 단위에서 추출된 음 높이 정보를 일반적으로 음악에서 사용하는 음계의 단위로 변환하기 위하여, 과양자 음계와 일반적으로 음악에서 사용하는 음계 사이의 관계를 나타내는 표를 만들어서 변환하는것을 특징으로 하는 음정 인식장치.
  7. 제 1 항에 있어서, 상기 템포럴 세그멘테이션 장치는 피크 스펙트럼의 주파수별 합산으로 산출되는 톤 메져의 산출수단, 상기 톤 메져가 특정 임계치보다 작은 부분을 검출함으로써 이루지는 톤 메져에 기반한 세그멘테이션 수단, 각 오디오 프레임 별로 산출된 피치의 값에서 시간적으로 일정 구간 안의 값을 평균하여 산출함으로써 피치 시퀀스 스무딩 처리를 하는 피치 시퀀스 평탄화 수단, 추정된 피치 값의 시간적인 변이 중에서 일정시간 같은 값을 추출하여 그 값을 주위 오디오 프레임의 대표값으로 설정하는 안정화 수단, 인접한 피치 시퀀스 사이에 특정 피치 값 이상이 되는 오디오 프레임을 세그먼트의 경계로 설정하는 추정된 피치에 기반한 세그멘테이션수단, 세그먼트를 대표하는 피치 값을 세그먼트 내에 포함되어 있는 모든 오디오 프레임의 피치 정보로써 산출하는 세그먼트 피치 산출수단으로 구성됨을 특징으로 하는 음정 인식 장치.
  8. 제 7 항에 있어서, 상기 피치 시퀀스 평탄화 수단에서 각 오디오 프레임 별로 산출된 피치의 값에서 시간적으로 일정 구간 안의 값을 평균하여 피치 시퀀스를 평탄화 함에 있어서, 특정 오디오 프레임에서의 평탄화된 피치 값을 얻기 위해 특정 오디오 프레임의 시간적으로 이전 프레임보다 이후에 프레임에 대한 피치 정보를 더 많이 반영하는 것을 특징으로 하는 음정 인식장치.
  9. 제 7 항에 있어서, 상기 세그먼트의 경계로 설정하는 기반이 되는 피치 값 차이의 임계치는 피치 추정 장치에서 사용하는 음계의 단위에 비례하거나, 상기 피치 추정 장치에서 36음계를 사용할 때 2로 설정하는 것을 특징으로 하는 음정 인식장치.
  10. 제 7 항에 있어서, 상기 세그먼트를 대표하는 피치 값을 세그먼트 안에 포함되어 있는 모든 오디오 프레임의 피치 값을 평균하여 산출하거나, 상기 세그먼트를 대표하는 피치 값을 세그먼트 안에 포함되어 있는 모든 오디오 프레임의 피치 값에 대한 돗수를 구하여 가장 많은 돗수를 가지는 피치 값으로 선택하는 것을 특징으로 하는 음정 인식 장치.
  11. 제 7 항에 있어서, 상기 톤 메져는 스펙트럼과 이를 평탄화한 스펙트럼의 차로써 산출된 피크 스펙트럼의 주파수별 합으로 산출되는 것을 특징으로 하는 음정 인식장치.
  12. 제 7 항에 있어서, 상기 톤 메져와 하나의 임계치만으로 잡음, 묵음, 무성음이 포함되어 있는 오디오 프레임을 판별해 내는 것을 특징으로 하는 음정 인식장치.
KR1020030045319A 2003-07-04 2003-07-04 음정 인식 장치 KR20050003814A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020030045319A KR20050003814A (ko) 2003-07-04 2003-07-04 음정 인식 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030045319A KR20050003814A (ko) 2003-07-04 2003-07-04 음정 인식 장치

Publications (1)

Publication Number Publication Date
KR20050003814A true KR20050003814A (ko) 2005-01-12

Family

ID=37218864

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030045319A KR20050003814A (ko) 2003-07-04 2003-07-04 음정 인식 장치

Country Status (1)

Country Link
KR (1) KR20050003814A (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717396B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 로컬 스펙트럴 정보를 이용하여 음성 인식을 위한 유성음을판단하는 방법 및 장치
KR100860830B1 (ko) * 2006-12-13 2008-09-30 삼성전자주식회사 음성 신호의 스펙트럼 정보 추정 장치 및 방법
KR101051803B1 (ko) * 2010-12-16 2011-07-25 전자부품연구원 허밍 또는 노래 기반 음원 검색 방법 및 시스템
US8200490B2 (en) 2006-03-02 2012-06-12 Samsung Electronics Co., Ltd. Method and apparatus for searching multimedia data using speech recognition in mobile device
US8935158B2 (en) 2006-12-13 2015-01-13 Samsung Electronics Co., Ltd. Apparatus and method for comparing frames using spectral information of audio signal
CN112365868A (zh) * 2020-11-17 2021-02-12 北京达佳互联信息技术有限公司 声音处理方法、装置、电子设备及存储介质
KR20230106805A (ko) * 2022-01-07 2023-07-14 주식회사 킨트 음성인식 매칭시스템

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717396B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 로컬 스펙트럴 정보를 이용하여 음성 인식을 위한 유성음을판단하는 방법 및 장치
US8200490B2 (en) 2006-03-02 2012-06-12 Samsung Electronics Co., Ltd. Method and apparatus for searching multimedia data using speech recognition in mobile device
KR100860830B1 (ko) * 2006-12-13 2008-09-30 삼성전자주식회사 음성 신호의 스펙트럼 정보 추정 장치 및 방법
US8249863B2 (en) 2006-12-13 2012-08-21 Samsung Electronics Co., Ltd. Method and apparatus for estimating spectral information of audio signal
US8935158B2 (en) 2006-12-13 2015-01-13 Samsung Electronics Co., Ltd. Apparatus and method for comparing frames using spectral information of audio signal
KR101051803B1 (ko) * 2010-12-16 2011-07-25 전자부품연구원 허밍 또는 노래 기반 음원 검색 방법 및 시스템
CN112365868A (zh) * 2020-11-17 2021-02-12 北京达佳互联信息技术有限公司 声音处理方法、装置、电子设备及存储介质
CN112365868B (zh) * 2020-11-17 2024-05-28 北京达佳互联信息技术有限公司 声音处理方法、装置、电子设备及存储介质
KR20230106805A (ko) * 2022-01-07 2023-07-14 주식회사 킨트 음성인식 매칭시스템

Similar Documents

Publication Publication Date Title
US5611019A (en) Method and an apparatus for speech detection for determining whether an input signal is speech or nonspeech
Goto A robust predominant-F0 estimation method for real-time detection of melody and bass lines in CD recordings
US7567900B2 (en) Harmonic structure based acoustic speech interval detection method and device
US20080300702A1 (en) Music similarity systems and methods using descriptors
CN109979488B (zh) 基于重音分析的人声转乐谱系统
WO2009001202A1 (en) Music similarity systems and methods using descriptors
JP4432893B2 (ja) 声質判定装置、声質判定方法、および声質判定プログラム
JP5127982B2 (ja) 音楽検索装置
JP2009008836A (ja) 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
Nwe et al. Singing voice detection in popular music
Dubuisson et al. On the use of the correlation between acoustic descriptors for the normal/pathological voices discrimination
Grosche et al. Automatic transcription of recorded music
KR20050003814A (ko) 음정 인식 장치
Zhao et al. A processing method for pitch smoothing based on autocorrelation and cepstral F0 detection approaches
JP4722738B2 (ja) 楽曲分析方法及び楽曲分析装置
KR100991464B1 (ko) 자동 노래 채보장치
Reddy et al. Predominant melody extraction from vocal polyphonic music signal by combined spectro-temporal method
JP2008015388A (ja) 歌唱力評価方法及びカラオケ装置
KR20150084332A (ko) 클라이언트 단말기의 음정인식기능 및 이를 이용한 음악컨텐츠제작 시스템
Sharma et al. Singing characterization using temporal and spectral features in indian musical notes
KR100526110B1 (ko) 화자인식시스템의 화자 특징벡터 생성방법 및 시스템
Gainza et al. Onset detection and music transcription for the Irish tin whistle
Bonjyotsna et al. Signal processing for segmentation of vocal and non-vocal regions in songs: A review
Zlatintsi et al. Musical instruments signal analysis and recognition using fractal features
Devaney An empirical evaluation of note segmentation and automatic pitch-extraction methods for the singing voice

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination