KR100735343B1 - 음성신호의 피치 정보 추출장치 및 방법 - Google Patents

음성신호의 피치 정보 추출장치 및 방법 Download PDF

Info

Publication number
KR100735343B1
KR100735343B1 KR1020060032824A KR20060032824A KR100735343B1 KR 100735343 B1 KR100735343 B1 KR 100735343B1 KR 1020060032824 A KR1020060032824 A KR 1020060032824A KR 20060032824 A KR20060032824 A KR 20060032824A KR 100735343 B1 KR100735343 B1 KR 100735343B1
Authority
KR
South Korea
Prior art keywords
harmonic
pitch
noise
region
value
Prior art date
Application number
KR1020060032824A
Other languages
English (en)
Inventor
김현수
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020060032824A priority Critical patent/KR100735343B1/ko
Priority to US11/786,213 priority patent/US7860708B2/en
Application granted granted Critical
Publication of KR100735343B1 publication Critical patent/KR100735343B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 음성신호의 피치 정보를 추출하기 위한 장치 및 방법에 관한 것이다. 이를 위해 본 발명에 따른 음성신호의 피치 정보를 추출하기 위한 장치는, 입력되는 음성신호 프레임에서 예측 피치 정보들을 추출하는 파일럿 피치 판단부와, 상기 예측된 피치 정보들 중 미리 설정된 조건에 따라 적어도 하나의 피치 후보값을 선택하는 피치 후보값 선택부와, 상기 선택된 각각의 피치 후보값을 이용하여 하모닉-잡음 영역을 분리하는 하모닉-잡음 영역 분리부와, 상기 분리된 각 하모닉-잡음 영역의 에너지 비율을 산출하는 하모닉-잡음 에너지 비율 산출부와, 상기 산출된 하모닉-잡음 에너지 비율 중 최대값을 가지는 하모닉-잡음 영역의 피치 후보값을 해당 음성신호 프레임의 피치값으로 선택하는 피치 정보 선택부를 포함한다.
하모닉, 잡음, 피치 정보, 음성신호

Description

음성신호의 피치 정보 추출장치 및 방법{APPARATUS AND METHOD FOR EXTRACTING PITCH INFORMATION OF A SPEECH SIGNAL}
도 1은 본 발명의 실시 예에 따른 음성신호의 피치 정보를 추출하기 위한 장치에 대한 블록 구성도를 나타낸 도면,
도 2는 본 발명의 실시 예에 따른 음성신호의 피치 정보 추출장치에서 하모닉 - 잡음 영역 분리부의 내부 구성도를 나타내는 도면,
도 3은 본 발명의 실시 예에 따라 음성신호에서 최적의 피치 정보를 추출하기 위한 과정을 도시하는 흐름도,
도 4는 일반적인 음성신호에서 분리된 하모닉 영역과 잡음 영역의 신호를 나타낸 도면.
본 발명은 음성 처리 장치 및 방법에 관한 것으로, 특히 음성신호의 피치 정보를 추출하기 위한 장치 및 방법에 관한 것이다.
일반적으로 음성 및 음향 신호를 포함한 오디오 신호는 시간 영역 및 주파수 영역에서의 통계적 특성에 따라 주기적인 성분(peridoc or harmonic)과 비주기적인 성분(non-peridoc or random) 즉, 유성음(voiced)과 무성음(unvoiced)으로 구분되며, 이를 준-주기적(quasi-periodic)하다고 말한다. 이 때, 주기적인 성분과 비주기적인 성분은 피치 정보의 유무에 따라 유성음과 무성음으로 판별하고, 이 정보를 근거로 주기성의 유성음과 비주기성의 무성음을 구분하여 사용한다. 특히 주기적인 성분은 가장 많은 정보를 가지며 음질에 큰 영향을 미치는데, 이 유성음 부분(voiced part)의 주기를 피치라고 한다. 즉, 피치 정보는 음성 신호를 사용하는 모든 시스템에서 가장 중요한 정보이며, 피치 에러(pitch error)는 시스템 전체의 성능과 음질에 가장 큰 영향을 미치는 요소이다.
이에 따라 피치 정보를 얼마나 정확하게 검출하느냐의 여부가 음질의 성능 향상에 많은 영향을 미치게 된다. 통상적인 피치 정보를 추출하는 방법들은, 앞 단의 신호에 근거하여 뒷 단의 신호를 예측하는 선형 예측 분석(linear prediction analysis)에 기반을 두고 있다. 또한, 음성 신호를 사인꼴 파형(sinusoidal representation)에 근거하여 표현하면서, 신호의 하모닉 정도(harmonicity)를 이용하여 최대 적정 비율(maximum likely ratio)을 계산하는 피치 정보 추출 방법의 성능이 우수하여 많이 사용되어 왔다.
먼저, 음성 신호 분석에서 많이 사용되는 선형 예측 분석방법은 선형 예측의 차수(order)에 따라 성능이 좌우되며, 성능을 높이기 위해 차수를 높이게 되면 계산량이 많아질 뿐만 아니라 어느 정도 이상으로는 성능이 좋아지지 않게 된다. 이러한 선형 예측 분석 방법은 짧은 시간 동안에는 신호가 변동이 없다 는(stationary) 가정 하에서만 동작한다는 문제점이 있다. 따라서, 음성 신호의 트랜지션(transition) 영역에서는 급격히 변화하는 신호를 따라가지 못하고 결국 실패(fail)하게 된다.
또한, 선형 예측 분석 방법은 데이터 윈도윙(Data Windowing)을 적용하는데, 데이터 윈도윙 선택 시 시간 축과 주파수 축 레졸루션(resolution) 간의 균형이 유지되지 않으면 스펙트럼 포락선(envelope) 검출이 어렵게 된다. 예를 들어, 매우 높은 피치를 가지는 음성의 경우, 선형 예측 분석 방법으로는 하모닉들의 넓은 간격 때문에 스펙트럼의 포락선보다는 개별적인 하모닉들을 따라가게 된다. 따라서, 여성이나 어린이 화자의 경우에는 성능이 저하되는 경향이 발생하게 된다. 이러한 문제점이 있음에도 불구하고 선형 예측 분석 방법은 적절한 타이밍, 주파수 측의 레졸루션과 음성 압축 시의 용이한 적용 등의 이유로 널리 쓰이고 있는 스펙트럼 추정 방법이다.
하지만, 이러한 피치 정보 추출 방법은 두배 피치(pitch doubling) 또는 반 피치(pitch halving)의 가능성에 노출되어 있다. 구체적으로, 프레임 내에서 정확한 피치 정보를 추출하기 위해서는 그 프레임 내에서 피치 정보를 가지는 주기적인 성분만의 길이를 찾아야 하는데, 두배 피치의 경우에는 그 주기적인 성분의 길이를 2배로 잘못 찾아낼 수 있으며 반 피치의 경우에는 1/2배로 잘못 찾아낼 수도 있다. 이와 같이 종래의 피치 정보 추출 방법들은 두배 피치, 반 피치의 경우에 대한 문제점을 가지고 있으므로, 그에 따라 시스템 전체 성능과 음질에 큰 영향을 끼치는 피치 에러도 고려 대상이 된다.
이 피치 에러에서는 알고리즘을 통해 최선의 후보(candidate)라고 여겨지는 주파수를 선택하는데, 이 피치 에러는 그 알고리즘 성능의 한계로 인해 나타나는 파인 에러율(fine error ratio)과 많은 에러를 야기하는 프레임 개수들의 비율을 나타내는 그로스 에러율(gross error ratio)로 구분된다. 예를 들어, 100개의 프레임 중 5개의 에러가 발생하는 경우 95개의 프레임 내의 실제 피치 정보와 검색 과정을 거친 피치 정보와의 차이를 파인 에러율이라고 말할 수 있으며, 에러 범위는 잡음이 커질수록 함께 늘어나는 경향이 있다. 그리고 그로스 에러율은 입력된 전체 프레임들에서 두배 피치의 경우에는 한 주기 정도, 반 피치의 경우에는 1/2주기 정도의 회복 불가능한 에러로 인해 발생한다.
상술한 바와 같이 종래의 피치 정보 추출 방법들은 두배 피치 또는 반 피치로 인해 시스템 전체의 성능과 음질에 가장 큰 영향을 미치는 피치 에러에 대해서는 나쁜 성능을 보이는 경향이 있다.
따라서, 본 발명은 피치 정보 추출의 정확성을 향상시킬 수 있도록 하는 음성 신호의 피치 정보 추출 장치 및 방법을 제공한다.
또한, 본 발명은 음성 신호의 하모닉 영역과 잡음 영역의 에너지 비율을 사용하여 음성신호의 피치정보를 추출할 수 있도록 하는 음성 신호의 피치 정보 추출 장치 및 방법을 제공한다.
이를 위해 본 발명에 따른 음성신호의 피치 정보를 추출하기 위한 장치는, 입력되는 음성신호 프레임에서 예측 피치 정보들을 추출하는 파일럿 피치 판단부와, 상기 예측된 피치 정보들 중 미리 설정된 조건에 따라 적어도 하나의 피치 후보값을 선택하는 피치 후보값 선택부와, 상기 선택된 각각의 피치 후보값을 이용하여 하모닉-잡음 영역을 분리하는 하모닉-잡음 영역 분리부와, 상기 분리된 각 하모닉-잡음 영역의 에너지 비율을 산출하는 하모닉-잡음 에너지 비율 산출부와, 상기 산출된 하모닉-잡음 에너지 비율 중 최대값을 가지는 하모닉-잡음 영역의 피치 후보값을 해당 음성신호 프레임의 피치값으로 선택하는 피치 정보 선택부를 포함한다.
또한, 본 발명에 따른 음성신호의 피치 정보를 추출하기 위한 방법은, 입력되는 음성신호 프레임에서 예측 피치 정보들을 추출하는 과정과, 상기 예측된 피치 정보들 중 미리 설정된 조건에 따라 적어도 하나의 피치 후보값을 선택하는 과정과, 상기 선택된 각각의 피치 후보값을 이용하여 하모닉-잡음 영역을 분리하는 과정과, 상기 분리된 각 하모닉-잡음 영역의 에너지 비율을 산출하는 과정과, 상기 산출된 하모닉-잡음 에너지 비율 중 최대값을 가지는 하모닉-잡음 영역의 피치 후보값을 해당 음성신호 프레임의 피치값으로 선택하는 과정을 포함함을 특징으로 한다.
본 발명은 음성 신호에서 피치 정보 추출의 정확성을 향상시킬 수 있도록 하는 기능을 구현한다. 또한, 본 발명은 음성 코딩, 인식, 합성, 강화 수행을 위한 음성 처리 시스템의 전처리 과정으로 입력된 음성 신호에서 피치 정보를 추출하여 뒷단의 음성 처리 시스템으로 피치 정보를 제공하여 이를 이용할 수 있도록 한다.
그러면, 이하 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
도 1은 본 발명의 실시 예에 따른 음성신호의 피치 정보를 추출하기 위한 장치에 대한 블록 구성도이다. 도 1을 참조하면, 본 발명의 실시 예에 따른 피치정보 추출장치는 파일럿 피치 판단부(101), 피치 후보값 선택부(102), 하모닉-잡음 영역 분리부(103), 하모닉-잡음 영역 에너지 비율 산출부(104), 피크 정보 선택부(105)를 포함한다.
피치 정보 추출 장치(100)는 시간 도메인 상의 음성 신호를 주파수 도메인 상의 음성신호로 변환된 음성신호를 입력받는다. 더 구체적으로 살펴보면, 마이크(MIC:Microphone) 등으로 구성될 수 있는 음성 신호 입력부(도면에는 도시하지 않았음)로부터 음성 신호는 주파수 도메인 변환부(도면에는 도시하지 않았음)를 통해 시간 도메인에서 주파수 도메인으로 변환된다. 이러한 주파수 도메인 변환부는 FFT(Fast Fourier Transform) 등을 이용하여 시간 도메인 상의 음성 신호를 주파수 도메인 상의 음성 신호로 변환한다.
먼저, 피치 정보 추출 장치(100)로 입력되는 음성 신호는 파일럿 피치 판단부(101)로 입력된다.
그러면, 파일럿 피치 판단부(101)는 피치 판단 알고리즘(Pitch Detection Algorithm)을 사용하여 입력되는 음성신호 프레임에서 예측 피치 값들을 추출하여 출력한다. 이러한 피치 판단 알고리즘을 사용하여 피치 값을 추출하는 것은 “L.R. Rabiner, “On the use of autocorrelation analysis for pitch detection”, IEEE Trans. Acoust., Speech, Sig. Process., ASSP-25, pp. 24-33, 1977.”와 “A.M. Noll, “Pitch determination of human speech by the harmonic product spectrum, the harmonic sum spectrum, and a maximum likelihood estimate”, Proc. Symposium on Computer Processing in Communications, USA, vol. 14, pp779-797, April. 1969.”와 같은 참고문헌의 연구를 참조하여 추출 가능하다.
피치 후보값 선택부(102)는 음성신호 프레임에서 예측된 예측 피치 값들 중에서 후보값으로 선택하기 위해 미리 설정된 범위 내에 해당되는 예측 피치값을 피치 후보값으로 선택한다. 이때, 미리 설정된 범위는 시스템의 성능에 따라 결정될 수 있다. 이후 피치 후보값 선택부(102)는 선택된 피치 후보값을 하모닉-잡음 영역 분리부(103)로 출력한다.
그러면, 하모닉-잡음 영역 분리부(103)는 선택된 피치 후보값을 이용하여 하모닉 구간을 판단함으로써 하모닉-잡음 영역을 분리한다. 본 발명에서는 하모닉-잡음 영역으로 분리하기 위해 사용되는 피치 후보값을 N개 사용하므로 각 피치 후보값을 이용하여 분리되는 하모닉-잡음 영역은 N개의 경우가 발생한다. 예를 들어, 5개의 피치 후보값을 사용하기로 설정되어 있다면 각 피치 후보값을 이용하여 분리되는 하모닉-잡음 영역은 5개의 경우가 발생하는 것이다.
이와 같은 하모닉-잡음 영역 분리부(103)에서 피치 후보값들 중 하나의 피치 후보값을 이용하여 하모닉-잡음 영역을 분리하는 동작에 대하여 도 3을 참조하여 더 구체적으로 살펴보도록 한다.
먼저, 하모닉 구간 판단부(200)는 주파수 도메인으로 변환된 음성신호가 입력되면 피치 후보값 선택부(102)에서 입력된 피치 후보값을 이용하여 하모닉 구간을 판단한다.
한편, 하모닉-잡음 분리 반복부(201)는 하모닉 구간과 잡음 구간을 보간(interpolation) 및 외삽(extrapolation)을 수행하는데, 하모닉 구간과 잡음 구간이 정확하게 구분되는 시점까지 반복하여 하모닉 구간과 잡음 구간을 보간 및 외삽을 수행한다. 즉, 하모닉-잡음 분리 반복부(407)를 통해 주파수 도메인에서 하모닉 구간의 하모닉 신호는 증폭시키고, 잡음 구간의 잡음 신호를 감쇄시키는 동작을 수행한다.
이후, 상기와 같이 입력된 음성신호의 주파수 도메인에서 하모닉 구간의 하모닉 신호는 증폭시키고, 잡음 구간의 잡음 신호를 감쇄시키면, 하모닉-잡음 분리 판단부(202)는 두개의 연속된 하모닉 컴퍼넌트(component)들의 에너지 차가 미리 설정된 임계치 이하로 떨어지는지를 판단한다. 또한, , 하모닉-잡음 분리 판단부(202)는 상기의 판단 결과가 두개의 연속된 하모닉 컴퍼넌트(component)들의 에너지 차가 임계치 이하가 될 시점까지 하모닉-잡음 분리 반복부(201)를 통해 하모닉 구간을 증폭시키고 잡음 구간은 감쇄시키도록 한다. 또한, 하모닉-잡음 분리 판단부(202)는 상기의 판단 결과가 두개의 연속된 하모닉 컴퍼넌트(component)들의 에너지 차가 임계치 이하가 되면 하모닉 잡음 구간 추출부(203)에서 상기의 증폭 및 감쇄에 따라 구분되는 하모닉 구간과 잡음 구간을 분리한다.
하모닉-잡음 영역 분리부(103)에서는 하모닉 영역과 잡음 영역을 분리하는 방법으로 상기의 도 2와 같이 분리하는 방법을 이용하였지만 이는 본 발명을 설명하기 위한 실시 예일 뿐, 다른 분리방법을 사용하여 하모닉 영역과 잡음 영역을 분리할 수도 있다.
한편, 하모닉-잡음 영역 분리부(103)에서 분리된 하모닉 영역과 잡음 영역의 신호는 도 4의 (a)와 (b)와 같이 도시될 수 있다.
이후, 하모닉-잡음 영역 에너지 비율 산출부(104)는 하모닉-잡음 영역의 에너지 비율을 계산한다. 이때, HNR(Harmonic to Noise Ratio)는 하모닉 신호 영역과 잡음 신호 영역의 비율로 정의되어질 수 있다. 이러한, HNR은 하기의 <수학식 1>과 같이 도시된다.
Figure 112006025081219-pat00001
일반적으로 음성신호에서의 잔여 신호(residual)는 음성 신호에서 하모닉 구간을 제외한 나머지 신호로, 본 발명에서는 잡음 구간과 같은 개념으로 간주하므로 HNR과 HRR(harmonic to residual ratio)은 같은 개념의 계산 방법을 사용한다. 여기서 HRR은 하모닉 모델인 하기의 <수학식 2>와 같이 도시되는 식에 기반하여 상기의 하기의 <수학식 3>과 같이 정의될 수 있다.
Figure 112006025081219-pat00002
,
Figure 112006025081219-pat00003
그러나, 상기의 <수학식 3>과 같은 HRR에서는 잔여 신호(residual)를 사인꼴 파형(sinusoidal representation)의 관점에서 사용하였지만, HNR에서의 잡음은 하모닉-잡음 영역을 분리한 후 계산된 것이라는 차이점이 있다.
일반적인 음성 신호에서 유성음화 된 구간과 무성음화 된 구간이 혼합되어 있는 한 프레임 내의 신호(Mixed voicing)의 경우에는 낮은 주파수 밴드에서는 주기적인 구조를 보이지만, 높은 주파수 밴드에서는 무성음화 되어 잡음과 비슷한 특징이 있다. 따라서, 로우 패스 필터링(low pass filtering) 처리 후에 하모닉-잡음 영역을 분리(decomposition)하여 HNR 계산할 수 있다.
한편, 음성신호 프레임에서 주파수 밴드들 사이에 큰 에너지 차이가 존재하는 경우 예를 들어 높은 에너지 밴드가 HNR에 영향을 줘서 너무 큰 HNR 값을 가지는 무성음 구간(unvoiced segment)이 존재하는 경우에 생길 수 있는 문제를 제거하고, 각각의 밴드에 대한 정확한 제어를 위하여 서브 밴드 HNR(SB(sub-band)-HNR)을 사용하여 하모닉-잡음 영역의 비율을 계산할 수 있다.
상기와 같이 서브 밴드 HNR은 전체 하모닉-잡음 영역의 비율을 계산하기 위 하여 각 하모닉 영역의 HNR을 각각 계산한 후 계산된 각 HNR 값들을 더함으로써, 각 하모닉 영역을 상대적으로 하모닉 성격이 강하지 않은 다른 서브 밴드 주파수 영역 대하여 효과적으로 표준화(normalize)하게 된다. 이러한 서브 밴드 HNR은 하기의 <수학식 4>와 같이 정의된다.
Figure 112006025081219-pat00004
이때,
Figure 112006025081219-pat00005
는 하모닉 밴드의 N번째 상부 주파수 바운드(upper frequency bound)이고,
Figure 112006025081219-pat00006
는 하모닉 밴드의 N번째 하부 주파수 바운드(lower frequency bound)이다. 또한, N은 서브 밴드들의 수이다.
상기와 같은 서브 밴드 HNR은 하기의 <수학식 5>와 같이 도시된다.
Figure 112006025081219-pat00007
이때, 도 4의 (a) 부분이 원래 음성 신호의 주파수 도메인 신호라고 하면, Blue Area는 도 4의 (b) 부분을 의미하며, 이는 하모닉-노이즈 분리된 하모닉 영역이고, Red Area는 도 4의 (c) 부분을 의미하며, 이는 하모닉-노이즈 분리된 잡음 영역을 의미한다. 또한, 하나의 서브 밴드는 하모닉 피크(harmonic peak)에서 센 터(center)를 가지게 되고, 양 쪽으로 반 피치(pitch)만큼의 넓이를 가지는 밴드이다. 예를 들어, 도 4를 참조하여 서브 밴드 HNR을 수학식으로 정의하면, 하기의 <수학식 6>과 같이 도시된다.
SB-HNR = A/A’+ B/B’+ C/C’+D/D’+ E/E’
상기와 같이 서브 밴드 HNR은 HNR에 비해 각 하모닉 영역(harmonic region)이 효과적으로 이퀄라이즈(equalize) 되어 모든 하모닉 영역이 비슷한 가중치(weighting)를 가지게 된다. 또한 서브 밴드 HNR은 각각의 서브 밴드의 HNR들이 각각 계산되므로, 각각의 주파수 밴드에 대하여 유성음화 구간과 무성음화 구간을 정의하는 서브 밴드 유성음/무성음 구분(sub-band V(Voiced)/UV(unvoiced) classification)에 이상적인 방법이 된다.
상기와 같이 하모닉 영역과 잡음 영역을 분리한 후 하모닉 영역과 잡음 영역의 에너지 비율은 하기의 <수학식 7>과 같이 정의된다.
Figure 112006025081219-pat00008
상기와 같이 하모닉-잡음 영역 에너지 비율 산출부(104)는 각각의 피치 후보값을 이용하여 분리된 하모닉-잡음 신호 영역들에 대해 각각의 하모닉-잡음 영역 에너지 비율값(Harmonic-Noise Energy Ratio - HNER)을 산출한다. 이후, 산출된 하 모닉-잡음 영역 에너지 비율값(HNER)들은 피크 정보 선택부(105)로 입력되고, 이를 수신한 피크 정보 선택부(105)는 계산된 에너지 비율값들 중 최대값을 해당 음성신호 프레임의 피치 값으로 선택한다.
그러면, 상기의 도 1과 같이 구성되는 피치 정보 추출장치(100)에서 입력된 음성신호의 피치 정보를 추출하기 위한 과정을 도 3을 참조하여 살펴보도록 한다.
먼저, 300단계에서 피치 정보 추출장치(100)는 음성신호가 입력되면 302단계로 진행하여 피치 판단 알고리즘(Pitch Detection Algorithm)을 사용하여 입력되는 음성신호 프레임에서 예측 피치 정보를 추출한다. 이때, 입력되는 음성신호는 주파수 도메인으로 변환된 음성신호 임을 가정한다.
이후, 302단계에서 피치 정보 추출장치(100)는 음성신호 프레임에서 예측된 예측 피치 값들 중에서 미리 설정된 범위 내에 해당되는 예측 피치값을 피치 후보값으로 선택한다. 이때, 피치 후보값 선택을 위해 미리 설정된 범위는 시스템의 성능에 따라 결정될 수 있다.
이후, 303단계로 진행하여 피치 정보 추출장치(100)는 선택된 피치 후보값을 이용하여 하모닉 구간을 판단함으로써 하모닉-잡음 영역을 분리한다. 이때 피치 정보 추출장치(100)는 각 파치 후보값을 이용하여 하모닉-잡음 영역을 분리한다. 즉, 피치 후보값의 수만큼 하모닉-잡음 영역을 분리한다.
303단계에서 304단계로 진행하면, 피치 정보 추출장치(100)는 하모닉-잡음 영역 에너지 비율을 계산한다. 즉, 피치 후보값에 따라 분리된 모든 하모닉-잡음 영역에 대해 하모닉-잡음 영역 에너지 비율값을 산출하는 것이다. 여기서, 하모닉- 잡음 영역에 대해 하모닉-잡음 영역 에너지 비율값을 산출하는 방법은 상기의 도 1의 하모닉-잡음 영역 에너지 비율 산출부(104)의 동작과 같이 산출할 수 있다.
이후, 305단계에서 피치 정보 추출장치(100)는 상기의 304단계에서 산출된 하모닉-잡음 영역 에너지 비율값들 중 최대값을 해당 음성신호 프레임의 피치로 선택한다. 그러면, 피치 정보 추출장치(100)는 305단계에서 선택된 피치 정보를 음성신호 처리부(110)로 출력하여 해당 음성신호 프레임의 음성처리 시 선택된 피치 정보를 이용할 수 있도록 한다.
상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시할 수 있다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해져야 한다.
상술한 바와 같은 본 발명은 하모닉-잡음 분리를 통한 에너지 비율 연산을 이용하여 항상 노이즈 출력보다 높이 출력되는 하모닉 피크들을 추출하여 사용함으로써 잡음에 견고할 뿐만 아니라 앞뒤의 값을 비교하여 간단히 피크 정보만을 찾아내면 되기 때문에 계산량이 현저히 줄어들어 빠른 계산속도를 얻을 수 있다. 또한, 본 발명은 오디오 신호에 대한 아무런 가정 없이도 오디오 신호에서 하모닉 피크 부분만을 이용함으로써 오디오 신호에서 필수적인 피치 정보를 용이하게 얻을 수 있을 뿐만 아니라. 피치 정보 추출의 정확성도 향상시킬 수 있게 된다. 또한 본 발 명은 정확하고 빠른 피치 정보의 추출을 가능하게 함으로써 실제 음성 코딩, 인식, 강화, 합성 시 그 음성 처리를 정확하고, 빠르게 할 수 있는 있다. 특히, 본 발명은 핸드폰 단말, 텔레매틱스, PDA, MP3 등 이동성이 강하고 계산, 저장 용량의 제한이 있거나 빠른 음성 처리가 요구되는 장치에 이용하면 큰 효과를 볼 수 있다.

Claims (12)

  1. 음성신호의 피치 정보를 추출하기 위한 장치에 있어서,
    입력되는 음성신호 프레임에서 예측 피치 정보들을 추출하는 파일럿 피치 판단부와,
    상기 예측된 피치 정보들 중 미리 설정된 조건에 따라 적어도 하나의 피치 후보값을 선택하는 피치 후보값 선택부와,
    상기 선택된 각각의 피치 후보값을 이용하여 하모닉-잡음 영역을 분리하는 하모닉-잡음 영역 분리부와,
    상기 분리된 각 하모닉-잡음 영역의 에너지 비율을 산출하는 하모닉-잡음 에너지 비율 산출부와,
    상기 산출된 하모닉-잡음 에너지 비율 중 최대값을 가지는 하모닉-잡음 영역의 피치 후보값을 해당 음성신호 프레임의 피치값으로 선택하는 피치 정보 선택부를 포함하는 것을 특징으로 하는 음성신호의 피치 정보 추출장치.
  2. 제 1항에 있어서, 상기 입력되는 음성신호는 시간 도메인 상의 음성신호를 주파수 도메인 상의 음성신호로 변환된 음성신호 임을 특징으로 하는 음성신호의 피치 정보 추출장치.
  3. 제 1항에 있어서,
    상기 파일럿 피치 판단부는 피치 판단 알고리즘(Pitch Detection Algorithm)을 사용하여 입력되는 음성신호 프레임에서 예측 피치 정보를 추출하는 것을 포함하는 것을 특징으로 하는 음성신호의 피치 정보 추출장치.
  4. 제 1항에 있어서, 하모닉-잡음 에너지 비율 산출부는,
    분리된 하모닉 영역과 잡음 영역의 에너지 비율을 하기의 [수학식 7]과 같이 산출할 수 있음을 특징으로 하는 음성신호의 피치 정보 추출장치.
    [수학식 7]
    Figure 112006025081219-pat00009
    여기서, HNER은 하모닉 영역과 잡음 영역의 에너지 비율 값이고,
    Figure 112006025081219-pat00010
    은 하모닉 영역의 에너지 값이고,
    Figure 112006025081219-pat00011
    는 잡음 영역의 에너지 값임.
  5. 제 1항에 있어서, 하모닉-잡음 에너지 비율 산출부는,
    하모닉 영역을 N개의 서브 밴드로 나누어 하기의 [수학식 4]과 같이 서브 밴드 하모닉 영역과 잡음 영역의 에너지 비율을 산출하는 과정인 것을 특징으로 하는 음성신호의 피치 정보 추출장치.
    [수학식 4]
    Figure 112006025081219-pat00012
    여기서,
    Figure 112006025081219-pat00013
    는 하모닉 밴드의 N번째 상부 주파수 바운드(upper frequency bound)이고,
    Figure 112006025081219-pat00014
    는 하모닉 밴드의 N번째 하부 주파수 바운드(lower frequency bound)이다. 또한, N은 서브 밴드들의 수임.
  6. 제 5항에 있어서, 상기 하나의 서브 밴드는 하모닉 피크(harmonic peak)에서 센터(center)를 가지게 되고, 양 쪽으로 반 피치(pitch)만큼의 넓이를 가진 밴드임을 특징으로 하는 음성신호의 피치 정보 추출장치.
  7. 음성신호 처리장치에서 음성신호의 피치 정보를 추출하기 위한 방법에 있어서,
    입력되는 음성신호 프레임에서 예측 피치 정보들을 추출하는 과정과,
    상기 예측된 피치 정보들 중 미리 설정된 조건에 따라 적어도 하나의 피치 후보값을 선택하는 과정과,
    상기 선택된 각각의 피치 후보값을 이용하여 하모닉-잡음 영역을 분리하는 과정과,
    상기 분리된 각 하모닉-잡음 영역의 에너지 비율을 산출하는 과정과,
    상기 산출된 하모닉-잡음 에너지 비율 중 최대값을 가지는 하모닉-잡음 영역의 피치 후보값을 해당 음성신호 프레임의 피치값으로 선택하는 과정을 포함하는 것을 특징으로 하는 음성신호의 피치 정보 추출방법.
  8. 제 7항에 있어서, 상기 입력되는 음성신호는 시간 도메인 상의 음성신호를 주파수 도메인 상의 음성신호로 변환된 음성신호 임을 특징으로 하는 음성신호의 피치 정보 추출방법.
  9. 제 7항에 있어서, 상기 예측 피치 정보를 추출하는 과정은,
    피치 판단 알고리즘(Pitch Detection Algorithm)을 사용하여 입력되는 음성신호 프레임에서 예측 피치 정보를 추출하는 과정인 것을 포함하는 것을 특징으로 하는 음성신호의 피치 정보 추출방법.
  10. 제 7항에 있어서, 하모닉-잡음 에너지 비율 산출 과정은, 하기의 [수학식 7]과 같이 분리된 하모닉 영역과 잡음 영역의 에너지 비율을 산출하는 과정인 것을 특징으로 하는 음성신호의 피치 정보 추출방법.
    [수학식 7]
    Figure 112006025081219-pat00015
    여기서, HNER은 하모닉 영역과 잡음 영역의 에너지 비율 값이고,
    Figure 112006025081219-pat00016
    은 하모닉 영역의 에너지 값이고,
    Figure 112006025081219-pat00017
    는 잡음 영역의 에너지 값임.
  11. 제 7항에 있어서, 하모닉-잡음 에너지 비율 산출 과정은, 하모닉 영역을 N개의 서브 밴드로 나누어 하기의 [수학식 4]과 같이 서브 밴드 하모닉 영역과 잡음 영역의 에너지 비율을 산출하는 과정인 것을 특징으로 하는 음성신호의 피치 정보 추출방법.
    [수학식 4]
    Figure 112006025081219-pat00018
    여기서,
    Figure 112006025081219-pat00019
    는 하모닉 밴드의 N번째 상부 주파수 바운드(upper frequency bound)이고,
    Figure 112006025081219-pat00020
    는 하모닉 밴드의 N번째 하부 주파수 바운드(lower frequency bound)이다. 또한, N은 서브 밴드들의 수임.
  12. 제 11항에 있어서, 상기 하나의 서브 밴드는 하모닉 피크(harmonic peak)에서 센터(center)를 가지게 되고, 양 쪽으로 반 피치(pitch)만큼의 넓이를 가진 밴드임을 특징으로 하는 음성신호의 피치 정보 추출방법.
KR1020060032824A 2006-04-11 2006-04-11 음성신호의 피치 정보 추출장치 및 방법 KR100735343B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020060032824A KR100735343B1 (ko) 2006-04-11 2006-04-11 음성신호의 피치 정보 추출장치 및 방법
US11/786,213 US7860708B2 (en) 2006-04-11 2007-04-11 Apparatus and method for extracting pitch information from speech signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060032824A KR100735343B1 (ko) 2006-04-11 2006-04-11 음성신호의 피치 정보 추출장치 및 방법

Publications (1)

Publication Number Publication Date
KR100735343B1 true KR100735343B1 (ko) 2007-07-04

Family

ID=38503154

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060032824A KR100735343B1 (ko) 2006-04-11 2006-04-11 음성신호의 피치 정보 추출장치 및 방법

Country Status (2)

Country Link
US (1) US7860708B2 (ko)
KR (1) KR100735343B1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7598447B2 (en) * 2004-10-29 2009-10-06 Zenph Studios, Inc. Methods, systems and computer program products for detecting musical notes in an audio signal
US8093484B2 (en) * 2004-10-29 2012-01-10 Zenph Sound Innovations, Inc. Methods, systems and computer program products for regenerating audio performances
US7521622B1 (en) * 2007-02-16 2009-04-21 Hewlett-Packard Development Company, L.P. Noise-resistant detection of harmonic segments of audio signals
GB2460297A (en) 2008-05-29 2009-12-02 Cambridge Silicon Radio Ltd Creation of an interference cancelling signal by frequency conversion to the passband of an intermediate filter.
EP2460157B1 (en) * 2009-07-27 2020-02-26 Scti Holdings, Inc. System and method for noise reduction in processing speech signals by targeting speech and disregarding noise
US8423357B2 (en) * 2010-06-18 2013-04-16 Alon Konchitsky System and method for biometric acoustic noise reduction
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US8731911B2 (en) * 2011-12-09 2014-05-20 Microsoft Corporation Harmonicity-based single-channel speech quality estimation
JP6904198B2 (ja) * 2017-09-25 2021-07-14 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980024790A (ko) * 1996-09-20 1998-07-06 이데이 노브유끼 음성부호화방법 및 장치, 음성복호화방법 및 장치
JP2001177416A (ja) 1999-12-17 2001-06-29 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化パラメータの取得方法および装置
KR20020022256A (ko) * 2000-09-19 2002-03-27 오길록 시간 분리 부호화 알고리즘을 이용한 음성 부호화기 및부호화 방법
KR20030070178A (ko) * 2002-02-21 2003-08-29 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
KR20030085354A (ko) * 2002-04-30 2003-11-05 엘지전자 주식회사 음성 부호화기에서 하모닉 추정 방법 및 장치
KR20040026634A (ko) * 2002-09-24 2004-03-31 마쯔시다덴기산교 가부시키가이샤 특징량 추출장치
US20040133424A1 (en) * 2001-04-24 2004-07-08 Ealey Douglas Ralph Processing speech signals
KR20050070410A (ko) * 2003-12-30 2005-07-07 한국생산기술연구원 대기압 플라즈마를 이용한 표면 세정방법
KR20050119625A (ko) * 2005-10-31 2005-12-21 (주)엠큐어 공압식 약물주사용 건
KR20070007684A (ko) * 2005-07-11 2007-01-16 삼성전자주식회사 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
US5220108A (en) * 1990-02-28 1993-06-15 Koji Hashimoto Amorphous alloy catalysts for decomposition of flons
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
JP3840684B2 (ja) * 1996-02-01 2006-11-01 ソニー株式会社 ピッチ抽出装置及びピッチ抽出方法
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US5999897A (en) * 1997-11-14 1999-12-07 Comsat Corporation Method and apparatus for pitch estimation using perception based analysis by synthesis
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6766288B1 (en) * 1998-10-29 2004-07-20 Paul Reed Smith Guitars Fast find fundamental method
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6587816B1 (en) * 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
US7171357B2 (en) * 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
KR100347188B1 (en) * 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
CN1430204A (zh) * 2001-12-31 2003-07-16 佳能株式会社 波形信号分析、基音探测以及句子探测的方法和设备
US7027979B2 (en) * 2003-01-14 2006-04-11 Motorola, Inc. Method and apparatus for speech reconstruction within a distributed speech recognition system
SG120121A1 (en) * 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
KR100552693B1 (ko) * 2003-10-25 2006-02-20 삼성전자주식회사 피치검출방법 및 장치
WO2006006366A1 (ja) * 2004-07-13 2006-01-19 Matsushita Electric Industrial Co., Ltd. ピッチ周波数推定装置およびピッチ周波数推定方法
KR100590561B1 (ko) * 2004-10-12 2006-06-19 삼성전자주식회사 신호의 피치를 평가하는 방법 및 장치
US8073148B2 (en) 2005-07-11 2011-12-06 Samsung Electronics Co., Ltd. Sound processing apparatus and method
KR100744375B1 (ko) 2005-07-11 2007-07-30 삼성전자주식회사 음성 처리 장치 및 방법
US20070011001A1 (en) * 2005-07-11 2007-01-11 Samsung Electronics Co., Ltd. Apparatus for predicting the spectral information of voice signals and a method therefor
KR100744352B1 (ko) 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980024790A (ko) * 1996-09-20 1998-07-06 이데이 노브유끼 음성부호화방법 및 장치, 음성복호화방법 및 장치
JP2001177416A (ja) 1999-12-17 2001-06-29 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化パラメータの取得方法および装置
KR20020022256A (ko) * 2000-09-19 2002-03-27 오길록 시간 분리 부호화 알고리즘을 이용한 음성 부호화기 및부호화 방법
US20040133424A1 (en) * 2001-04-24 2004-07-08 Ealey Douglas Ralph Processing speech signals
KR20030070178A (ko) * 2002-02-21 2003-08-29 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
KR20030085354A (ko) * 2002-04-30 2003-11-05 엘지전자 주식회사 음성 부호화기에서 하모닉 추정 방법 및 장치
KR20040026634A (ko) * 2002-09-24 2004-03-31 마쯔시다덴기산교 가부시키가이샤 특징량 추출장치
KR20050070410A (ko) * 2003-12-30 2005-07-07 한국생산기술연구원 대기압 플라즈마를 이용한 표면 세정방법
KR20070007684A (ko) * 2005-07-11 2007-01-16 삼성전자주식회사 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
KR20050119625A (ko) * 2005-10-31 2005-12-21 (주)엠큐어 공압식 약물주사용 건

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
10-2002-22256
10-2003-85354
10-2004-26634
10-2005-119625
10-2005-70410
10-2007-7684
한국음향학회지, 잡음이 섞인 음성에서의 음성/무언의 구별, Vol.3 No.1 pp.36-42

Also Published As

Publication number Publication date
US7860708B2 (en) 2010-12-28
US20070239437A1 (en) 2007-10-11

Similar Documents

Publication Publication Date Title
KR100735343B1 (ko) 음성신호의 피치 정보 추출장치 및 방법
RU2417456C2 (ru) Системы, способы и устройства для обнаружения изменения сигналов
KR100744352B1 (ko) 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
Tan et al. Multi-band summary correlogram-based pitch detection for noisy speech
US8989403B2 (en) Noise suppression device
US7912709B2 (en) Method and apparatus for estimating harmonic information, spectral envelope information, and degree of voicing of speech signal
CN101010722B (zh) 用于检测语音信号中话音活动的设备和方法
JP3277398B2 (ja) 有声音判別方法
Graciarena et al. All for one: feature combination for highly channel-degraded speech activity detection.
Chen et al. Improved voice activity detection algorithm using wavelet and support vector machine
US20040181403A1 (en) Coding apparatus and method thereof for detecting audio signal transient
US20140067388A1 (en) Robust voice activity detection in adverse environments
US20150372723A1 (en) Method and apparatus for mitigating feedback in a digital radio receiver
KR20120090086A (ko) 협대역 신호로부터의 상위대역 신호의 결정
Kumar Real-time performance evaluation of modified cascaded median-based noise estimation for speech enhancement system
KR20070007684A (ko) 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
Eshaghi et al. Voice activity detection based on using wavelet packet
US9117456B2 (en) Noise suppression apparatus, method, and a storage medium storing a noise suppression program
CN106024017A (zh) 语音检测方法及装置
Lu Noise reduction using three-step gain factor and iterative-directional-median filter
US20110301946A1 (en) Tone determination device and tone determination method
JP2007093635A (ja) 既知雑音除去装置
KR20090065181A (ko) 잡음 검출 방법 및 장치
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130530

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140529

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150528

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160530

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170529

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20180530

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20190530

Year of fee payment: 13