KR100323011B1 - 음성신호의피치주기추출장치 - Google Patents

음성신호의피치주기추출장치 Download PDF

Info

Publication number
KR100323011B1
KR100323011B1 KR1019940022600A KR19940022600A KR100323011B1 KR 100323011 B1 KR100323011 B1 KR 100323011B1 KR 1019940022600 A KR1019940022600 A KR 1019940022600A KR 19940022600 A KR19940022600 A KR 19940022600A KR 100323011 B1 KR100323011 B1 KR 100323011B1
Authority
KR
South Korea
Prior art keywords
value
pitch period
signal
correlation
delay time
Prior art date
Application number
KR1019940022600A
Other languages
English (en)
Other versions
KR950034058A (ko
Inventor
이노우에다께오
Original Assignee
다카노 야스아키
산요 덴키 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 다카노 야스아키, 산요 덴키 가부시키가이샤 filed Critical 다카노 야스아키
Publication of KR950034058A publication Critical patent/KR950034058A/ko
Application granted granted Critical
Publication of KR100323011B1 publication Critical patent/KR100323011B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

본 발명은 짧은 처리 시간에 음성 신호로부터 정확하게 피치 주기를 추출하는 음성 신호의 피치 주기 추출 장치를 제공하는 것을 목적으로 한다.
본 발명은 입력 음성 신호를 디지탈 신호로 변환시키는 A/D 변환기(1)과, 그 A/D 변환기(1)의 출력을 격납하는 메모리(2)와, 그 메모리(2)에 격납된 신호의 자기 상관치를 산출하는 상관치 계산부(3)과, 그 상관치 계산부(3)이 자기 상관치를 산출할 때의 지연 시간을 상기 A/D 변환기(1)의 샘플링 주파수의 정보에 따라 결정하는 상관 범위 제어부(4)와, 상기 상관치 계산부(3)으로부터 출력되는 자기 상관치의 최대값을 구함으로써 피치 주기를 얻는 피치 검출부(5)를 구비한 것을 특징으로 한다.

Description

음성 신호의 피치 주기 추출 장치
본 발명은 실시간 처리에 적합한 음성 신호의 피치 주기 추출 장치에 관한 것이다.
반도체 메모리 등에 음성을 기록하는 경우나 디지탈 전송계 등에서 음성을 전송하는 경우에는 음성 레벨을 직접 부호화하는 PCM 방법 외에 기록 측에서 음성의 특징을 나타내는 파라미터 형식으로 분석해서 기록하고, 재생 측에서 그 파라미터로부터 음성을 합성하는 음성 부호화 방법이 최근 주목되고 있다.
이러한 음성의 특징을 나타내는 파라미터 중 하나로서 피치 주기가 있고, 이 피치 주기는 일반적으로 음의 높이를 나타내는 것이다. 그러나, 그 피치 주기를 이용한 부호화 방법에서는 얼마나 피치 주기를 정확하게 구하는가가 재생음의 품질을 결정하게 된다.
또, 이와 같은 음성 부호화 방법은 전화의 형태와 동일한 형태로 사용되므로 높은 실시간성이 요구된다.
종래에는 자기 상관을 이용한 피치 주기 추출법이 피치 주기 추출의 정확함및 처리 시간 단축의 양자를 고려하여, 실시간에 적합한 방법으로 되어 있다. 이러한 피치 주기 추출에 자기 상관을 이용한 경우, 종래와 같이 자기 상관치를 구할 때의 지연 시간이 미리 고정되어 있으면, A/D 변환기의 샘플링 주파수가 변화하더라도, 그 지연 시간이 피치 주기의 추출에 대해 최적이 아니게 되거나, 처리량이 증가하거나 하는 문제점이 있다.
또, 자기 상관을 이용한 피치 주기 추출법으로는,
(1) 신호는 시간이 제한되어 있는 것으로 가정하고, 시간 길이 Ts 구간 내에만 신호가 존재하며, 그 시간 길이 Ts의 구간 외에서 신호는 항상 제로로서 자기 상관을 구하는 단시간 자기 상관을 이용하는 방법[이하 방법(1)이라 함]과,
(2) 신호는 시간 제한이 되어 있지 않은 것으로 해서 시간 길이 Tt 구간과, 피치의 존재가 상정되는 범위에서, 그 시간 길이 Tt 구간을 지연시킨 구간과의 자기 상관을 구하는 변형 단시간 자기 상관을 이용하는 방법[이하 방법(2)라 함]의 2가지가 있었다.
방법(1)에 있어서는 피치 주기를 정확하게 추출할 수 있으나, 피치 주기를 정확하게 추출하기 위해서는 적어도 피치 주기의 2배 정도의 시간 길이를 신호의 존재 구간으로 가정할 필요가 있어 처리 시간이 길어진다는 단점이 있다.
한편, 방법(2)에 있어서는 자기 상관을 구할 때의 기준이 되는 구간의 시간 길이 Tt는 피치 주기 정도로 하면 좋으므로, 방법(1)에 비해 자기 상관을 구하는데 이용하는 시간 길이를 적게 할 수 있으므로 처리 시간은 짧다. 그러나, 배주기의 피치를 추출하는 경우가 많아 방법(1)에 비해 피치 주기 추출의 정확함이 떨어진다.
현재, 음성 파형을 디지탈 음성 데이타 x(n)으로 나타내면 방법(1)에 의한 단시간 자기 상관치 Rn(k)는
[식 1]
단, m = 0, 1, 2,…,N-1-k
가 되고, 방법(2)에 의한 변형 단시간 자기 상관치 R'n(k)은
[식 2]
단, m = 0, 1, 2,…, Tt - 1
가 된다. 여기서, N은 방법(1)에서 신호가 존재한다고 가정했을 때 시간 구간, k는 단시간 자기 상관값 Rn(k) 또는 변형 단시간 자기 상관치 R'n(k)를 산출할 때 음성 파형을 지연시킬 때의 지연 시간으로, N > Ts ≫ k, Tt ≫ k의 관계에 있다.
식1 및 식2에서 알 수 있듯이 방법(1)에서는 곱의 합 구간이 지연 시간 k의 증가에 따라 감소하고 있지만, 방법(2)에서는 곱의 합 구간은 지연 시간 k와 관계없이 변하지 않는 것을 알 수 있다. 제8도는 횡축에 지연 시간 k(샘플)을 취하고, 종축에 자기 상관치에 대한 웨이팅의 비율을 취하며, 방법(1)(신호가 있다고 가정한 시간 구간을 200 샘플로 한 예)와 방법(2)의 웨이팅의 관계를 도시한 도면이다. 방법(1)에서는 결과적으로 주기가 긴 자기 상관치만큼 적은 웨이팅이 이루어지게 되고, 방법(2)에서는 주기와 관계없이 일정한 웨이팅이 이루어지게 된다. 방법(1)에서 바른 피치 주기의 배주기를 잘못해서 피치 주기로 하는 비율이 적은 이유는 긴 주기의 자기 상관치만큼 적은 웨이팅이 이루어지기 때문이다.
또한, 피치 주기를 정확히 추출하기 위해 피치 주기의 2배 정도의 시간 길이가 필요한 이유는 피치 주기가 짧은 경우에 자기 상관치는 극단적으로 큰 웨이팅이 이루어지고, 피치 주기가 긴 경우에 자기 상관치는 극단적으로 작은 웨이팅이 이루어지므로 피치 주기가 긴 경우에 자기 상관치가 피치 주기가 아닌 짧은 주기의 자기 상관치보다 작아지는 것을 방지하기 위한 것이다.
피치 주기 추출에 자기 상관을 이용하는 경우, 자기 상관치를 산출할 때의 지연 시간이 미리 고정되어 있으면, A/D 변환기의 샘플링 주파수가 변화한 경우, 그 지연 시간이 피치 주기의 추출에 대해서는 가장 적합하지 않게 되거나, 처리량이 증가하거나 하는 문제점이 있었다.
또, 피치 주기 추출에 자기 상관을 이용하는 경우, 상기와 같이 방법(1)을 사용하면 피치 주기를 정확하게 추출하기 위해서는 적어도 피치 주기의 2배 정도의 시간 길이를 신호의 존재 구간으로 가정할 필요가 있어 처리 시간이 길어진다는 결점을 갖는다.
한편, 방법(2)를 사용하면 처리 시간은 짧지만, 배주기의 피치를 추출하는 경우가 많아 피치 주기 추출의 정확함이 떨어진다는 문제점이 있다.
본 발명은 이와 같은 문제점을 감안해서 이루어진 것으로, 짧은 처리 시간에 입력 음성 신호로부터 정확하게 피치 주기를 추출하는 음성 신호의 피치 주기 추출 장치를 제공하는 것을 목적으로 한다.
본 발명은 입릭 음성 신호를 디지탈 신호로 변환시키는 A/D 변환기와, 그 A/D 변환기의 출력을 격납하는 메모리와, 그 메모리에 격납된 디지탈 신호의 자기 상관치를 산출하는 상관치 계산부와, 그 상관치 계산부가 자기 상관치를 산출할 때의 상기 디지탈 신호의 지연 시간 범위를 상기 A/D 변환기의 샘플링 주파수의 정보에 따라 결정하는 상관 범위 제어부와, 상기 상관치 계산부로부터 출력되는 자기 상관치의 최대값을 구함으로써 상기 입력 음성 신호의 피치 주기를 얻는 피치 검출부를 구비한 것을 특징으로 한다.
또, 본 발명은 입력 음성 신호를 디지탈 신호로 변환시키는 A/D 변환기와, 그 A/D 변환기의 출력을 격납하는 메모리와, 그 메모리에 격납된 디지탈 신호의 자기 상관치를 산출하는 상관치 계산부와, 그 상관치 계산부가 자기 상관치를 산출할 때의 상기 디지탈 신호의 지연 시간 범위를 복수 구간으로 분할하는 곱의 합 범위 제어부와, 상기 상관치 계산부로부터 출력되는 자기 상관치의 최대값을 구함으로써 상기 입력 음성 신호의 피치 주기를 얻는 피치 검출부를 구비한 것을 특징으로 한다.
또한, 본 발명은 입력 음성 신호를 디지탈 신호로 변환시키는 A/D 변환기와, 그 A/D 변환기의 출력을 격납하는 메모리와, 그 메모리에 격납된 디지탈 신호의 자기 상관치를 산출하는 상관치 계산부와, 그 상관치 계산부가 자기 상관치를 산출할때의 상기 디지탈 신호의 지연 시간 범위를 상기 A/D 변환기의 샘플링 주파수의 정보에 따라 결정하는 상관 범위 제어부와, 그 상관 범위 제어부에 의해 결정된 지연 시간 범위를 복수 구간으로 분할하는 곱의 합 범위 제어부와, 상기 상관치 계산부로부터 출력되는 자기 상관치의 최대값을 구함으로써 상기 입력 음성 신호의 피치 주기를 얻는 피치 검출부를 구비한 것을 특징으로 한다.
본 발명은 상기와 같은 수단을 구비함으로써 자기 상관치를 산출할 때의 지연 시간을 상기 A/D 변환기의 샘플링 주파수의 정보에 기초해서 상관 범위 제어부에 의해 설정함으로써 지연 시간을 피치 주기의 추출에 대해 가장 적합하게 하여 처리량의 증가를 방지할 수 있다.
또, 상기와 같이 자기 상관치를 산출할 때의 지연 시간 범위를 복수 구간으로 분할하는 경우, 그 구간을 그 시단값의 2배값을 포함하지 않도록 종단값을 결정하므로 이러한 구간 내에서는 배수 관계의 주기 성분을 포함하지 않는다.
따라서, 곱의 합 범위 제어부에서 자기 상관치를 산출할 때의 구간을 결정함으로써 처리량의 경감화를 행할 수 있고, 자기 상관치를 구간마다 웨이팅을 할 수 있으므로 배주기의 피치를 추출하는 것을 방지할 수 있다.
이하, 본 발명의 음성 신호의 피치 주기 추출 장치의 한 실시예를 제l도 내지 제7도에 기초해서 설명하겠다.
(제 1 실시예)
제1도는 본 발명의 제1 실시예에 관한 음성 신호의 피치 주기 추출 장치의 개략 블럭도이다.
재1도에서 아날로그 음성 신호 x(t)는 A/D 변환기(1)에 의해 디지탈 음성 데이타 x(n)으로 변환되고, 이 디지탈 음성 데이타 x(n)은 메모리(2)에 격납된다. 다음으로, 메모리(2)에 격납된 신호 x(n)의 자기 상관치 Rn(k)는 상관치 계산부(3)에서 구할 수 있지만, 자기 상관치 Rn(k)를 구할 때의 지연 시간 k는 A/D 변환기(1)의 샘플링 주파수 fs의 정보에 따라 상관 범위 제어부(4)에 의해 결정된다. 그리고, 피치 검출부(5)는 디지탈 음성 데이타 x(n)의 자기 상관치 Rn(k)의 최대값을 구하고, 그 때의 지연 시간 k를 아날로그 음성 신호 x(t)의 피치 주기 P로서 출력한다.
다음으로, 본 발명의 특징인 상관 범위 제어부(4)의 기능을 설명한다.
음성 피치 주기는 통상 80 내지 400 Hz 정도로서, 이 범위에 있어서 인간이 발성하는 음성의 대부분을 커버할 수 있다. 예를 들면, A/D 변환기(1)의 샘플링 주파수 fs가 8 kHz일 때에는 자기 상관치를 산출하는 범위, 즉 피치 탐색 구간인 지연시간 k는 2O≤k≤1OO 샘플로, 샘플링 주파수 fs가 6 kHz일 때에는 지연 시간 k는 15≤k≤75 샘플로 설정되는 것으로 한다. 또한, 이러한 샘플수는 fs/4OO 내지 fs/8O에 의해 산출한 것이다.
이하에 상관 범위 제어부(4)를 포함한 피치 주기 추출 장치에 있어서의 동작 설명을 제2도의 플로우차트에 기초해서 설명하겠다.
스텝 S1에서 A/D 변환기(1)은 디지탈 음성 데이타 x(n)을 메모리(2)에 격납할 때의 샘플링 주파수 fs(본 발명에서는 샘플링 주파수 fs를 8 kHz, 6 kHz의 2종류의 예를 들고 있다)를 상관 범위 제어부(4)에 송출한다. 스텝 S2에서는 샘플링주파수 fs가 8 kHz일 때에는 지연 시간 k를 2O≤k≤100으로, 샘플링 주파수 fs가 6 kHz일 때에는 지연 시간 k를 15≤k≤75로 설정한다.
스텝 S3에서는 메모리(2)에 격납되어 있는 디지탈 음성 데이타 x(n)을 순차 독출하고나서 스텝 S2에서 설정된 지연 시간 k에 따라서 그 지연 시간 k에 해당하는 자기 상관치를 식3에 따라 산출한다.
[식 3]
(단, m = 0, 1, 2,…,T
6 kHz …15≤k≤75,
8 kHz …20≤k≤100)
즉, 샘플링 주파수 fs가 8 kHz일 때에는 자기 상관치 Rn(20), Rn(21),… Rn(99), Rn(100)을 산출하고, 한쪽 샘플링 주파수 fs가 6 kHz일 때에는 자기 상관치 Rn(l5), Rn(16), …,Rn(74), Rn(75)를 산출한다. 스텝 S4에서는 스텝 S3에서 산출된 자기 상관치 Rn(k)중 최대값을 구하고, 그 때의 지연 시간 k를 입력 음성 신호의 피치 주기 P로서 출력한다.
(제2 실시예)
제3도는 본 발명의 제2실시예에 관한 음성 신호의 피치 주기 추출 장치의 개략 블럭도이다.
제3도가 제1도의 구성과 다른 점은 상관 범위 제어부(4) 대신에 곱의 합 범위 제어부(6)글 설치한 것이다. 이 곱의 합 범위 제어부(6)은 상관치 계산부(3)에서 자기 상관치 Rn(k)를 산출할 때의 피치 탐색 구간인 지연 시간 k의 범위를 복수 구간으로 분할하는 경우, 그 구간의 종단값이 그 구간의 시단값의 2배값을 포함하지 않도록 결정한다. 그러나 피치 검출부(5)가 자기 상관치 Rn1(k) 내지 자기 상관치 Rn3(k) 중의 최대값을 구해 그 때의 지연 시간 k를 입력 음성 신호의 피치 주기 P로서 출력한다.
이하에 본 발명의 특징인 곱의 합 범위 제어부(6)의 기능을 설명하겠다.
우선, 자기 상관치 Rn(k)를 산출할 때의 지연 시간 k의 범위를 상술한 구간으로 분할한다. 예를 들면, 상술한 바와 같이 음성의 피치 주기를 80 내지 400 Hz, A/D 변환기(1)의 샘플링 주파수 fs를 8 kHz로 하면, 피치 탐색 구간은 20≤k≤100 샘플 범위로 하면 좋고, 제1 구간으로서는 20≤k<40 샘플이고, 제2 구간으로서는 40≤k<80 샘플이며, 제3 구간으로서는 80≤k≤100 샘플이다.
한편, A/D 변환기(1)의 샘플링 주파수 fs를 6 kHz로 하면 피치 탐색 구간은 15≤k≤75 샘플의 범위로 하면 좋고, 제1 구간으로서는 15≤k<30 샘플이고, 제2 구간으로서는 30≤k<60 샘플이며, 제3 구간으로서는 60≤k≤75 샘플이다.
즉, 제1 구간의 자기 상관치 Rn1(k)는
[식 4]
(단, m = 0, 1, 2,…,Tl
6 kHz …15≤k<30,
8 kHz … 20≤k<40)
또, 제2 구간의 자기 상관치 Rn2(k)는
[식 5]
(단, m = 0, 1, 2,…,T2
6 kHz … 30≤k<60,
8 kHz … 40≤k<80)
또한, 제3 구간의 자기 상관치 Rn3(k)는
[식 6]
(단, m = 0, 1, 2,…T3
6 kHz … 60≤k≤75,
8 kHz … 80≤k≤100)
에 의해 산출된다. 여기서, 샘플링 주파수 fs가 8 kHz인 경우는 T1 ≤ N-39, T2 ≤ N-79 및 T3 ≤ N-100이고, 샘플링 주파수 fs가 6 kHz인 경우는 T1 ≤ N-29, T2 ≤ N-59 및 T3 ≤ N-75이다.
이하에 곱의 합 범위 제어부(6)을 포함한 피치 주기 추출 장치에 있어서의 동작 설명을 제4도의 플로우차트에 기초해서 설명하겠다.
스텝 S10에서는 샘플링 주파수 fs가 8 kHz일 때에는 지연 시간 k를 20≤k≤100 중에서 제1 구간 20≤k<40 샘플, 제2 구간 40≤k<80 샘플 또는 제3 구간 80≤k≤100 샘플을 선택한다. 한편, 샘플링 주파수 fs가 6 kHz일 때에는 지연 시간 k를 15≤k≤75 중에서 제1 구간 15≤k<30 샘플, 제2 구간 30≤k<60 샘플 또는 제3 구간 60≤k≤75 샘플을 선택한다.
스텝 S11에서는 샘플링 주파수 fs가 6 kHz일 때에는 지연 시간 k를 15≤k<30으로, 샘플링 주파수 fs가 8 kHz일 때에는 지연 시간 k를 20≤k<40으로 식4에 따라 자기 상관치 Rn1(k)를 산출한다.
스텝 S12에서는 샘플링 주파수 fs가 6 kHz일 때에는 지연 시간 k를 30≤k<60으로, 샘플링 주파수 fs가 8 kHz일 때에는 지연 시간 k를 40≤k<80으로 식5에 따라 자기 상관치 Rn2(k)를 산출한다.
스텝 S13에서는 샘플링 주파수 fs가 6 kHz일 때에는 지연 시간 k를 60≤k≤75로, 샘플링 주파수 fs가 8 kHz일 때에는 지연 시간 k를 80≤k≤100으로 식6에 따라 자기 상관치 Rn3(k)를 산출한다.
스텝 S14에서는 스텝 S11 내지 스텝 S13에서 산출된 자기 상관치 Rn1(k) 내지 자기 상관치 Rn3(k) 중에서 최대값을 구해 그 때의 지연 시간 k를 입력 음성 신호의 피치 주기 P로서 출력한다.
본 발명에서는 긴 주기의 자기 상관치만큼 적은 웨이팅을 함으로써 바른 피치 주기의 배주기를 잘못해서 피치 주기로 할 인식 비율이 적어지고, 바른 피치 주기를 추출할 수 있는 점에 착안한 것이다.
단, 종래의 방법(1)과 같이 각 주기마다의 자기 상관치와 다른 웨이팅을 하지 않는다. 이것은 피치 주기를 추출할 때 필요한 것은 배수 관계의 주기 성분 상호간에서의 대소 판정이기 때문이다.
따라서, 본 발명과 같이 피치 탐색 구간인 지연 시간 범위를 구간마다 분할하는 경우, 그 구간의 시단값의 2배값을 포함하지 않도록 종단값을 결정하면, 각각의 구간 내에는 배수 관계의 주기 성분은 존재하지 않게 된다. 여기서 T1 > T2 > T3으로 하면, 결과적으로 주기가 긴 자기 상관치만큼 적은 웨이팅이 되게 되고, 바른 피치 주기를 구할 수 있다. 또, 자기 상관치를 구할 때의 구간의 종단값을 각 구간에서 취할 수 있는 최대값으로 설정하면, 피치 주기의 추출의 정확함이 증가된다. 즉, 상술한 예에서는 T1 = N-39, T2 = N-79, T3 = N-100으로 하면 정확함이 증가한다.
제8도와 같이 횡축에 지연 시간(샘플)을 취하고, 종축에 자기 상관치에 대한 웨이팅의 비율을 취하며, 본 발명의 웨이팅(실선)과 종래의 방법(1)의 웨이팅(점선)의 관계를 제5도에 도시한다. 제5도에 도시한 바와 같이 배수 관계의 주기 성분이 포함되어 있지 않은 각 구간에서는 일정한 웨이팅, 즉 제1 구간에서는 (1)의 웨이팅, 제2 구간에는 (2)의 웨이팅, 제3 구간에서는 (3)의 웨이팅이 결과적으로 이루어지게 된다.
(제3 실시예)
그리고, 제6도는 피치 주기 추출 장치를 실현하는 블럭도를 도시한다.
제6도가 제1도의 구성과 다른 점은 제2실시예에서 서술한 곱의 합 범위 제어부(6)을 설치한 것이다. 이 곱의 합 범위 제어부(6)은 제2실시예와 같은 기능을 갖고 있다. 따라서, 제3 실시예에서는 제3도의 피치 주기 추출 장치에 있어서의 동작 설명을 제7도의 플로우차트에 기초해서 설명하겠다.
스텝 S20에서 A/D 변환기(1)은 디지탈 음성 데이타 x(n)을 메모리(2)에 격납할 때의 샘플링 주파수 fs(본 발명에서는 샘플링 주파수 fs를 8 kHz, 6 kHz의 2종류의 예를 들고 있다)를 상관 범위 제어부(4)로 송출한다.
스텝 S21에서는 샘플링 주파수 fs가 8 kHz일 때에는 지연 시간 k를 2O≤k≤100 중에서 제1 구간 20≤k<40 샘플, 제2 구간 40≤k<80 샘플 또는 제3 구간 80≤k≤100 샘플을 선택한다. 한편, 샘플링 주파수 fs가 6 kHz일 때에는 지연 시간 k를 15≤k≤75 중에서 제1 구간 15≤k<30 샘플, 제2 구간 30≤k<60 샘플 또는 제3 구간 60≤k≤75 샘플을 선택한다.
스텝 S22에서는 샘플링 주파수 fs가 6 kHz일 때에는 지연 시간 k를 15≤k<30으로, 샘플링 주파수 fs가 8 kHz일 때에는 지연 시간 k를 20≤k<40으로 자기 상관치 Rn1(k)를 산출한다.
스텝 S23에서는 샘플링 주파수 fs가 6 kHz일 때에는 지연 시간 k를 30≤k<60으로, 샘플링 주파수 fs가 8 kHlz일 때에는 지연 시간 k를 40≤k<80으로 자기 상관치 Rn2(k)를 산출한다.
스텝 S24에서는 샘플링 주파수 fs가 6 kHz일 때에는 지연 시간 k를 60≤k≤75로, 샘플링 주파수 fs가 8 kHz일 때에는 지연 시간 k를 80≤k≤100으로 자기 상관치 Rn3(k)를 산출한다.
스텝 S25에서는 스텝 S21 내지 스텝 S24에서 산출된 자기 상관치 Rn1(k) 내지 자기 상관치 Rn3(k) 중에서 최대값을 구해 그 때의 지연 시간 k를 입력 음성 신호의 피치 주기 P로서 출력한다.
또한, 상기 실시예에서는 샘플링 주파수 fs를 6 kHz, 8 kHz로, 지연 시간 k를 샘플링 주파수 fs가 6 kHz인 경우에는 15≤k≤75로, 한편, 샘를링 주파수 fs가 8 kHz인 경우는 20≤k≤100으로 설정했으나, 이에 한정되지 않는다.
본 발명에 관한 피치 주기 추출 장치에 따르면, A/D 변환기의 샘플링 주파수가 변화한 경우에도 자기 상관치 Rn(k)를 산출할 때의 지연 시간 k는 상관 범위 제어부가 A/D 변기의 샘플링 주파수에 따라 결정되므로, 최적화된다.
또, 종래의 방법(1)에서는 피치 주기가 짧은 경우에는 그 자기 상관치 Rn(k)는 극단적으로 큰 웨이팅이 이루어지므로 바른 피치 주기를 정확하게 추출하기 위해서는 적어도 피치 주기의 2배 정도의 시간 길이를 신호의 존재 구간이라고 가정할 필요가 있었지만, 본 발명에 관한 피치 주기 추출 장치에 따르면, 피치 주기가 짧은 경우라도 극단적으로 큰 웨이팅을 하지 않으므로 자기 상관치 Rn(k)를 산출할 때의 시간 길이는 피치 주기의 2배 정도도 필요하지 않게 된다.
따라서, 자기 상관치 Rn(k)를 산출할 때 필요한 메모리 용량은 작아지고, 곱의 합 계산 회수가 대폭적으로 감소하므로 처리량을 경감시킬 수 있다. 또한, 시간 길이를 피치 주기의 2배 정도로 하면 피치 주기 추출의 정확함이 증가하고, 그 때의 처리량은 종래에 비해 경감된다.
또, 종래의 방법(2)에서는 배주기의 피치를 추출하는 경우가 많았으나, 본발명에 관한 피치 주기 추출 장치에서는 보다 피치 주기를 정확하게 추출할 수 있다.
제1도는 본 발명의 제1 실시예에 관한 음성 신호의 피치 주기 추출 장치의 개략 블럭도.
제2도는 본 발명의 제1 실시예에 관한 음성 신호의 피치 주기 추출 장치에 있어서의 동작 설명을 도시하는 플로우차트.
제3도는 본 발명의 제2 실시예에 관한 음성 신호의 피치 주기 추출 장치의 개략 블럭도.
제4도는 본 발명의 제2 실시예에 관한 음성 신호의 피치 주기 추출 장치에 있어서의 동작 설명을 도시하는 플로우차트.
제5도는 본 발명의 음성 신호의 피치 주기 추출 장치에 있어서의 피치 주기와 자기 상관치에 대한 웨이팅(weighting) 관계도.
제6도는 본 발명의 제3 실시예에 관한 음성 신호의 피치 주기 추출 장치의 개략 블럭도.
제7도는 본 발명의 제3 실시예에 관한 음성 신호의 피치 주기 추출 장치에 있어서의 동작 설명을 도시하는 플로우차트.
제8도는 종래의 피치 주기 추출 장치에 있어서의 피치 주기와 웨이팅의 관계도.
도면의 주요 부분에 대한 부호의 설명
1 : A/D 변환기 2 : 자기 상관치를 산출하기 위한 메모리
3 : 상관치 계산부 4 : 상관 범위 제어부
5 : 피치 검출부 6 : 곱의 합(sum of products) 범위 제어부

Claims (6)

  1. 음성 신호의 피치 주기 추출 장치에 있어서,
    입력 음성 신호를 디지탈 신호로 변환시키는 A/D 변환기;
    상기 A/D 변환기의 출력을 격납하는 메모리;
    상기 메모리에 격납된 디지탈 신호의 자기 상관치를 산출하는 상관치 계산부;
    상기 상관치 계산부가 자기 상관치를 산출할 때의 상기 디지탈 신호의 지연 시간 범위를 상기 A/D 변환기의 샘플링 주파수의 정보에 따라 결정하는 상관 범위 제어부; 및
    상기 상관치 계산부로부터 출력되는 자기 상관치의 최대값을 구함으로써 상기 입릭 음성 신호의 피치 주기를 얻는 피치 검출부
    를 구비한 것을 특징으로 하는 음성 신호의 피치 주기 추출 장치.
  2. 음성 신호의 피치 주기 추출 장치에 있어서,
    입력 음성 신호를 디지탈 신호로 변환시키는 A/D 변환기;
    상기 A/D 변환기의 출력을 격납하는 메모리;
    상기 메모리에 격납된 디지탈 신호의 자기 상관치를 산출하는 상관치 계산부;
    상기 상관치 계산부가 자기 상관치를 산출할 때의 상기 디지탈 신호의 지연시간 범위를 복수 구간으로 분할하는 곱의 합(sum of products)범위 제어부; 및
    상기 상관치 계산부로부터 출력되는 자기 상관치의 최대값을 구함으로써 상기 입력 음성 신호의 피치 주기를 얻는 피치 검출부
    를 구비한 것을 특징으로 하는 음성 신호의 피치 주기 추출 장치.
  3. 음성 신호의 피치 주기 추출 장치에 있어서,
    입력 음성 신호를 디지탈 신호로 변환시키는 A/D 변환기;
    상기 A/D 변환기의 출력을 격납하는 메모리;
    상기 메모리에 격납된 디지탈 신호의 자기 상관치를 산출하는 상관치 계산부;
    상기 상관치 계산부가 자기 상관치를 산출할 때의 상기 디지탈 신호의 지연 시간 범위를 상기 A/D 변환기의 샘플링 주파수의 정보에 따라 결정하는 상관 범위 제어부;
    상기 상관 범위 제어부에 의해 결정된 지연 시간 범위를 복수 구간으로 분할하는 곱의 합 범위 제어부; 및
    상기 상관치 계산부로부터 출력되는 자기 상관치의 최대값을 구함으로써 상기 입력 음성 신호의 피치 주기를 얻는 피치 검출부
    를 구비한 것을 특징으로 하는 음성 신호의 피치 주기 추출 장치.
  4. 제2항 또는 3항에 있어서, 상기 지연 시간 범위를 복수 구간으로 분할 하는경우, 상기 곱의 합 범위 제어부는 상기 구간마다의 종단값(終端値)을 그 구간의 시단값(始端値)의 2배값을 포함하지 않도록 결정하는 것을 특징으로 하는 음성 신호의 피치 주기 추출 장치.
  5. 제2항에 있어서, 상기 지연 시간 범위를 복수 구간으로 분할하는 경우, 상기 곱의 합 범위 제어부는 상기 구간마다의 종단값을 그 구간의 시단값의 2배값을 포함하지 않도록 결정함과 함께 상기 구간마다의 종단값을 각 구간마다 취할 수 있는 최대값으로 설정하는 것을 특징으로 하는 음성 신호의 피치 주기 추출 장치.
  6. 제4항에 있어서, 상기 지연 시간 범위를 복수 구간으로 분할하는 경우, 상기 곱의 합 범위 제어부는 상기 구간마다의 종단값을 그 구간의 시단값의 2배값을 포함하지 않도록 결정함과 함께 상기 구간마다의 종단값을 각 구간마다 취할 수 있는 최대값으로 설정하는 것을 특징으로 하는 음성 신호의 피치 주기 추출 장치.
KR1019940022600A 1994-05-23 1994-09-08 음성신호의피치주기추출장치 KR100323011B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP94-108544 1994-05-23
JP10854494A JP3402748B2 (ja) 1994-05-23 1994-05-23 音声信号のピッチ周期抽出装置

Publications (2)

Publication Number Publication Date
KR950034058A KR950034058A (ko) 1995-12-26
KR100323011B1 true KR100323011B1 (ko) 2002-06-20

Family

ID=14487521

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019940022600A KR100323011B1 (ko) 1994-05-23 1994-09-08 음성신호의피치주기추출장치

Country Status (3)

Country Link
US (2) US5819209A (ko)
JP (1) JP3402748B2 (ko)
KR (1) KR100323011B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100724736B1 (ko) 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050015244A1 (en) * 2003-07-14 2005-01-20 Hideki Kitao Speech section detection apparatus
US7752038B2 (en) * 2006-10-13 2010-07-06 Nokia Corporation Pitch lag estimation
US8666734B2 (en) 2009-09-23 2014-03-04 University Of Maryland, College Park Systems and methods for multiple pitch tracking using a multidimensional function and strength values
CN109979471B (zh) * 2013-07-18 2022-12-02 日本电信电话株式会社 线性预测分析装置、线性预测分析方法以及记录介质
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58140798A (ja) * 1982-02-15 1983-08-20 株式会社日立製作所 音声ピツチ抽出方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100724736B1 (ko) 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치

Also Published As

Publication number Publication date
JP3402748B2 (ja) 2003-05-06
USRE38889E1 (en) 2005-11-22
JPH07319498A (ja) 1995-12-08
US5819209A (en) 1998-10-06
KR950034058A (ko) 1995-12-26

Similar Documents

Publication Publication Date Title
KR100323011B1 (ko) 음성신호의피치주기추출장치
EP0763811B1 (en) Speech signal processing apparatus for detecting a speech signal
EP0427953B1 (en) Apparatus and method for speech rate modification
US4074069A (en) Method and apparatus for judging voiced and unvoiced conditions of speech signal
GB2102254A (en) A speech analysis-synthesis system
EP0459363B1 (en) Voice signal coding system
US5488704A (en) Speech codec
KR870006508A (ko) 스피치 메시지 처리장치 인코딩 장치 형성회로 및 그 방법
CA2162407A1 (en) A robust pitch estimation method and device for telephone speech
US4845753A (en) Pitch detecting device
SE430455B (sv) Mottagaranordning med funktion att undertrycka brus under plotsliga avbrott
US5343420A (en) Signal discrimination circuit
US5717820A (en) Speech recognition method and apparatus with automatic parameter selection based on hardware running environment
US4962536A (en) Multi-pulse voice encoder with pitch prediction in a cross-correlation domain
US20060077844A1 (en) Voice recording and playing equipment
US4833711A (en) Speech recognition system with generation of logarithmic values of feature parameters
JPS61184912A (ja) 定数可変型聴感的重み付けフイルタ
KR100359988B1 (ko) 실시간 화속 변환 장치
JPH04230799A (ja) 音声信号符号化装置
JPS5834986B2 (ja) 適応形音声検出回路
JPS6037658B2 (ja) 時系列波形符号化装置
JP2635968B2 (ja) 通話信号識別方式
JP2000305581A (ja) 音声信号のピッチ周期抽出方法、及び音声信号のピッチ周期抽出装置、音声信号の時間軸圧縮装置、音声信号の時間軸伸長装置、音声信号の時間軸圧縮伸長装置
JPH0117599B2 (ko)
EP0275327A1 (en) Voice recognition

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090109

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee