KR19990043060A - 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법 - Google Patents
유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법 Download PDFInfo
- Publication number
- KR19990043060A KR19990043060A KR1019970064040A KR19970064040A KR19990043060A KR 19990043060 A KR19990043060 A KR 19990043060A KR 1019970064040 A KR1019970064040 A KR 1019970064040A KR 19970064040 A KR19970064040 A KR 19970064040A KR 19990043060 A KR19990043060 A KR 19990043060A
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- pitch
- gate
- voiced
- sound
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000011295 pitch Substances 0.000 claims description 64
- 230000005236 sound signal Effects 0.000 claims description 34
- 230000001755 vocal effect Effects 0.000 claims description 25
- 230000008859 change Effects 0.000 abstract description 7
- 230000015572 biosynthetic process Effects 0.000 abstract description 6
- 238000012545 processing Methods 0.000 abstract description 6
- 238000003786 synthesis reaction Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 2
- 230000003595 spectral effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 32
- 230000008569 process Effects 0.000 description 7
- 210000001260 vocal cord Anatomy 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000001308 synthesis method Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012508 change request Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
본 발명은 전자공학의 음성 신호처리 분야에서 자연 음성신호를 접속하여 음성을 합성(음편 접속 합성)할 때 고 품질을 유지하면서 유성음의 피치를 변경할 수 있는 방법이다. 기존의 피솔라(PSOLA) 방법은 피치의 변경율이 클수록 피치 단위별로 적용하는 윈도우(window)의 영향과 두 피치구간이 겹쳐지면서 발생하는 스펙트럼 왜곡이 커져 합성음의 명료도가 저하되는 단점 있다. 이와 같은 PSOLA 기법의 단점을 극복하기 위해 안출된 본 발명은 한 피치 구간에서 창 함수를 적용하지 않고 성문 닫힘 구간에 연속적인 신호를 임의의 길이까지 합성한 후 음원 신호와 중첩하여 피치를 변경할 수 있는 방법으로서 본 발명은 PSOLA에서와 같은 단점이 최소화되어 보다 명료한 합성음을 생성할 수 있다.
Description
본 발명은 유성음 신호에서 성문 닫힘 구간 신호의 가변에 의한 피치 수정 방법에 관한 것으로, 특히 자연 음성신호를 접속하여 음성을 합성할 때 고 품질을 유지하면서 유성음의 피치를 변경하도록 하는 유성음 신호에서 성문 닫힘 구간 신호의 가변에 의한 피치 수정 방법에 관한 것이다.
일반적으로, 음성 합성 방법에는 합성 가능한 어휘의 범위에 따라 제한 어휘 합성과 무제한 어휘 합성 방식으로 분류할 수 있다. 무제한 어휘 합성 방식 중에는 파라미터 방식인 포르만트(Formant), 엘피씨(LPC), 엘에스피(LSP) 합성 방법 등이 연구되었으며, 이 방법들은 음질은 다소 떨어지지만 음원과 성도 파라미터 등을 조절하므로서 다양한 합성음을 만들 수 있는 장점이 있다. 고품질의 합성음을 얻기 위해 자연 음성신호를 접속하여 시간영역에서 피치를 가변할 수 있는 대표적인 기법으로서 피솔라(PSOLA) 방법이 연구되었다.
이와 같은 종래의 PSOLA 방법에 의한 피치 수정결과는 도 1 에 도시된 바와같다.
도 1 의 (A)는 음성신호(X(t))의 파형도를 도시한 것이고, 도 1 의 (B) 및 (C)는 가중함수(W1(t)),(W2(t))의 파형도를 도시한 것이며, 도 1 의 (D)는 (A)의 음성신호(X(t))와 (B)의 가중함수(W1(t))를 곱하여 구한 음성신호(X1(t))의 파형도를 도시한 것이다. 도 1 의 (E)는 (A)의 음성신호(X(t))와 (C)의 가중함수(W2(t))를 곱하여 구한 음성신호(X2(t))의 파형도를 도시한 것이고, 도 1 의 (F)는 (D) 및 (E)의 음성신호(X1(t))(X2(t))를 중첩하여 피치를 변경한 음성신호(Y(t))의 파형도를 도시한 것이다.
종래의 PSOLA 방법은 원래의 음성신호와 제1 가중신호를 승산하여 제1 음성신호를 발생하는 제1 단계와, 원래의 음성신호와 제2 가중신호를 승산하여 제2 음성신호를 발생하는 제2 단계와, 상기 제1,제2 단계에서 발생된 제1,제2 음성신호를 원하는 피치 길이에서 중첩하여 피치가 변경된 음성신호를 발생하는 제3 단계로 이루어진다.
이와같이 이루어진 종래의 PSOLA 방법의 과정을 도 1를 참조하여 상세히 설명하면 다음과 같다.
먼저, 도 1 의 (A)에 도시된 음성신호(X(t))와 도 1 의 (B)에 도시된 가중신호(W1(t))를 승산하여 도 1의 (D)에 도시된 음성신호(X1(t))발생하고, 도 1 의 (A)에 도시된 음성신호(X(t))와 도 1 의 (C)에 도시된 가중신호(W2(t))를 승산하여 도 1 의 (E)에 도시된 음성신호(X2(t))를 발생한다.
이어서, 그 발생된 두 음성신호((X1(t))(X2(t))를 원하는 피치 길이에서 중첩하여 도 1 의 (F)에 도시된 바와같이 피치가 변경된 음성신호(Y(t))를 발생할 수 있게 된다.
그러나, 종래의 PSOLA 방법은 피치의 변경율이 클수록 피치 단위별로 적용하는 윈도우(window)의 영향과 두 피치구간이 겹쳐지면서 발생하는 스펙트럼 왜곡이 커져 합성음의 명료도가 저하되는 단점이 있다.
본 발명의 목적은 자연 음성신호를 접속하여 음성을 합성할 때 고 품질을 유지하면서 유성음의 피치를 변경하도록 하는 유성음 신호에서 성문 닫힘 구간 신호의 가변에 의한 피치 수정 방법을 제공함에 있다.
이와같은 본 발명의 목적을 달성하기 위한 수단은 성문 닫힘 구간을 검출하고, 성도 파라미터를 추정하는 제1 단계와, 성문 닫힘 구간에서의 음성신호와 성문 열림 구간의 신호를 분리하는 제2 단계와, 상기 제1 단계에서 추정된 성도 파라미터를 이용하여 성문 닫힘 구간 신호를 연장 혹은 축소하는 제3 단계와, 성문 닫힘 구간이 변경된 신호에 성문 열림 구간의 신호 중첩에 의해 최종적으로 원하는 피치로 가변된 합성음 신호를 생성하는 제4 단계로 이루어진다.
도 1 은 종래의 피에스오엘에이(PSOLA)방법에 의한 피치 수정결과를 보인 파형도로서,
(A)는 음성신호(X(t))의 파형도이고,
(B) 및 (C)는 가중함수(W1(t)),(W2(t))의 파형도이며,
(D)는 (A)의 음성신호(X(t))와 (B)의 가중함수(W1(t))를 곱하여 구한 음성신호(X1(t))의 파형도이고,
(E)는 (A)의 음성신호(X(t))와 (C)의 가중함수(W2(t))를 곱하여 구한 음성신호(X2(t))의 파형도이며,
(F)는 (D) 및 (E)의 음성신호(X1(t))(X2(t))를 중첩하여 피치를 변경한 음성신호(Y(t))의 파형도이다.
도 2 는 음성 생성 선형시스템의 구성도.
도 3 은 본 발명의 실시예를 설명하기 위한 하드웨어 구성도.
도 4 는 EGG신호에 의한 성문 닫힘과 열림 구간의 검출결과를 보인 파형도로서,
(A)는 음성신호의 파형도이고,
(B)는 EGG 신호의 파형도이며,
(C)는 1차 미분된 EGG 신호의 파형도(수직 실선은성문 닫힘 시점, 수직 점선은 성문 열림 시점)이다.
도 5 는 성도와 성문 특성신호의 근사적 분리결과를 보인 파형도로서,
(A)는 음성신호(v(t))의 파형도이고,
(B)는 가중함수(w(t))의 파형도이며,
(C)는 음원신호(g(t))의 파형도이고,
(D)는 성도 특성신호(h(t))의 파형도이다.
도 6 은 본 발명의 실시예에 의한 성문 닫힘 구간 신호의 가변에 의한 피치 수정 방법에 의한 파형도로서,
(A)는 음성신호(X(t))의 파형도이고,
(B)는 성도 및 음원 특성 분리용 가중함수(Wh(t))의 파형도이며,
(C)는 분리된 성도 및 음원 특성 신호의 파형도(SF(t))이고,
(D)는 성도 특성을 이용하여 성문 닫힘 구간 신호에 연장하여 합성한 신호(Xp(t))의 파형도이며,
(E)는 중첩용 가중함수(Ws(t))이고,
(F)는 성문 닫힘 구간 신호의 가변에 의해 피치가 수정된 신호(Y(t))의 파형도이다.
도 7 은 본 발명의 실시예에 의한 유성음 신호에서 성문 닫힘 구간 신호의 가변에 의한 피치 수정 방법을 설명하기 위한 신호 흐름도.
도 8 은 도 7 에 의해 피치가 변경된 음성파형으로서,
(A)는 원래의 음성파형이고,
(B)는 도 7 에 의해 (A)를 70% 줄인 음성파형이며,
(C)는 도 7 에 의해 (A)를 140% 늘인 음성파형이다.
도 9 는 남성화자가 발성한 "Should we chase those cowboys?"에 대한 종래의 PSOLA 방법과 본 방법과의 처리 결과 파형도로서,
(A)는 음성파형도이고,
(B)는 (A)의 음성파형의 스펙트로그램(spectrogram)이며,
(C)는 종래의 PSOLA에 의해 (A)를 70% 줄인 음성 파형의 스펙트로그램이고,
(D)는 도 7 에 의해 (A)를 70% 줄인 음성 파형의 스펙트로그램이며,
(E)는 종래의 PSOLA에 의해 (A)를 140% 늘인 음성 파형의 스펙트로그램이고,
(F)는 도 7 에해 (A)를 140% 늘인 음성 파형의 스펙트로그램이다.
(도면의주요부분에대한부호의설명)
400 : 마이크 401 : A/D 변환기
402 : 계산능력을 갖춘 특정 하드웨어 혹은 범용 컴퓨터
403 : D/A 변환기
이하, 본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다.
도 2는 음성 생성 선형시스템의 구성도를 도시한 것이다.
도 2 에 도시된 바와같이, 음성의 생성은 음원신호를 g(n), 성도 함수를 h(n), 발성된 음성신호를 v(n)이라 할 때 도 1과 같이 음원이 성도 필터(201)를 통과해 입술(202)에서 방사되어 발생하는 선형 시스템으로 모델링할 수 있다.
비음을 제외한 유성음의 주파수 응답 V(z)는 수학식 (1)과 같이 표현할 수 있다.
여기서, ak는 선형 예측 계수이고, G'(Z)=G(Z) · L(Z)이다.
음성 발생은 유성음의 경우 성대의 진동에 의한 여기 신호가 성도를 통과하면서 공명을 일으켜 발생된다. 성대는 베루누이의 효과(Bernoulli Effect)에 의해 설명되는 진동을 일으키며 급격히 닫히고 서서히 열리는 특성을 나타낸다. 유성음 신호는 성대가 급격히 닫히는 시점에서 최대의 에너지로 여기되고 성문이 닫혀 있는 동안에는 아무런 여기원이 없으므로 조음구조와 성도의 물리적 특성에 따른 자연스런 감쇠진동을 일으킨다. 성문이 서서히 열리면서부터는 열린 성문과 음원 신호에 의해 자연스런 감쇠진동은 방해를 받으므로 공명 주파수가 변화하고 더욱 급격한 감쇠 진동을 하다가 다시 성문이 급격히 닫히면 위와 같은 과정을 반복한다.
수학식 (1)을 다른 형태로 나타내면 수학식 (2) 와 같이 나타낼 수 있다.
성문 닫힘 구간에서는 음원 특성인 수학식 (2)의 g(n)이 0 이 되므로, 이 구간의 신호는 zero-input 응답으로 모델링될 수 있을 뿐 아니라, 이 구간 내의 음성신호는 한 피치 구간 내에서 대부분의 에너지와 포먼트 정보를 포함하고 있다.
성문 닫힘 구간에서는 성도 특성이 선형적이고 출력 신호가 zero-input 응답이어서 보다 정확한 분석이 가능하므로 이 구간의 신호를 분석하여 구한 성도 특성으로 성문 열림 구간의 신호를 역 필터링하면 음원 특성인 성문파를 추정할 수 있다. 따라서 유성음에서 성문 닫힘과 열림 구간에 대한 정보를 알면 시간영역에서 한 피치 구간의 신호를 음원과 성도에 대한 특성으로 분리할 수 있으므로, 수학식 (2)에 의해 성문 닫힘 구간의 신호를 성도 특성에 따라 시간영역에서 선형적으로 연장하거나 줄여서 유성음의 피치를 임의로 조절할 수 있다.
이와같은 성문 닫힘 구간 신호의 가변에 의한 피치 수정 방법으로 본 발명의 실시예에 의한 유성음 신호에서 성문 닫힘 구간 신호의 가변에 의한 피치 수정 방법은 성문 닫힘 구간을 검출하고, 성도 파라미터 추정하는 제1 단계와, 성문 닫힘 구간에서의 음성신호와 성문 열림 구간의 신호를 분리하는 제2 단계와, 상기 제1 단계에서 추정된 성도 파라미터를 이용하여 성문 닫힘 구간 신호를 연장 혹은 축소하는 제3 단계와, 성문 닫힘 구간이 변경된 신호에 성문 열림 구간의 신호 중첩에 의해 최종적으로 원하는 피치로 가변된 합성음 신호를 생성하는 제4 단계로 이루어진다.
도 3 은 본 발명이 적용되는 하드웨어 구성도로서, 마이크(400)와, 아날로그/디지탈(A/D) 변환기(401)와, 계산능력을 갖춘 특정 하드웨어나 범용 컴퓨터(402) 등으로 구성된다.
음성신호의 음압변화는 마이크(400)를 통해 아날로그 전기신호로 변환되고 아날로그 음성신호는 A/D변환기(401)에 의해 디지탈 음성신호로 변환된다.
이와같이 이루어진 본 발명의 실시예에 의한 유성음 신호에서 성문 닫힘 구간 신호의 가변에 의한 피치 수정 방법을 도 4 내지 도 9를 참조하여 상세히 설명하면 다음과 같다.
성문 닫힘 구간 분석에 의해 한 피치 구간에서 성도와 음원 특성의 신호로 분리하기 위해서는 성문 닫힘 구간의 검출이 선행되어야 한다. 성문 닫힘 구간은 성문 진동을 관측할 수 있는 EGG(ElectroGlottoGraph)신호를 음성과 동시에 녹음하여 검출하거나 음성신호를 신호처리하여 epoch를 검출하여 구할 수 있다. 후자의 방법은 임의의 음성을 사용할 수 있는 반면 성문 열림 구간을 알 수 없고 정확도가 전자에 비해 낮으므로 수작업으로 후 처리를 해야 한다.
도 4의 (B)에 도시된 EGG 신호를 1차 미분하면, 도 4의 (C)에 도시된 신호가 발생된다. 도 4 의 (C)에 도시된 바와같이, 1 차 미분신호는 마이너스(-) 측의 큰 피크(peak)는 성문 닫힘 시점(수직 실선)을 나타내고, 플러스(+) 측의 작은 피크는 성문 열림 시점(수직 점선)을 나타내고 있다.
이 방법은 검출이 용이하고 정확도가 높으며 성문 열림 정보도 비교적 정확하게 구할 수 있는 반면, 선택성이 적고 녹음시 숙련된 화자가 아니면 자연성이 저하되는 단점이 있다.
도 5의 (A) 내지 (D)는 유성음의 한 피치 구간에서 수학식 (2)와 음성 발생원리에 근거하여 성도와 성문 특성신호를 근사적으로 분리하는 방법을 도시하고 있다. 도 5의 (D)에 도시된 바와같이, 시간 영역에서 성도 특성의 신호는 성문 닫힘 구간의 신호를 분리하여 쉽게 얻을 수 있지만, 성문 특성에 의한 신호는 성문 열림 구간의 신호에서 성도 특성을 제거해야 하므로 복잡하고 정밀한 처리가 필요하다.
그러나, 성문 열림 구간에서 성문과 성도 특성의 에너지 비율이 상대적으로 성문 특성 쪽이 현저히 크므로, 도 5의 (B)에 도시된 바와같이 성문 열림 구간의 신호 중에서 성문 특성이 많은 쪽에 큰 가중치를 주면, 근사적으로 도 5의 (C)에 도시된 음원 신호(g(t))를 분리할 수 있다. 이와 같은 음원 분리 방법은 음성 합성시 중첩에 의한 두 피치간의 접속에서 신호의 자연스런 연속성을 유지시킬 수 있다.
성문은 서서히 열리므로 도 5의 (B)에 도시된 To에서부터 음원신호가 발성 음성에 지배적인 영향을 주지는 않므로 음원신호를 분리하기 위한 가중 함수의 구간 To~Tc는 이보다 짧은 구간으로 하는 것이 보다 정확한 음원 신호를 얻을 수 있다. 실험에 의하면 가중 함수의 구간을 피치의 30~60% 정도로 하였을 경우 좋은 결과를 얻을 수 있었다.
본 발명에서 사용한 성문 담힘 구간의 검출 방법은 EGG 신호를 이용할 경우에는 도 3 의 (C)에 도시된 미분된 EGG 신호에서 검출한 결과를 성문 닫힘 구간 으로 사용하며, 신호처리 기법에 의한 epoch검출기를 이용할 경우에는 epoch 시점으로부터 한 피치 구간의 40~50%로 근사화 하였다.
성문 열림 구간은 성문 닫힘 구간 검출 방법에 관계없이 성문 닫힘 시점의 직전에 위치하며 한 피치 구간의 30~60%로 하였다. 본 발명에서 성문 닫힘 구간은 EGG보다는 정확도가 낮지만 일반적인 경우를 고려하여 epoch 검출기를 이용하여 검출한다.
성문 닫힘 구간 연장에 필요한 성도 파라미터의 정밀도는 합성음의 품질에 영향을 주므로 가능한 안정되고 정밀한 분석 기법이 요구된다. 실험에 의하면 일반적으로 프레임 동기식 분석기법으로도 원음의 음질을 유지할 수 있으나 피치가 매우 짧거나 성대의 특성이 불안정한 경우에는 추출된 성도 파라미터의 정밀도가 낮아서 음질이 저하된다.
본 발명에서는 성대 개방구간 역 필터링에 의한 피치 동기식 분석 기법을 사용하였다.
도 6 은 유성음의 성문 닫힘 구간 가변에 의한 피치 가변에 대한 개념도를 나타낸다.
제2 단계에서는 도 5의 (B)에 도시된 가중함수 Wh(t)을 이용하여 성대 폐쇄 구간에서의 음성신호와 성문 열림 구간에서의 음원을 근사적으로 분리한다. 성문 닫힘 구간, Wh(t)의 Lf는 해당 피치의 40~50% 내외로 하고 성문 열림 구간인 Wh(t)의 Ls를 해당 피치의 30~60% 정도로 하면 근사적으로 음원신호를 분리할 수 있다.
여기서, n 는 0,1,2,3,... 이다.
수학식 (3)의 가중 함수를 음성신호에 곱하여 구한 신호를 각각의 변경하고자 하는 피치 길이로 이동시켜 위치시키면 도 5의 (C)에 도시된 SF(t)와 같은 신호를 얻을 수 있다.
제3 단계에서는 1단계에서 구한 성도 파라미터를 이용하여 성문 닫힘 구간의 음성신호에 연속해서 선형적으로 신호를 원하는 피치 길이까지 합성하여 도 6의 (D)에 도시된 Xp(t)에서 실선과 같은 신호를 합성한다.
제4 단계에서는 수학식 (4)와 같이 제3 단계에서 얻어진 도 6의 (D)에 도시된 신호 Xp(t)에 도 6의 (E)에 도시된 가중함수 Ws(t)를 곱하여 제2 단계에서 구한 도 6 의 (C)에 도시된 성도 및 성문 특성신호 SF(t)를 중첩하는 과정으로서 인접 피치간에 신호의 연속성을 유지시켜 도 6의 (F)에 도시된 자연스런 합성음 Y(t)를 얻을 수 있다.
여기서, 도 6 의 (E)에 도시된 Ws(t)는 음원신호를 구할 때 사용된 가중함수와 상호 보완되는 함수이다.
수학식 (4)의 음원 및 성도 특성 신호 SF(t) 중에서 음원 신호에 해당하는 신호 대신에 음원을 모델링하여 인위적으로 생성한 신호를 직접 중첩하여도 높은 음질의 합성음을 얻을 수 있다.
도 7은 본 발명의 처리에 대한 전체 흐름도로서 전체 처리 과정을 살펴보면,
우선, 본 발명은 음성신호의 유성음에 대해서만 처리되므로 한 프레임(약 20~30msec)의 유성음 신호를 입력하여(S700) 피치 및 epoch를 검출한 다음, 성문 닫힘 구간을 결정한다(S701).
현재의 피치에 대한 변경 요구가 있는지를 판단하고(S702), 변경의 필요가 있으면 수학식 (3)의 가중함수 Wh(t)을 이용하여 성문 닫힘 구간에서의 음성신호와 성문 열림 구간에서의 음원을 근사적으로 분리한다.(S703)
변경하고자하는 목표 피치가 현재 피치의 1/2과 같거나 짧으면 성문 닫힘 구간의 연장을 하지 않고 단계 (S707)을 수행하고, 클 경우에는 우선 성문 닫힘 구간 연장에 필요한 성도 파라미터를 구한 다음(S705) 이 파라미터를 이용하여 원하는 피치 길이까지 성문 닫힘 구간의 신호에 연속적인 신호 Xp(t)를 합성한다(S706).
성문 닫힘 구간에 연속적인 선형 합성 신호 Xp(t)에 도 6 의 (E)에 도시된중첩용 가중함수 Ws(t)를 곱하여 도 6의 (C)에 도시된 성도 및 성문 특성신호인 SF(t)를 중첩하는 과정으로서 인접 피치간에 신호의 연속성을 유지시켜 도 6의 (F)에 도시된 자연스런 합성음 Y(t)를 합성한다(S708). 처리의 끝인가를 판단하고(S708) 계속적인 처리의 경우 다음 프레임으로 이동한다(S709).
본 발명은 첫째, PSOLA방법에서와 같은 창함수를 사용하지 않으므로 음성 고유의 포먼트 대역폭을 유지하여 명료한 합성음을 생성할 수 있다.
둘째, PSOLA방법에서와 같이 피치 길이의 대부분이 중첩되지 않고 음원 신호의 부분만 중첩되므로 스펙트럼의 왜곡이 훨씬 적어 고 품질의 합성이 가능하다.
셋째, 두 피치구간의 접속시 적용되는 중첩용 가중함수와 음원 신호를 분리할 때 적용되는 가중함수는 항상 길이가 일치되어 상호 보완되므로 가중함수에 의한 영향이 최소화된다.
넷째, 위와 같은 피치 변경에 따른 음질의 저하가 낮으므로 보다 많은 폭으로 피치를 변화시킬 수 있다.
Claims (7)
- 성문 닫힘 구간을 검출하고, 성도 파라미터 추정하는 제1 단계와;성문 닫힘 구간에서의 음성신호와 성문 열림 구간의 신호를 분리하는 제2 단계와;상기 제1 단계에서 추정된 성도 파라미터를 이용하여 성문 닫힘 구간 신호를 연장 혹은 축소하는 제3 단계와;성문 닫힘 구간이 변경된 신호에 성문 열림 구간의 신호 중첩에 의해 최종적으로 원하는 피치로 가변된 합성음 신호를 생성하는 제4 단계로 이루어지는 것을 특징으로 하는 유성음 신호에서 성문 닫힘 구간 신호의 가변에 의한 피치 수정 방법.
- 제 1 항에 있어서,상기 제1 단계에서의 성문 닫함 구간 검출은 에포크(epoch)검출기를 이용하여 검출하는 것을 특징으로 하는 유성음 신호에서 성문 닫힘 구간 신호의 가변에 의한 피치 수정 방법.
- 제 1 항 또는 제 2 항에 있어서,상기 제1 단계에서의 검출된 성문 닫힘 구간은 에포크 시점으로부터 한 피치구간의 40 내지 50 퍼센트(%)인 것을 특징으로 하는 유성음 신호에서 성문 닫힘 구간 신호의 가변에 의한 피치 수정 방법.
- 제 1 항에 있어서,상기 제1 단계에서의 검출되지 않은 성문 열림 구간은 상기 성문 닫힘 시점의 직전에 위치하며, 한 피치 구간의 30 내지 60 퍼센트(%)인 것을 특징으로 하는 유성음 신호에서 성문 닫힘 구간 신호의 가변에 의한 피치 수정 방법.
- 제 1 항에 있어서,상기 제2 단계는 성도 및 성문특성 분리용 가중함수를 음성신호에 곱한 후, 그 결과신호를 각각의 변경하고자 하는 피치길이로 이동시켜 위치시켜 분리된 성도 및 음원 특성신호를 분리하는 것을 특징으로 하는 유성음 신호에서 성문 닫힘 구간 신호의 가변에 의한 피치 수정 방법.
- 제 1 항에 있어서,상기 제3 단계는 상기 제1 단계에서 추정된 성도 파라미터를 이용하여 성문닫힘 구간의 신호에 연속되는 신호를 선형적으로 합성하는 것을 특징으로 하는 유성음 신호에서 성문 닫힘 구간 신호의 가변에 의한 피치 수정 방법.
- 제 1 항에 있어서,상기 제4 단계는 상기 제3 단계에서 얻어진 신호와 중첩용 가중함수를 승산하고, 그 승산된 신호와 상기 제2 단계에서 구한 성도 및 성문 특성신호를 합산하여 합성음 신호를 생성하는 것을 특징으로 하는 유성음 신호에서 성문 닫힘 구간 신호의 가변에 의한 피치 수정 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019970064040A KR100269255B1 (ko) | 1997-11-28 | 1997-11-28 | 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법 |
US09/137,606 US6125344A (en) | 1997-03-28 | 1998-08-21 | Pitch modification method by glottal closure interval extrapolation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019970064040A KR100269255B1 (ko) | 1997-11-28 | 1997-11-28 | 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR19990043060A true KR19990043060A (ko) | 1999-06-15 |
KR100269255B1 KR100269255B1 (ko) | 2000-10-16 |
Family
ID=19525908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019970064040A KR100269255B1 (ko) | 1997-03-28 | 1997-11-28 | 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6125344A (ko) |
KR (1) | KR100269255B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100746680B1 (ko) * | 2005-02-18 | 2007-08-06 | 후지쯔 가부시끼가이샤 | 음성 강조 장치 |
KR100923384B1 (ko) * | 2002-09-26 | 2009-10-23 | 주식회사 케이티 | 전자적성문그래프 신호를 이용한 피치 추출 장치 및 그 방법 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3902860B2 (ja) * | 1998-03-09 | 2007-04-11 | キヤノン株式会社 | 音声合成制御装置及びその制御方法、コンピュータ可読メモリ |
DE60122296T2 (de) * | 2001-05-28 | 2007-08-30 | Texas Instruments Inc., Dallas | Programmierbarer Melodienerzeuger |
CN100369111C (zh) * | 2002-10-31 | 2008-02-13 | 富士通株式会社 | 话音增强装置 |
US7275030B2 (en) * | 2003-06-23 | 2007-09-25 | International Business Machines Corporation | Method and apparatus to compensate for fundamental frequency changes and artifacts and reduce sensitivity to pitch information in a frame-based speech processing system |
CN101281744B (zh) * | 2007-04-04 | 2011-07-06 | 纽昂斯通讯公司 | 语音分析方法和装置以及语音合成方法和装置 |
CN101578659B (zh) * | 2007-05-14 | 2012-01-18 | 松下电器产业株式会社 | 音质转换装置及音质转换方法 |
KR20110028095A (ko) * | 2009-09-11 | 2011-03-17 | 삼성전자주식회사 | 실시간 화자 적응을 통한 음성 인식 시스템 및 방법 |
US10453479B2 (en) * | 2011-09-23 | 2019-10-22 | Lessac Technologies, Inc. | Methods for aligning expressive speech utterances with text and systems therefor |
US8744854B1 (en) | 2012-09-24 | 2014-06-03 | Chengjun Julian Chen | System and method for voice transformation |
JP2018159759A (ja) * | 2017-03-22 | 2018-10-11 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
JP6646001B2 (ja) * | 2017-03-22 | 2020-02-14 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2636163B1 (fr) * | 1988-09-02 | 1991-07-05 | Hamon Christian | Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde |
US5171930A (en) * | 1990-09-26 | 1992-12-15 | Synchro Voice Inc. | Electroglottograph-driven controller for a MIDI-compatible electronic music synthesizer device |
US5138661A (en) * | 1990-11-13 | 1992-08-11 | General Electric Company | Linear predictive codeword excited speech synthesizer |
DE69231266T2 (de) * | 1991-08-09 | 2001-03-15 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium |
DE69228211T2 (de) * | 1991-08-09 | 1999-07-08 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals |
US5504833A (en) * | 1991-08-22 | 1996-04-02 | George; E. Bryan | Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications |
KR940002854B1 (ko) * | 1991-11-06 | 1994-04-04 | 한국전기통신공사 | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 |
EP0804787B1 (en) * | 1995-11-22 | 2001-05-23 | Koninklijke Philips Electronics N.V. | Method and device for resynthesizing a speech signal |
-
1997
- 1997-11-28 KR KR1019970064040A patent/KR100269255B1/ko not_active IP Right Cessation
-
1998
- 1998-08-21 US US09/137,606 patent/US6125344A/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100923384B1 (ko) * | 2002-09-26 | 2009-10-23 | 주식회사 케이티 | 전자적성문그래프 신호를 이용한 피치 추출 장치 및 그 방법 |
KR100746680B1 (ko) * | 2005-02-18 | 2007-08-06 | 후지쯔 가부시끼가이샤 | 음성 강조 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR100269255B1 (ko) | 2000-10-16 |
US6125344A (en) | 2000-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102158743B1 (ko) | 자연어 음성인식의 성능향상을 위한 데이터 증강장치 및 방법 | |
Talkin et al. | A robust algorithm for pitch tracking (RAPT) | |
EP1252621B1 (en) | System and method for modifying speech signals | |
EP1308928B1 (en) | System and method for speech synthesis using a smoothing filter | |
KR100269255B1 (ko) | 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법 | |
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
KR100269216B1 (ko) | 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법 | |
Ding et al. | Simultaneous estimation of vocal tract and voice source parameters based on an ARX model | |
US7643988B2 (en) | Method for analyzing fundamental frequency information and voice conversion method and system implementing said analysis method | |
EP0804787B1 (en) | Method and device for resynthesizing a speech signal | |
JP2798003B2 (ja) | 音声帯域拡大装置および音声帯域拡大方法 | |
JP2600384B2 (ja) | 音声合成方法 | |
KR100383668B1 (ko) | 시간 분리 부호화 알고리즘을 이용한 음성 부호화기 및부호화 방법 | |
JP2612867B2 (ja) | 音声ピッチ変換方法 | |
JPH08110796A (ja) | 音声強調方法および装置 | |
JP3035939B2 (ja) | 音声分析合成装置 | |
JPH07261798A (ja) | 音声分析合成装置 | |
JP3317458B2 (ja) | 音声合成方法 | |
Schnell et al. | Inverse filtering of tube models with frequency dependent tube terminations. | |
Pfitzinger | Influence of differences between inverse filtering techniques on the residual signal of speech | |
JP3063088B2 (ja) | 音声分析合成装置、音声分析装置及び音声合成装置 | |
Shahin et al. | Modeling and analyzing the vocal tract under normal and stressful talking conditions | |
JP3035987B2 (ja) | 声帯声道型音声分析装置 | |
Rice | 4* eatory Tracking of the Acoustie speech signa. | |
JPH0266600A (ja) | 音声合成方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20100701 Year of fee payment: 11 |
|
LAPS | Lapse due to unpaid annual fee |