KR101402805B1 - 음성분석장치, 음성합성장치, 및 음성분석합성시스템 - Google Patents

음성분석장치, 음성합성장치, 및 음성분석합성시스템 Download PDF

Info

Publication number
KR101402805B1
KR101402805B1 KR1020120069776A KR20120069776A KR101402805B1 KR 101402805 B1 KR101402805 B1 KR 101402805B1 KR 1020120069776 A KR1020120069776 A KR 1020120069776A KR 20120069776 A KR20120069776 A KR 20120069776A KR 101402805 B1 KR101402805 B1 KR 101402805B1
Authority
KR
South Korea
Prior art keywords
harmonic component
speech
harmonic
unit
information
Prior art date
Application number
KR1020120069776A
Other languages
English (en)
Other versions
KR20130109902A (ko
Inventor
김홍국
전광명
Original Assignee
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광주과학기술원 filed Critical 광주과학기술원
Publication of KR20130109902A publication Critical patent/KR20130109902A/ko
Application granted granted Critical
Publication of KR101402805B1 publication Critical patent/KR101402805B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명에 따른 음성분석장치에는, 음성정보에서 피치값을 추출하는 F0추출부; 상기 음성정보에서 스펙트럼 정보를 추출하는 스펙트럼 추출부; 및 상기 음성정보에서 멕시멈 보이스드 주파수를 추출하여, 상기 음성정보에서 하모닉 성분과 비하모닉 성분을 각각 필터링하기 위한 경계정보를 추출하는 MVF 추출부가 포함된다. 본 발명에 따르면, 적은 데이터 용량으로 더 자연스러운 음성을 합성해 낼 수 있다.

Description

음성분석장치, 음성합성장치, 및 음성분석합성시스템{VOICE ANALYSIS APPARATUS, VOICE SYNTHESIS APPARATUS, VOICE ANALYSIS SYNTHESIS SYSTEM}
본 발명은 음성분석장치, 음성합성장치, 및 음성분석합성시스템에 관한 것이다.
음성합성방식으로는, 음편조합기반 음성합성방식과 통계기반 음성합성방식이 알려져있다.
상기 음편조합기반 음성합성방식은 고품질의 음성을 합성할 수는 있으나 데이터베이스에 대한 의존도가 지나치게 크고 음성의 특징을 바꾸는 것이 어려운 문제점이 있다. 상기 통계기반 음성합성방식은 데이터베이스에 대한 의존도가 낮고, 데이터 베이스의 용량이 작고, 음성의 특징을 바꾸는 것이 쉬운 장점이 있는 반면에, 합성음의 품질이 떨어지는 문제점이 있다. 이러한 특징에 기반하여 상기되는 두 방식 중의 어느 한 방식이 선별적으로 적용되어 음성합성에 이용되고 있다.
상기 통계기반 음성합성방식으로는 대표적으로 히든마르코프모델(HMM: Hidden Markov Model)기반의 음성합성시스템이 있다. 상기 HMM기반 음성합성 시스템에서 음질을 결정하는 핵심인자로는, 음성신호의 표현/복원방법, 문장 데이터 베이스 훈련의 정확도, 훈련모델에서 생성되는 출력 파라미터의 스무딩 강도가 있다.
한편, 종래 음성신호의 표현/복원을 위한 음성의 모델링 방법으로는, PoN(Pulse or Noise) 모델, STRAIGHT(speech transformation and representation using adaptive interpolation of weighted spectrum) 모델이 제안된 바가 있다. 상기 PoN 모델은 익사이테이션(Excitation)과 스펙트럼 부분으로 나누어서 음성을 합성하는 방식이다. STRAIGHT 모델은 세 가지 파라미터를 사용하여 음성을 표현한다. 상기 세 가지 파라미터로는, 피치값으로서 F0와, 주파수 영역에서 스무딩된 스펙트럼, 스펙트럼 스무딩 과정에서 사라진 신호의 비주기성을 복원하기 위한 비주기성(aperiodicity)이 있다.
상기 STRIGHT 모델은 적은 수의 파라미터를 사용하는 것으로서 복원된 음성의 열화가 작은 효과를 얻을 수 있다. 그러나, FO 탐색의 어려움, 비주기성 스펙트럼 추출로 인한 신호표현의 복잡성이 증가하는 문제점이 있다.
이에 음성신호의 표현/복원을 위한 새로운 모델이 요구되고 있다.
본 발명은 상기되는 배경하에서 제안되는 것으로서, 음성을 더 원음과 가깝게 합성할 수 있는 음성분석장치, 음성합성장치, 및 음성분석합성시스템을 제안한다.
본 발명은 더 적은 데이터로 음성을 표현할 수 있는 음성분석장치, 음성합성장치, 음성모델링방법, 및 음성분석합성시스템을 제안한다.
본 발명에 따른 음성분석장치는, 음성정보에서 피치값을 추출하는 F0추출부; 상기 음성정보에서 스펙트럼 정보를 추출하는 스펙트럼 추출부; 및 상기 음성정보에서 멕시멈 보이스드 주파수를 추출하여, 상기 음성정보에서 하모닉 성분과 비하모닉 성분을 각각 필터링하기 위한 경계정보를 추출하는 MVF 추출부가 포함된다.
상기 음성분석장치에 있어서, 상기 F0추출부, 상기 스펙트럼 추출부, 및 상기 MVF추출부에서 각각 추출되는 피치값, 스펙트럼 정보, 멕시멈 보이스드 주파수를 이용하여 음성을 가합성해내는 가합성부; 및 상기 가합성부에서 합성된 음성신호의 하모닉 성분과 비하모닉 성분의 에너지를 비교하여 게인값을 추출하는 게인값 추출부가 더 포함될 수 있다. 또한, 상기 음성분석장치에 있어서, 상기 MVF 추출부에는, 임의의 프레임이 몇 개의 서브밴드로 구분되도록 하고, 상기 서브밴드 중에서 에너지 차이가 가장 큰 서브밴드를 검색하는 간략서치필터; 및 상기 간략서치필터에서 서치된 특정 서브밴드의 영역 중에서, 두 인접하는 샘플 사이에서 가장 큰 진폭을 가지는 특정의 위치를 구하는 미세서치필터가 포함될 수 있다.
본 발명의 다른 측면에 따른 음성합성장치에는, 스펙트럼 정보를 시간영역으로 변환하여 프레임정보를 출력하는 시간영역변환부; 멕시멈 보이스드 주파수를 이용하여 하모닉 성분과 비하모닉 성분의 경계필터를 생성하는 경계필터 생성부; 상기 프레임 정보와 상기 경계필터와 피치값을 이용하여 하모닉 음성신호를 생성시키는 하모닉 성분 생성부; 상기 프레임 정보와 상기 경계필터를 이용하여 비하모닉 음성신호를 생성시키는 비하모닉 성분 생성부; 및 상기 하모닉 음성신호와 상기 비하모닉 음성신호를 합성하는 합성부가 포함된다.
상기 음성합성장치에 있어서, 상기 하모닉 성분 생성부 및 상기 하모닉 성분 생성부 중의 적어도 하나는 게인값을 이용하여 출력이 조절될 수 있다. 또한, 상기 하모닉 성분 생성부에 적용되는 상기 경계필터는 로우패스필터일 수 있고, 상기 비하모닉 성분 생성부에 적용되는 상기 경계필터는 하이패스필터일 수 있다.
본 발명의 또 다른 측면에 따른 음성합성장치는, 하모닉 성분과 비하모닉 성분이 별도로 생성된 다음에 합성되고, 상기 하모닉 성분의 생성에는 로우패스필터에 의해서 필터링되고, 상기 비하모닉 성분의 생성에는 하이패스필터에 의해서 필터링되는 것을 특징으로 한다.
본 발명의 더 다른 측면에 따른 음성분석합성시스템에는, 음성신호를 분석하는 음성신호분석부; 상기 음성신호분석부에 의해서 분석되는 파라미터를 훈련시키는 통계모델훈련부; 상기 통계모델훈련부에서 훈련된 파라미터가 저장되는 파라미터 음향모델 데이터 베이스; 문자가 입력될 때, 상기 파라미터 음향모델 데이터 베이스로부터 특정문자에 대응하는 파라미터를 추출하는 파라미터 생성부; 및 상기 파라미터 생성부에서 추출되는 파라미터를 이용하여 음성을 합성하는 합성부가 포함되고, 상기 파라미터에는, 피치값, 스펙트럼 정보, 하모닉 성분이 큰 구간과 그렇지 못한 구간의 경계 주파수값으로 정의되는 MVF값, 및 상기 피치값과 상기 스펙트럼 정보 및 상기 MVF값으로 이용하여 가합성된 신호에서 하모닉 성분과 비하모닉 성분의 에너지를 비교한 게인값이 포함되는 것을 특징으로 한다.
본 발명의 더 다른 측면에 따른 음성합성장치에는, 음성신호의 파라미터가 저장되는 파라미터 음향모델 데이터 베이스; 입력되는 문장에 상승하는 정보를 상기 파라미터 음향모델 데이터 베이스에서 호출하여 파라미터를 출력하는 파라미터 생성부; 및 상기 파라미터 생성부에서 출력되는 파라미터를 이용하여 음성을 합성하는 합성부가 포함되고, 상기 음성신호의 파라미터에는, 임의의 음성신호의 피치값, 상기 음성신호의 스펙트럼 정보, 상기 음성신호에서 하모닉 성분이 큰 구간과 그렇지 못한 구간의 경계 주파수값으로 정의되는 MVF값, 및 상기 피치값과 상기 스펙트럼 정보 및 상기 MVF값으로 이용하여 가합성된 신호에서 하모닉 성분과 비하모닉 성분의 에너지를 비교한 게인값이 포함되는 것을 특징으로 한다.
본 발명에 따른 음성분석장치, 음성합성장치, 및 음성분석합성시스템에 따르면, 더 원음과 가깝고, 더 자연스러운 음성을 합성할 수 있는 장점이 있다. 아울러, 더 작은 데이터 용량으로 음성을 표현할 수 있는 장점이 있다.
도 1은 실시예에 따른 음성분석장치의 블록도.
도 2는 실시예에 따른 음성분석합성시스템의 블록도.
도 3은 하모닉 비하모닉 파라미터 생성부의 내부 구성을 상세하게 설명하는 블록도.
도 4는 경계필터의 기능을 설명하는 그래프.
도 5는 멕시멈 보이스드 주파수를 구하는 방법을 설명하는 참조도.
도 6은 원래의 음성과 합성된 음성을 예시하는 도면.
도 7은 <성능평가1>에 의해서 MOS결과와 PESQ 결과를 나타내는 도표.
도 8은 <성능평가1>에 사용된 샘플들의 파형을 비교하는 그래프.
도 9는 래퍼런스 음성과 PoN모델로 재합성된 음성의 스펙트로그램을 비교하는 도면.
도 10은 래퍼런스 음성과 STRAIGHT모델로 재합성된 음성의 스펙트로그램을 비교하는 도면.
도 11은 래퍼런스 음성과 HNH모델로 재합성된 음성의 스펙트로그램을 비교하는 도면.
도 12는 <성능평가2>에서 테스트의 결과를 나타내는 도표.
도 13은 PoN모델과 STRAIGHT모델과 HNH모델로 합성된 음성의 파형을 보이는 도면.
도 14는 상기 세가지 모델로 합성된 음성의 스펙트로그램을 보이는 도면.
먼저, 실시예에 따른 음성모델링방법에 대하여 설명한다.
음성신호는 하모닉 성분과 비하모닉 성분으로 이루어지는 것이 알려져 있다. 실시예에 따른 음성모델링방법은, 이러한 바탕에서 음성신호에서 하모닉 성분과 비하모닉 성분을 각각 분석하도록 한다. 수학식 1은 임의의 주어진 음성신호가 하모닉 성분과 비하모닉 성분으로 이루어지는 것을 나타내고 있다.
Figure 112012051682188-pat00001
수학식 1에서, s(n)은 주어진 음성신호이고, sh(n)은 하모닉 신호이고, snh(n)은 비하모닉 신호를 나타낸다. 실시예에 따른 음성표현모델은 하모닉신호와 비하모닉신호를 별도로 처리하고 합성하는 것을 그 특징으로 하고 있다. 실시예에서 정의되는 음성표현모델을 하모닉 비하모닉 모델(HNH모델: Harmonoc Non-Harmonic 모델)이라고 이름할 수 있다. 이하의 설명에서는 하모닉 비하모닉 음성모델 또는 HNH모델이라고 이름하는 경우도 있다.
여기서, 상기 sh(n)은, 단위음성성분 fm(n)의 주기적인 축적으로서, 수학식 2와 같이 나타낼 수 있다.
Figure 112012051682188-pat00002
여기서, m은 피치값인 F0의 인덱스이고, l은 축적 인덱스이고, S는 샘플링 주파수이다. 또한, 임의의 한 프레임을 의미하는 f(n,m)은 각 m마다 달라지는 시간축 상의 값이고, 길이는 N으로 일정하게 주어질 수 있다. 여기서 m의 하나의 F0값으로 대표될 수 있는 시간축 상의 소정의 범위로 정의될 수 있다. 실시예에서 N은 1024로 주어질 수 있다. p(m)는 각 m에서의 F0값, 여기서 F0값은 피치정보를 나타낼 수 있다. p(m)=0이 되는 경우는 sh(n)은 0으로서 상기 수학식 2를 계산할 필요없이 하모닉 성분이 없는 무성음의 영역으로 고려될 수 있다.
상기 수학식 2에서 l의 범위는 수학식 3과 같은 조건을 만족시킬 수 있다.
Figure 112012051682188-pat00003
여기서, M은 샘플들에서 p(m)의 듀레이션, 즉 동일한 P(m)의 지속시간으로 고려될 수 있다. 실시예에서 M은 80으로 주어질 수 있다. 이는 샘플링 주파수가 16kHz일때 5ms가 된다. 예를 들어, 상기 조건 하에서 p(m)이 200Hz라면 l은 0의 값만 가져서 f(n,m)은 한 번만 더해지고, 201Hz라면 l은 0과 1의 값을 가져서 시간축 상으로 한 단계 이전의 값과 현재 값이 더해질 수 있고, 401Hz라면 l은 0,1,2의 값을 가져서 시간축 상으로 한 단계 및 두 단계 이전의 값과 현재값이 각각 더해질 수 있다. 이와 같은 처리는 향후 주파수 영역의 처리와 연관하여 정확한 음성신호의 구현을 위하여 필요하게 된다.
한편 수학식 2에서 h(n,m)은, 특정의 컷오프 주파수를 가지는 로우패스필터로 동작되고, 상기 컷오프 주파수는 하모닉과 비하모닉의 경계값인 v(m)에 의해서 정의될 수 있다. 다시 말하면, v(m)은 하모닉 에너지가 충분히 큰 구간과 그렇지 못한 구간의 경계값을 의미할 수 있다.
수학식 1에서 비하모닉 음성신호인 snh(n)은 하모닉 음성신호와 유사하게, 하기되는 수학식 4와 같이 모델링될 수 있다.
Figure 112012051682188-pat00004
비하모닉 음성신호도 하모닉 음성신호에 기반하여 제시될 수 있다. 상기 수학식 4에서, f(n,m)은 수학식 2와 마찬가지로 각 m마다 달라지는 시간축 상의 값이고, 길이는 N으로 일정하게 주어질 수 있다. r(n)은 화이트 노이즈로서, 가우시언 랜덤 시퀀스(Gaussian-distributed random sequence)이다. Pnh는 수학식 4의 아래쪽에 제시되어 있는 바와 같이, p(m)이 0보다 클 때에는 4p(m)으로 주어지고, 그 외에는 800이 된다. 또한, hH(n,m)은 하이패스필터로서 하모닉과 비하모닉의 경계값으로 정의되는 v(m)값을 컷오프 주파수로 사용할 수 있다.
또한, G는 음성신호에서 하모닉성분과 비하모닉성분의 파워비율을 입력음성과 유사하게 조절하기 위한 비하모닉 음성신호의 게인값이다.
이미 설명한 바와 같이, 실제 음성신호는 유성음 영역에서는 하모닉 성분과 비하모닉 성분을 포함하고 있다. 실시예에 따른 음성모델링방법에서는 그와 같은 특징을 더 완벽히 구현할 수 있도록 하기 위하여, 상기 수학식 2와 상기 수학식 3에 포함되어 있는 필터값은 다음의 수학식 5와 같이 정의될 수 있다.
Figure 112012051682188-pat00005
여기서, v(m)은 멕시멈 보이스드 주파수(MVF: Maximum Voiced Frequency)이다. 따라서, 주파수 영역에서 분석할 때, HL(k,m)의 절대값은 k가 v(m)보다 커짐에 따라서 감소하고, k가 v(m)보다 작을 때에는 1이 된다. HH(k,m)의 절대값은 1에서 HL(k,m)의 절대값을 차감한 값이 된다.
수학식 5를 그래프로 표시하면 도 4와 같이 주어질 수 있다.
상기되는 설명에 따르면, 실시예에 따른 음성모델링방법은, HNH모델을 사용하여 실제 음성을 표현할 때, 다음의 네 개의 파라미터를 사용하여 음성을 표현하고 복원할 수 있다.
1. p(m): 피치값
첫째, 피치값, 즉 F0로 주어지는 p(m). 이 값은 이미 공지되어 있는 RAPT(Robust Algorithm for Pitch Tracking) 기술이 적용되는 것으로써 얻어질 수 있다. RAPT기술은 본 명세서에 포함되는 것으로 하고, RAPT외에 다른 방법으로 통해서도 p(m)을 알아낼 수 있는 것도 물론이다.
2. F(k,m): 스펙트럼 정보
둘째, 스펙트럼정보인 F(k,m)는 f(n,m)의 FFT 변환에 의해서 얻어질 수 있고, 이하의 수학식 6으로 주어질 수 있다.
Figure 112012051682188-pat00006
여기서, ω(n,m)은 F0 적응형 윈도우 함수이다. 본 함수는 인접한 스펙트럼 간의 주파수 간섭을 억제하도록 높은 하모닉 성분을 평활화시킬 수 있다.
3. v(m): 멕시멈 보이스드 주파수(MVF)
셋째, 멕시멈 보이스드 주파수(MVF)는 두 단계를 거쳐서 산출될 수 있다. 멕시멈 보이스드 주파수를 구하는 방법은 도 5를 통하여 설명한다.
도 5를 참조하면, 먼저, 간략서치필터를 이용하여 에너지 차이가 큰 서브밴드색인을 찾는다. 상세하게는, 특정의 프레임을 몇 개의 서브밴드(B)로 구분하고, 두 개의 인접하는 서브밴드의 평균 에너지 차이(ΔPBi)가 가장 크게 나는 서브밴드색인을 구한다. 그리고, 미세서치필터를 이용하여, 상기 간략서치필터로 얻어진 서브밴드영역(FiHB(j,m))의 두 인접하는 샘플 사이에서 가장 큰 진폭을 가지는 특정의 위치를 구하게 된다. 상기 미세서치필터의 동작은 수학식 7로 주어질 수 있다.
Figure 112012051682188-pat00007
수학식 7에 따르면 m으로 주어지는 특정 시간의 프레임에서 v(m)이 구해질 수 있다. argmax는 함수값을 가장 크게 만드는 j값을 구하는 함수이다.
상기 v(m)값을 알아내면 수학식 5를 이용하여 HL(n,m)과 HH(n,m)을 구해낼 수 있다.
4. G: 게인값
넷째, 게인값은 하모닉 성분의 게인값(Gh)과 비하모닉 성분의 게인값(Gnh)을 각각 구하여서 그 비율을 구하는 것에 의해서 얻을 수 있다. 이하에서는 하모닉 성분과 비하모닉 성분의 각각의 게인값을 구하는 수학식을 제시한다.
Figure 112012051682188-pat00008
상기 수학식에서 s(n)은 입력음성신호이고,
Figure 112012051682188-pat00009
nh
Figure 112012051682188-pat00010
h는 상기 피치값과 스펙트럼정보와 멤시멈 보이스드 주파수를 이용하여 가합성부(도 1의 24참조)에서 임의로 재구성한 재구성음성신호이다. 상기 음성신호의 절대값의 제곱을 취하여 이를 하모닉 신호와 비하모닉 신호의 게인값으로 한다.
한편, 음성신호의 많은 에너지는 주파수가 낮은 대역, 즉 하모닉 대역에 위치하고, 하모닉 음성신호에 있어서는 재구성된 음성신호와 입력음성신호가 거의 일치한다. 이와 달리, 비하모닉신호의 경우에는 다수의 신호 오버랩 가산의 랜덤한 성격에 기인하여 재구성된 비하모닉신호를 정확하지 않다. 따라서, 최종적인 게인값은 하모닉성분의 게인값과 비하모닉성분의 게인값의 상대적인 비율(Gnh/Gh)을 G값으로 사용할 수 있다. 상기되는 바와 같은 게인값을 구하는 것에 의해서, 추가적인 연산이 없이도 하모닉성분과 비하모닉성분의 비율을 유지할 수 있다.
상기되는 설명에서 제시되는 바와 같이 실시예에 따른 HNH 모델은 피치값(p(m)), 스펙트럼 정보(F(k,m)), 멕시멈 보이스드 주파수(MVF)(v(m)), 및 게인값(G)으로 주어지는 파라미터를 이용하여 음성을 분석하고 음성을 합성할 수 있다. 구체적으로 음성을 분석하고 음성을 합성하는 장치에 대해서는 후술되는 내용을 참조할 수 있다.
도 6은 원래의 음성과 합성된 음성을 예시하는 도면이다.
도 6(a)는 원래의 음성(s(n))이고, 도 6(b)는 하모닉 성분의 인조합성음성(
Figure 112012051682188-pat00011
h(n))이고, 도 6(c)는 비하모닉 성분의 인조합성음성(
Figure 112012051682188-pat00012
nh(n))이고, 도 6(d)는 인조합성된 하모닉 성분과 인조합성된 비하모닉성분이 합하여진 인조합성음성(
Figure 112012051682188-pat00013
(n))이다. 도 6을 참조하면, 실시예에 따른 하모닉 비하모닉 음성모델의 합성된 음성은 원음과 상당히 유사한 것을 알 수 있다.
도 1은 실시예에 따른 음성분석장치의 블록도이다.
도 1을 참조하면, s(n)의 음성신호가 입력되었을 때, 하모닉 비하모닉 모델의 표현에 요구되는 각 값을 구해내는 블록이 제공된다. 상세하게, 피치값(p(m))을 추출하는 F0추출부(21), 스펙트럼 정보(F(k,m))를 알아내는 스펙트럼 추출부(22), 멕시멈 보이스드 주파수(MVF)(v(m))를 알아내는 MVF 추출부(23)가 제공된다. 또한, 게인값(G)을 알아내기 위하여, 상기 F0추출부(21), 스펙트럼 추출부(22), 및 MVF추출부(23)에서 추출되는 피치값, 스펙트럼 정보, 멕시멈 보이스드 주파수를 이용하여 음성을 가합성해내는 가합성부(24)가 더 포함된다. 상기 가합성부(24)에서는 하모닉 성분과 비하모닉 성분을 개별적으로 인조합성한 다음에, 이를 더하여 인조음성을 가 합성해 낸다. 게인값 추출부(25)에서는, 상기 가합성부(24)에서 합성된 음성신호의 하모닉 성분과 비하모닉 성분을 비교하여, 게인값을 알아낸다.
상기되는 과정을 통하여, 특정의 음성신호(s(n))에 대한 F0(피치값), sp(스펙트럼정보), MVF(멕시멈 보이스드 주파수), G(게인값)이 추출된다. 이후에는, 히든 마르코프 모델로 예시되는 통계기반 음성합성방식에 의해서 훈련과정이 수행되된다. 훈련과정에 의해서, 특정의 음성신호(s(n))를 표현하는 네 가지의 파라미터들이 도출되어 데이터 베이스화 되어 저장되어 있을 수 있다. 여기서 상기 특정의 음성신호는 음소, 음절, 단어 등으로 주어질 수 있다. 상기되는 음성분석재생시스템을 도 2에 제시되는 음성분석재생시스템의 구성도를 참조하여 더 상세하게 설명한다.
도 2는 실시예에 따른 음성분석합성시스템의 블록도이다.
도 2를 참조하면, 훈련용으로 제시되는 음성신호가 저장되는 훈련용 음성 데이터 베이스(1), 상기 훈련용 음성 데이터 베이스(1)로부터 공급되는 음성신호를 분석하여 하모닉 비하모닉 모델에 필요한 네 가지 파라미터를 추출하는 하모닉 비하모닉(HNH:Harmonic Non-Harmonic) 분석부(2), 통계기반 음성합성방식에 필요한 훈련과정이 수행되는 통계모델 훈련부(3), 상기 통계모델 훈련부(3)에서 훈련을 거쳐서 제공되는 특정 음성신호를 표시하는 파라미터가 추출되어 저장되는 하모닉 비하모닉 파라미터 데이터 베이스(4), 자연어 처리부(6)를 통하여 문장이 입력될 때, 해당되는 문장이 대응되는 각 파라미터를 생성하는 하모닉 비하모닉 파라미터 생성부(5), 상기 하모닉 비하모닉 파라미터 생성부(5)에서 생성되는 네가지 파라미터를 이용하여 음성을 인조합성하는 하모닉 비하모닉 합성부(7)가 포함된다.
여기서, 네가지 파라미터로는, 피치값(p(m)), 스펙트럼 정보(F(k,m)), 멕시멈 보이스드 주파수(MVF)(v(m)), 및 게인값(G)이 해당될 수 있다. 상기 하모닉 비하모닉 분석부(2)의 상세한 구성은 이미 도 1에 제시되는 블록구성이 포함된다고 할 수 있다. 상기 자연어 처리부(6)에서는, 일상 생활 언어를 형태 분석, 의미 분석, 대화 분석 등을 통하여 컴퓨터가 처리할 수 있도록 변환시키는 작업이 수행될 수 있다.
도 3은 하모닉 비하모닉 파라미터 생성부의 내부 구성을 상세하게 설명하는 블록도이다.
도 3을 참조하면, 상기 하모닉 비하모닉 파라미터 생성부(5)에서 출력되는 네가지 파라미터인, F0'(피치값), sp'(스펙트럼정보), MVF'(멕시멈 보이스드 주파수), G'(게인값)를 이용하여, 인조합성된 하모닉 음성신호(
Figure 112012051682188-pat00014
h(n))와, 인조합성된 비하모닉 음성신호(
Figure 112012051682188-pat00015
nh(n))를 합성해 낸다.
상세하게는, 먼저 주파수 영역의 스펙트럼정보 sp'를 시간영역으로 변환하여 프레임정보(f'(n,m))를 출력하는 시간영역변환부(51), 및 멕시멈 보이스드 주파수 (MVF')를 이용하여 상기 수학식 5에 따라서 경계필터를 생성하는 하모닉 경계필터 생성부(52)가 포함된다. 상기 하모닉 경계필터 생성부(52)에서는, 합성 하모닉 음성신호에 적용되는 하모닉 경계필터(h'H(n,m))와, 합성 비하모닉 음성신호에 적용되는 비하모닉 경계필터(h'NH(n,m))가 생성된다. 상기 피치값과 상기 경계필터와 상기 프레임정보와 상기 게인값은, 하모닉 성분 생성부(53), 및 비하모닉 생성부(54)로 이동하여 각각 합성 하모닉 음성신호와 합성 비하모닉 음성신호를 합성해낸다. 합성된 하모닉 음성신호와 합성된 비하모닉 음성신호는 합성부(56)에서 합성되어 출력된다.
구체적으로, 상기 하모닉 성분 생성부(53)에서는, 상기 피치값과, 상기 프레임정보와, 상기 게인값과, 로우패스필터로 주어지는 상기 경계필터에 의해서 하모닉 성분이 합성될 수 있다. 상기 비하모닉 생성부(54)에서는, 상기 피치값과, 상기 프레임정보와, 상기 게인값과, 하이패스필터로 주어지는 상기 경계필터에 의해서 비하모닉 성분이 합성될 수 있다. 상기 하모닉 성분 생성부(53) 및 비하모닉 생성부(54)는 각각 수학식 2와 수학식 4에 의해서 합성될 수 있다.
이하에서는 실시예에 따른 HNH모델을 이용하여 분석하고 합성된 음성신호와 PoN 모델 및 STRAIGHT 모델을 이용하여 분석 및 합성된 음성을 비교한다.
<용량비교>
먼저, 모델링방법에 사용되는 데이터용량을 비교한다.
음성모델 파라미터 파라미터 크기 전체크기
PoN 모델
F0 1 40
스펙트럼(MFCC) 39

STRAIGHT 모델
F0 1 45

비주기성정보 5
스펙트럼(MFCC) 39

하모닉 비하모닉
모델
F0 1 42


스펙트럼(MFCC) 39
MVF 1
게인값 1
상기 표 1을 참조하면, 실시예에 따른 하모닉 비하모닉 모델의 경우에 PoN모델에 비해서는 용량이 크지만, STRAIGHT 모델에 비해서는 작은 것을 알 수 있다. 상기 PoN 모델은 합성음성의 음질이 조악하여, 직접적인 성능비교가 어려운 것을 감안할 때, STRAIGHT 모델에 비해서는 3에 해당하는 만큼의 데이터 용량이 줄어드는 것을 볼 수 있다.
<성능평가 1>
성능평가 1에서는, 합성음의 품질과 합성음과 원음과의 유사도를 평가할 수 있도록, 레퍼런스의 음성을 PoN모델과 STRAIGHT모델과 HNH모델로 분석 및 합성하여 객관적 및 주관적인 음성품질측정을 수행하였다. 샘플데이터로는, CMU-ARCTIC-SLT와 CMU-ARCTIC-AWB 음성 데이터 베이스로부터 열 개의 샘플이 참조로 사용되었다.
먼저, 주관적인 평가는 PCM 레퍼런스 음성을 포함하고, PoN모델/STRAIGHT모델/HNH모델로부터 합성된 음성을 이용하여, MOS(Mean Opinion scores) 청취테스트에 의해서 수행되었다. 11명의 청취자가 테스트에 참여하였다. 각 샘플에 대해서는 1점부터 4.5의 점수가 부여되었다. 테스트 세트에서 레퍼런스는 숨겨진 상태이다.
객관적인 평가는 PESQ(Perceptual Evaluation of Speech Quality)를 통하여 수행되었다. 상기 MOS 청취테스트에 사용된 20개의 샘플 중의 네 개의 세트가 객관적인 평가에 사용되었다. 시험은, CMU-ARCTIC-SLT와 CMU-ARCTIC-AWB 음성 데이터 베이스의 샘플들로부터 별도로 재정리된 것이다.
도 7은 상기 MOS결과와 상기 PESQ 결과를 나타내는 도표이다. 도 8은 <성능평가1>에 사용된 샘플들의 파형을 비교하는 그래프이다. 도 7을 참조하면, HNH모델에 대한 평가가 가장 좋은 것을 알 수 있다.
도 9는 래퍼런스 음성과 PoN모델로 재합성된 음성의 스펙트로그램을 비교하는 도면이고, 도 10은 래퍼런스 음성과 STRAIGHT모델로 재합성된 음성의 스펙트로그램을 비교하는 도면이고, 도 11은 래퍼런스 음성과 HNH모델로 재합성된 음성의 스펙트로그램을 비교하는 도면이다.
도 9를 참조하면, PoN모델로 재합성된 스펙트로그램을 보면, 음성을 불명확하게 하는 불명확 소리(muffling sound)를 야기하는 부정확한 하모닉들이 전 대역에서 발생하는 것을 볼 수 있다. 도 10과 도 11을 참조하면, PoN모델에서 볼 수 있는 부정확한 하모닉들은 발생하지 않는 것을 볼 수 있다.
도 11을 참조하면, HNH모델의 경우에는, 동일한 스펙트럼을 가지는 하모닉성분과 비하모닉성분의 모델링에서는 레퍼런스 음성의 스펙트럼 특징들이 유지되는 것을 볼 수 있다. 이는 유성음 프레임과 무성음 프레임 사이의 천이위치(transition position) 사이에서는 특히 현저하게 드러나는 것을 알 수 있다. 이와 같은 특징이 도 7에서 보이는 객관적인 평가 및 주관적인 평가에서 좋은 결과를 얻을 수 있었던 일 요인이 된 것으로 파악된다.
<성능평가2>
성능평가 2에서는 텍스트에서 재합성된 것으로서, PoN모델을 이용한 경우와, STRAIGHT모델을 이용한 경우와, HNH모델을 이용한 경우를 비교한 것이다. 음성합성을 위한 통계기반 음성합성시스템으로는 히든 마르코프 방식(HMM)이 이용되었다.
시험을 위한 시스템으로는 다음과 같은 사양이 사용되었다.
첫째, 훈련 데이터로서 각각 1132의 발화(utterances)를 가진 CMU-ARCTIC-SLT와 CMU-ARCTIC-AWB 음성 데이터 베이스가 사용되었다. STRAIGHT모델과 HNH모델을 가지는 시스템은 화자-의존적 시스템으로서 SLT 데이터 베이스와 AWB 데이터 베이스로 제작되었다. 따라서, 네 가지 음성합성시스템이 평가를 위하여 세팅되었다. 둘째, HMM기반 음성 합성 시스템(버전2.2)을 위한 화자-의존적 데모 스크립트는 음향모델훈련(acoustic model training)과 파라미터생성에 사용되었다. 셋째, 스크립트에서 대역적 분산(global variance) 옵션은, 합성 결과에서 부자연스러운 운율을 방지하기 위하여 오프되었다. 대신에, 종래의 계수를 사용하는 후 필터링은 MFCC 파라미터 생성에 수행되었다. 넷째, HTS 시스템(HMM-based Text-to-Speech System)을 위한 파라미터의 형태와 그 크기는 상기 표 1과 같이 세팅되었다. 음질비교는, 각각 동일한 데이터 베이스를 적용하는 세 시스템으로부터의 결과로서 MOS 테스트를 통하여 수행되었다. 테스트에서, 20개의 영어 발화는 상응하는 라벨 시퀀스로 변환되었다. 그러면, 모든 시스템은 주어진 텍스트 라벨로부터 출력 파라미터를 생성하였다. 이후에 음성 재구성이 수행되었다. 상기 <성능평가1>에 참여한 11명의 참여자가 참여하였다.
도 12는 테스트의 결과를 나타내는 도면이다. 도 12를 참조하면, SLT 데이터베이스를 사용할 때에는, HNH모델을 사용하는 시스템이 STRAIGHT모델을 사용하는 모델과 비교할 때, 유의한 차이를 두고서 높은 선호도를 가지는 것을 볼 수 있다. AWB 데이터 베이스를 사용하는 경우에는, STRAIGHT 모델과 HNH 모델이 유사한 선호도를 가지는 것을 볼 수 있었다.
도 13은 PoN모델과 STRAIGHT모델과 HNH모델로 합성된 음성의 파형을 보이는 도면이고, 도 14는 상기 세가지 모델로 합성된 음성의 스펙트로그램을 보이는 도면이다.
도 14를 참조하면, PoN모델의 경우에는 <성능평가1>에서 설명한 바와 같이, 비정상적으로 높은 하모닉 성분이 나타나는 것을 볼 수 있다. STRAIGHT모델로 합성된 음성의 경우에도 상당히 높은 하모닉 성분이 나타나는 것을 볼 수 있는데, 이는 STRAIGHT모델의 경우에는, 데이터 베이스에서 목표로 하는 음성의, 하모닉 성분과 비하모닉 성분 사이의 경계정보를 유지하지 않기 때문이다. 이와 달리, HNH모델로 합성된 음성의 경우에는, 모든 프레임에서 하모닉 성분과 비하모닉 성분 사이의 명확한 경계를 보이는 것을 알 수 있다. 이는 맥시멈 보이스드 주파수를 베이스로하여 쉐이핑 필터를 사용하는 것에 의해서, 스펙트럼을 두 대역으로 나누어 표현하는 것에 따른 것이다.
한편, 시험 참가자의 표현에 따르면, HNH모델로 합성된 음성은 쉽게 알아듣기 어려운 면이 있는 반면에, 자연스럽고 부드럽게 들린다는 평가가 있다. 이에 반하여, STRAIGHT모델로 합성된 음성은 쉽게 알아들을 수는 있으나, 인위적인 음성으로 들린다는 평이 있다. 합성음이라는 것의 인지적 측면에서, 자연스러움은 알아듣기 쉽다는 면보다 더 중요한 요소로 고려될 수 있다. 따라서, HNH모델은 STRAIGHT모델에 비하여 더 좋은 모델로 고려될 수 있다.
본 발명은 상기되는 실시예 외에 다른 실시예를 더 포함할 수 있다. 예를 들어, 상기 게인값은 하모닉 성분과 비하모닉 성분의 비율을 유지하기 위하여 사용되고 있다. 그러나, 게인값이 적용되지 않는 경우에도, 일정 수준의 음질은 유지할 수 있을 것이다. 따라서 게인값을 따로이 데이터 값으로 이용하지 않는 실시예의 경우도 본 발명의 실시예에 포함된다고 할 것이다.
본 발명에 따르면 하모닉 성분과 비하모닉 성분이 별도로 합성됨으로써, 보다 자연스러운 음성을 나타낼 수 있는 장점이 있다. 이는 합성음의 경우에 더욱 큰 니즈를 가지는 것으로서, 사용자의 만족감을 증진시킬 수 있다. 또한, 보다 적은 데이터로 음성을 표시할 수 있는 장점이 있다.
2: HNH 분석부
5: HNH 파라미터 생성부
7: HNH 합성부

Claims (10)

  1. 음성정보에서 피치값을 추출하는 F0추출부;
    상기 음성정보에서 스펙트럼 정보를 추출하는 스펙트럼 추출부; 및
    상기 음성정보 멕시멈 보이스드 주파수를 추출하여, 상기 음성정보에서 하모닉 신호만 존재하는 대역과 하모닉과 비하모닉 신호가 공존하는 대역을 각각 필터링하기 위한 경계정보를 추출하는 MVF 추출부가 포함되는 음성분석장치.
  2. 제 1 항에 있어서,
    상기 F0추출부, 상기 스펙트럼 추출부, 및 상기 MVF추출부에서 각각 추출되는 피치값, 스펙트럼 정보, 멕시멈 보이스드 주파수를 이용하여 음성을 가합성해내는 가합성부; 및
    상기 가합성부에서 합성된 음성신호의 하모닉 성분과 비하모닉 성분의 에너지를 비교하여 게인값을 추출하는 게인값 추출부가 포함되는 음성분석장치.
  3. 음성정보에서 피치값을 추출하는 F0추출부;
    상기 음성정보에서 스펙트럼 정보를 추출하는 스펙트럼 추출부; 및
    상기 음성정보에서 멕시멈 보이스드 주파수를 추출하여, 상기 음성정보에서 하모닉 성분과 비하모닉 성분을 각각 필터링하기 위한 경계정보를 추출하는 MVF 추출부;가 포함되고,
    상기 MVF 추출부는,
    임의의 프레임이 몇 개의 서브밴드로 구분되도록 하고, 상기 서브밴드 중에서 에너지 차이가 가장 큰 서브밴드를 검색하는 간략서치필터; 및
    상기 간략서치필터에서 서치된 특정 서브밴드의 영역 중에서, 두 인접하는 샘플 사이에서 가장 큰 진폭을 가지는 특정의 위치를 구하는 미세서치필터가 포함되는 음성분석장치.
  4. 스펙트럼 정보를 시간영역으로 변환하여 프레임정보를 출력하는 시간영역변환부;
    멕시멈 보이스드 주파수를 이용하여 하모닉 성분과 비하모닉 성분의 경계필터를 생성하는 경계필터 생성부;
    상기 프레임 정보와 상기 경계필터와 피치값을 이용하여 하모닉 음성신호를 생성시키는 하모닉 성분 생성부;
    상기 프레임 정보와 상기 경계필터를 이용하여 비하모닉 음성신호를 생성시키는 비하모닉 성분 생성부; 및
    상기 하모닉 음성신호와 상기 비하모닉 음성신호를 합성하는 합성부가 포함되는 음성합성장치.
  5. 제 4 항에 있어서,
    상기 하모닉 성분 생성부 및 상기 하모닉 성분 생성부 중의 적어도 하나는 게인값을 이용하여 출력이 조절되는 음성합성장치.
  6. 제 4 항에 있어서,
    상기 하모닉 성분 생성부에 적용되는 상기 경계필터는 로우패스필터인 음성합성장치.
  7. 제 4 항에 있어서,
    상기 비하모닉 성분 생성부에 적용되는 상기 경계필터는 하이패스필터인 음성합성장치.
  8. 삭제
  9. 음성신호를 분석하는 음성신호분석부;
    상기 음성신호분석부에 의해서 분석되는 파라미터를 훈련시키는 통계모델훈련부;
    상기 통계모델훈련부에서 훈련된 파라미터가 저장되는 파라미터 음향모델 데이터 베이스;
    문자가 입력될 때, 상기 파라미터 음향모델 데이터 베이스로부터 특정문자에 대응하는 파라미터를 추출하는 파라미터 생성부; 및
    상기 파라미터 생성부에서 추출되는 파라미터를 이용하여 음성을 합성하는 합성부가 포함되고,
    상기 파라미터에는, 피치값, 스펙트럼 정보, 하모닉 성분이 큰 구간과 그렇지 못한 구간의 경계 주파수값으로 정의되는 MVF값, 및 상기 피치값과 상기 스펙트럼 정보 및 상기 MVF값으로 이용하여 가합성된 신호에서 하모닉 성분과 비하모닉 성분의 에너지를 비교한 게인값이 포함되는 음성분석합성시스템.
  10. 음성신호의 파라미터가 저장되는 파라미터 음향모델 데이터 베이스;
    입력되는 문장에 상승하는 정보를 상기 파라미터 음향모델 데이터 베이스에서 호출하여 파라미터를 출력하는 파라미터 생성부; 및
    상기 파라미터 생성부에서 출력되는 파라미터를 이용하여 음성을 합성하는 합성부가 포함되고,
    상기 음성신호의 파라미터에는, 임의의 음성신호의 피치값, 상기 음성신호의 스펙트럼 정보, 상기 음성신호에서 하모닉 성분이 큰 구간과 그렇지 못한 구간의 경계 주파수값으로 정의되는 MVF값, 및 상기 피치값과 상기 스펙트럼 정보 및 상기 MVF값으로 이용하여 가합성된 신호에서 하모닉 성분과 비하모닉 성분의 에너지를 비교한 게인값이 포함되는 음성합성장치.
KR1020120069776A 2012-03-27 2012-06-28 음성분석장치, 음성합성장치, 및 음성분석합성시스템 KR101402805B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201261615903P 2012-03-27 2012-03-27
US61/615,903 2012-03-27

Publications (2)

Publication Number Publication Date
KR20130109902A KR20130109902A (ko) 2013-10-08
KR101402805B1 true KR101402805B1 (ko) 2014-06-03

Family

ID=49236209

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120069776A KR101402805B1 (ko) 2012-03-27 2012-06-28 음성분석장치, 음성합성장치, 및 음성분석합성시스템

Country Status (2)

Country Link
US (1) US9390728B2 (ko)
KR (1) KR101402805B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160058470A (ko) * 2014-11-17 2016-05-25 삼성전자주식회사 음성 합성 장치 및 그 제어 방법
JP6733644B2 (ja) * 2017-11-29 2020-08-05 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
KR102093929B1 (ko) * 2018-12-05 2020-03-26 중앙대학교 산학협력단 Cim 기반의 시스템 건전성 진단을 위한 장치 및 방법
JP2020194098A (ja) * 2019-05-29 2020-12-03 ヤマハ株式会社 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法
CN110931035B (zh) * 2019-12-09 2023-10-10 广州酷狗计算机科技有限公司 音频处理方法、装置、设备及存储介质
CN111833843B (zh) * 2020-07-21 2022-05-10 思必驰科技股份有限公司 语音合成方法及系统
CN112802494B (zh) * 2021-04-12 2021-07-16 北京世纪好未来教育科技有限公司 语音评测方法、装置、计算机设备和介质
CN114333897B (zh) * 2022-03-14 2022-05-31 青岛科技大学 基于多信道噪声方差估计的BrBCA盲源分离方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970012548A (ko) * 1995-08-23 1997-03-29 김광호 음성 제거 장치
JP2012048154A (ja) * 2010-08-30 2012-03-08 Toshiba Corp 音声合成装置、音声合成方法およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7562018B2 (en) * 2002-11-25 2009-07-14 Panasonic Corporation Speech synthesis method and speech synthesizer
JP5038995B2 (ja) * 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
WO2010032405A1 (ja) * 2008-09-16 2010-03-25 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
DK2242045T3 (da) * 2009-04-16 2012-09-24 Univ Mons Talesyntese og kodningsfremgangsmåder

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970012548A (ko) * 1995-08-23 1997-03-29 김광호 음성 제거 장치
JP2012048154A (ja) * 2010-08-30 2012-03-08 Toshiba Corp 音声合成装置、音声合成方法およびプログラム

Also Published As

Publication number Publication date
US9390728B2 (en) 2016-07-12
KR20130109902A (ko) 2013-10-08
US20130262098A1 (en) 2013-10-03

Similar Documents

Publication Publication Date Title
KR101402805B1 (ko) 음성분석장치, 음성합성장치, 및 음성분석합성시스템
Zão et al. Speech enhancement with EMD and hurst-based mode selection
US8255222B2 (en) Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus
US7792672B2 (en) Method and system for the quick conversion of a voice signal
US10573300B2 (en) Method and apparatus for automatic speech recognition
EP2881947A1 (en) Spectral envelope and group delay inference system and voice signal synthesis system for voice analysis/synthesis
Pulakka et al. Speech bandwidth extension using gaussian mixture model-based estimation of the highband mel spectrum
JP2012083722A (ja) 音声処理装置
Al-Radhi et al. Time-Domain Envelope Modulating the Noise Component of Excitation in a Continuous Residual-Based Vocoder for Statistical Parametric Speech Synthesis.
Pulakka et al. Bandwidth extension of telephone speech to low frequencies using sinusoidal synthesis and a Gaussian mixture model
Sadasivan et al. Joint dictionary training for bandwidth extension of speech signals
Kain et al. Formant re-synthesis of dysarthric speech
Kim et al. Two-band excitation for HMM-based speech synthesis
Mokhtari et al. Iterative Optimal Preemphasis for Improved Glottal-Flow Estimation by Iterative Adaptive Inverse Filtering.
Vuppala et al. Neutral to anger speech conversion using non-uniform duration modification
Adiga et al. Significance of epoch identification accuracy for prosody modification
Pulakka et al. Bandwidth extension of telephone speech using a filter bank implementation for highband mel spectrum
Babacan et al. Parametric representation for singing voice synthesis: A comparative evaluation
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
Yağli et al. Artificial bandwidth extension of spectral envelope with temporal clustering
Anil et al. Speech modification for prosody conversion in expressive Marathi text-to-speech synthesis
Erro et al. On combining statistical methods and frequency warping for high-quality voice conversion
Loweimi et al. On the importance of phase and magnitude spectra in speech enhancement
Albahri et al. Artificial bandwidth extension to improve automatic emotion recognition from narrow-band coded speech
Singh et al. A comparative study on feature extraction techniques for language identification

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee