KR20120054081A - 속삭임을 포함하는 입력 신호로부터 음성을 재구성하는 방법 및 시스템 - Google Patents

속삭임을 포함하는 입력 신호로부터 음성을 재구성하는 방법 및 시스템 Download PDF

Info

Publication number
KR20120054081A
KR20120054081A KR1020127007484A KR20127007484A KR20120054081A KR 20120054081 A KR20120054081 A KR 20120054081A KR 1020127007484 A KR1020127007484 A KR 1020127007484A KR 20127007484 A KR20127007484 A KR 20127007484A KR 20120054081 A KR20120054081 A KR 20120054081A
Authority
KR
South Korea
Prior art keywords
input signal
formants
spectrum
formant
whisper
Prior art date
Application number
KR1020127007484A
Other languages
English (en)
Inventor
이언 빈스 맥러플린
하미드 레자 슈리프자데
파르자네 아마디
Original Assignee
난양 테크놀러지컬 유니버시티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 난양 테크놀러지컬 유니버시티 filed Critical 난양 테크놀러지컬 유니버시티
Publication of KR20120054081A publication Critical patent/KR20120054081A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Abstract

속삭임(whisper)을 포함하는 입력 신호로부터 음성을 재구성하기 위한 시스템이 제공된다. 이 시스템은 입력 신호의 표현을 형성하기 위해 입력 신호를 분석하는 분석 유닛, 입력 신호의 스펙트럼을 조절하기 위해 입력 신호의 표현을 변경하는 보강 유닛, 및 입력 신호의 변경된 표현으로부터 음성을 재구성하는 합성 유닛을 포함하며, 입력 신호의 스펙트럼의 조절에서는, 스펙트럼 내의 하나 이상의 포먼트(formant)에 대해 미리 정해진 스펙트럼 에너지 분포 및 진폭을 달성하기 위해, 하나 이상의 포먼트의 대역폭이 변경된다.

Description

속삭임을 포함하는 입력 신호로부터 음성을 재구성하는 방법 및 시스템{A METHOD AND SYSTEM FOR RECONSTRUCTING SPEECH FROM AN INPUT SIGNAL COMPRISING WHISPERS}
본 발명은 속삭임을 포함하는 입력 신호로부터 음성을 재구성하는 방법 및 시스템에 관한 것이다. 입력 신호는 속삭임 전부를 포함하거나, 단속적인 속삭임을 갖는 정상적으로 발음된 음성이 될 수 있거나, 언어 장애가 있는 사람들에 의해 행해진 속삭이는 듯한 음성을 포함할 수 있다.
음성 생성 과정은 성도 및 비강을 통해 공진하고 입을 통해 나오는 가변 피치 신호를 생성하기 위해 성문을 통해 나오는 폐의 내쉼으로 시작한다. 성도강, 구강 및 비강 내에서, 벨럼, 혀 및 입술 위치는 음성 사운드를 형성하는 데에 중요한 역할을 한다. 이들을 집합적으로 성도 모듈레이터(vocal tract modulator)라고 한다.
속삭이는 음성(즉, 속삭임)은, 예를 들어 모바일 폰을 통한 조용하고 개인적인 대화의 형태로서 사용될 수 있다. 준언어적 현상으로서, 속삭임은 상이한 문맥으로 사용될 수 있다. 다른 사람을 방해하지 않고 또는 사서의 시선을 끌지 않으면서 속삭이길 원하는 도서관과 같이, 또렷한 대화를 원하지만 정상 음성의 큰 소리가 금지된 상황이 있을 수 있다. 또한, 속삭임은 후두 장애가 있는 사람을 위한 필수적인 대화 수단이다. 속삭임은 인식성과 이해 정도가 떨어지는 것이 일반적이다. 정상적으로 발음된 음성과 속삭임 간의 주요한 차이는 속삭임에는 성대 떨림이 없다는 것이다. 이것은 속삭일 때 성대 떨림이 생리적으로 막힌 경우 또는 병이 있을 때에 질병이나 질병 치료에 의해 성대를 제거하였거나 발성 계의 질병에 의해 성대가 막힌 경우에 생길 수 있다.
공공 장소에서의 모바일 폰을 사용할 때에, 모바일 폰을 사용하는 동안에 속삭이는 것에 의해 생길 수 있는 개인적인 대화의 필요가 생길 수 있다. 현재, 속삭이는 음성을 듣는 사람은 재구성된 음성 신호의 품질 및 이해도가 낮게 된다. 따라서, 속삭이는 입력을 사용하여 더 정상적으로 발성되는 음성을 재생성해서, 속삭이는 음성의 내용을 대화의 상대방이 더 또렷하게 알아들을 수 있도록 할 필요가 있다. 이러한 재구성은 신호 전송에 앞서 이루어지는 것이 바람직한데, 음성 통신 시스템은 전체적으로 완전히 발음된 음성용으로 구성되므로, 신호 전송에 앞서 완전한 음성 신호로 하는 것이 더 양호하게 될 것이다.
속삭임은 또한 후두 장애를 가진 사람들의 일반적인 대화 방식이다. 후두 전 절제 환자는, 많은 경우에, 성문을 잃었으며 성도를 통한 날숨을 통과시키기 위한 조절이 되지 않는다. 이에 반해, 후두 부분 절제 환자는 성도를 통한 날숨을 어느 정도 조절할 수는 있지만, 성문의 기능이 남아 있지 않은 것이 일반적이다. 성대 주름을 포함하는 성문이 없어도, 환자는 상부 성도를 조절할 수 있다. 다시 말해서, 음성 생성 장치의 대부분을 그대로 유지한다. 따라서, 날숨을 조절함으로써, 속삭일 수 있다.
따라서, 자연적인 속삭임 음성의 재구성은 대화부터 생체 공학까지의 여러 과학적 영역에서 여러 용도에 유용하다. 그러나, 음성 처리 분야에서의 진보 및 발전에도, 속삭이는 음성과 그 응용에 관한 연구는 음성 처리 문헌에서 거의 찾을 수 없다. 따라서, 유용한 응용임에도, 속삭임으로부터 자연적인 음성의 재구성에 관한 몇 가지 중요한 관점은 아직 해결되지 않고 있다. 또한, 이러한 유형의 음성 재생성은 모리스(Morris)에 의한 MELP 코덱 내에서 속삭임으로부터 정상 음성을 합성하는 주목할만한 예를 제외하고는 거의 성과를 내지 못하고 있다. Morris가 제안한 방식은 미세 스펙트럼 보강을 수행하지만, 시스템을 구성하는 재구성 및 피치 삽입 메커니즘은 상기 설명한 경우에서와 같은 실시간 용도로는 적합하지 않다. 이것은 피치 예측의 경우, Morris의 방법은 정상 음성 샘플을 속삭임 샘플과 비교하고 피치 및 유성음 파라미터를 추정하기 위한 점프 Markov 선형 시스템(JMLS)을 추적하는 얼라이닝 기술을 구현하기 때문이다. 그러나, 이들 모두 속삭임이 있는 상황에서, 즉, 후두 절제 환자의 속삭임 및 개인적인 모바일 폰 통신의 경우에, 대응하는 정상 음성 샘플은 비교 및 재생성 목적에는 사용될 수 없다.
본 개시에 의하면, 속삭임(whisper)을 포함하는 입력 신호로부터 음성을 재구성하기 위한 시스템이 제공된다. 본 시스템은, 입력 신호의 표현을 형성하기 위해 입력 신호를 분석하는 분석 유닛; 입력 신호의 스펙트럼을 조절하기 위해 입력 신호의 표현을 변경하는 보강 유닛(enhancement unit); 및 입력 신호의 변경된 표현으로부터 음성을 재구성하는 합성 유닛을 포함하며, 입력 신호의 스펙트럼의 조절에서는, 스펙트럼 내의 하나 이상의 포먼트(formant)에 대해 미리 정해진 스펙트럼 에너지 분포 및 진폭을 달성하기 위해, 하나 이상의 포먼트의 대역폭이 변경된다.
다른 개시에 의하면, 속삭임을 포함하는 입력 신호로부터 음성을 재구성하기 위한 방법이 제공된다. 본 방법은, 입력 신호의 표현을 형성하기 위해 입력 신호를 분석하는 단계; 입력 신호의 스펙트럼을 조절하기 위해 입력 신호의 표현을 변경하는 단계; 및 입력 신호의 변경된 표현으로부터 음성을 재구성하는 단계를 포함하며, 입력 신호의 스펙트럼의 조절에서는, 스펙트럼 내의 하나 이상의 포먼트(formant)에 대해 미리 정해진 스펙트럼 에너지 분포 및 진폭을 달성하기 위해, 하나 이상의 포먼트의 대역폭이 변경된다.
상기 언급한 입력 신호는 대화에서 말하는 사람으로부터의 음성 신호의 일부만을 포함할 수 있다. 대화의 청취자에게 전달될 최종적으로 재구성된 음성은 상기 개시에서 제공되는 시스템 및 방법으로부터 재구성된 음성과 음성 신호의 나머지 부분(여러 방식으로 처리될 수도 처리되지 않을 수도 있음)을 조합함으로써 형성될 수 있다.
또한, 상기 개시에 의해 제공되는 시스템 및 방법으로부터 재구성된 음성은 (i)대화의 청취자에 대해 재생될 수 있거나, (ii)대화의 청취자에게 전달되기 전에 속삭임의 비율에 따라 혼합될 수 있다. (i)의 경우가 더 일반적이다.
하나 이상의 포먼트에 대한 미리 정해진 스펙트럼 에너지 분포 및 진폭을 달성하기 위해 스펙트럼 내의 하나 이상의 포먼트의 대역폭을 변경하는 것이 바람직하다. 이것은 소정의 속삭임 음성 성분의 에너지를 증가시키고, 이에 의해 재구성된 음성과 정상적으로 발성된 음성 간의 스펙트럼 에너지의 차가 향상될 수 있고, 재구성된 음성은 더 자연스러운 음성이 될 수 있다.
하나 이상의 포먼트의 주파수를 유지하면서 하나 이상의 포먼트의 대역폭을 변경하는 것이 바람직하다. "유지"한다는 것은, 하나 이상의 포먼트의 주파수가 그 대역폭을 변경하는 동안에도 일정하게 된다는 것이다. 이것은 속삭임 음성 성분의 에너지를 증가시키는 동안 포먼트 궤적을 평탄하게 하는 데에 도움이 된다. 또한, 이것은 재구성된 음성의 이해 정도를 향상시킬 수 있고, 재구성된 음성의 자연스러움을 크게 증가시킨다.
미리 정해진 스펙트럼 에너지 진폭은 속삭임 음성의 스펙트럼 에너지와 정상적으로 발성된 음성의 스펙트럼 에너지 간의 추정된 차에 기초하여 유도된다. 이것은 속삭임 음성과 정상적으로 발성된 음성 간의 스펙트럼 에너지의 차를 더 정확하게 보상할 수 있게 한다.
본 발명을 더 잘 이해하고 용이하게 실시할 수 있도록 하기 위해, 예시적인 실시예에 의해 설명할 것이며, 이러한 설명은 첨부 도면을 참조한다.
도 1은 본 발명의 실시예에 의한, 속삭임을 포함하는 입력 신호로부터 음성을 재구성하기 위한 시스템을 나타낸다.
도 2는 속삭임을 포함하는 모은 /a/의 스펙트럼과 정상적으로 발음된 유성음을 가진 모음 /a/의 스펙트럼을 나타낸다.
도 3의 (a) 및 (b)는 도 1의 시스템의 속삭임 활동 검출로부터의 출력과 도 1의 시스템의 속삭임 음소 분류 유닛으로부터의 출력의 예를 각각 나타낸다.
도 4는 도 1의 시스템의 스펙트럼 보강 유닛의 블록도를 나타낸다.
도 5는 도 4의 스펙트럼 보강 유닛에서 추출된 포먼트의 확률 질량 함수와 입력 속삭임 모음(/a/)의 속삭임 음성 프레임이 되는 입력을 가진 추출된 포먼트의 포먼트 궤적 간의 관계를 나타낸다.
도 6의 (a) 및 (b)는 도 4의 스펙트럼 보강 유닛에서의 처리 이전 및 이후의 속삭임 이중 모음 (/e/) 및 속삭임 모음 (/i/)에 대한 포먼트 궤적을 각각 나타낸다.
도 7의 (a) 및 (b)는 도 4의 스펙트럼 보강 유닛에서의 스펙트럼 조절 이전의 원본 속삭임 포먼트 궤적과 스펙트럼 조절 이후의 평활화된 포먼트 궤적을 각각 나타낸다.
도 8의 (a) 및 (b)는 도 1의 시스템에 의해 수행되는 재구성 이전 및 이후의 속삭임 문장의 분광 사진을 각각 나타낸다.
도 1은 본 발명의 실시예에 따라 속삭임을 포함하는 입력 신호로부터 음성을 재구성하기 위한 시스템(100)을 나타낸다.
도 1에 나타낸 바와 같이, 시스템(100)은 속삭임 활동 검출기(whisper activity detector: WAD)(102)의 형태를 갖는 제1 전처리 유닛과 속삭임 음소 분류 유닛(104)의 형태를 갖는 제2 전처리 유닛을 포함하는 다수의 전처리 모듈을 구비한다. 시스템(100)은 스펙트럼 보강 유닛(106)의 형태로 된 보강 유닛과, 분석 유닛과 합성 유닛을 구비하는 분석-합성 유닛(108)을 포함한다. 시스템(100)에서, 분석 유닛은 입력 신호를 분석해서 입력 신호의 표현을 형성하도록 구성되며, 스펙트럼 보강 유닛(106)은 입력 신호의 표현을 변경해서 입력 신호의 스펙트럼을 조절하도록 구성되고, 합성 유닛은 입력 신호의 변경된 표현으로부터 음성을 재구성하도록 되어 있다.
표준 CELP에서 전형적으로 생성되고 사용되는 장기 예측(long term prediction: LTP) 출력은 시스템(100)에서는 사용되지 않는다(분석 유닛으로부터의 LTP 출력으로부터의 스트라이킹에 의해 나타낸 것 등). 대신에, 합성 유닛에 대한 LTP 입력은 분석 유닛 내의 "피치 추정"(pitch estimate)을 사용하여 재생성된다. 또한, 표준 CELP 유닛에서 전형적으로 생성되고 사용되는 라인 스펙트럼 페어(line spectral pair: LSP)을 사용하는 대신에, 시스템(100)에서는, 선형 예측 계수(linear prediction coefficient: LPC)(LSP가 정상적으로 형성됨)가 조절된다. 이것은 LSP를 분석 유닛의 출력에서의 LPC로 대체한 것으로 나타낸다.
시스템(100)은 이하에 상세하게 설명하는 바와 같이 일부 속삭임 음성 특징을 고려한다. 시스템(100)의 여러 부분에 대하여 더 구체적으로 설명할 것이다.
속삭임 음성 특징
속삭임 음성의 생성 모델과 속삭임 음성 특징 간의 관계를 개략적으로 설명한다. 또한 속삭임 음성의 음향 및 스펙트럼 특징에 대해 개략적으로 설명한다.
속삭임 생성의 메커니즘은 유성음 음성과는 다르다. 따라서, 속삭임은 분석-합성 유닛(108)의 분석 및 합성에 앞서 전처리 단계를 구현하는 경우에 고려하는 것이 바람한 자신만의 속성을 갖는다.
용어 "속삭임 음성"(whispered speech)에 대한 고유의 정의는 없다. "속삭임 음성"은 부드러운 속삭임(soft whisper)과 고성의 속삭임(stage whisper)으로 크게 분류할 수 있다. 이들은 약간 다르다. 부드러운 속삭임(조용한 속삭임)은 다른 사람의 귀에 속삭이는 등에 의해 인지를 의도적으로 감소시키기 위해 정상적으로 말하는 사람에 의해 이루어지며, 일반적으로는 편안하고 용이하게 사용된다. 이들은 성대 주름의 떨림이 없이도 만들어지며, 일상 생활에서 많이 사용되며, 후두 절제 환자에 의해 만들어진 속삭임의 형태와 유사하다. 한편, 고성의 속삭임은 듣는 사람이 말하는 사람으로부터 어느 정도 떨어져 있을 때에 사용된다. 고성의 속삭임을 만들기 위해, 음성은 의도적으로 속삭이는 듯이 말해야 한다. 성대 주름의 떨림을 필요로 하는 일부 부분적인 발성이 고성의 속삭임에 속한다. 시스템(100)은 부드러운 속삭임을 위해 구성되었지만, 시스템(100)의 입력 신호에서의 속삭임은 고성의 속삭임의 형태로도 된다.
속삭임 음성의 특징은, a)속삭임 음성이 만들어지는 방법으로부터 생기는 음향적 특징(여기, 소스 필터 모델 등), 및 b)정상 음성과 비교되는 스펙트럼 특징과 관련해서 고려될 수 있다.
a) 속삭임 음성의 음향적 특징
속삭임의 물리적 특징은 성대의 떨림이 없다는 것이다. 따라서, 정상 음성에서의 기본적인 주파수와 고조파는 속삭임 음성에서는 없는 것이 일반적이다. 소스 필터 모델을 사용해서, 성대 떨림을 방지하기 위해 조절되는 인두(pharynx)의 형상을 가진, 속삭임 음성에서의 여기(excitation)의 소스로서 날숨(exhalation)이 식별될 수 있다.
성문이 외전(abduct)되거나 부분적으로 외전된 경우, 성문 구성을 통해 공기의 빠른 흐름이 있다. 이러한 흐름은 성문 위의 성도(vocal tract)의 벽에 닿는 분사를 형성한다. 음성 생성 과정에서의 열린 성문은 요동 잡음(turbulence noise)이 속삭임 음성 시스템의 기본적인 여기가 되는 분산된 여기 소스로서 작용하는 것으로 알려져 있다. 따라서, 불규칙한 요동 공기 흐름은 속삭임의 소스가 되며, 풍부한 "쉬음"(hushing sound)이 생긴다.
속삭일 때에 성문 레벨에서 생기는 것에 대해 여러 가지 설명이 있다. 캣포드(Catford), 칼라일(Kallail) 및 엠마누엘(Emanuel)은 속삭일 때에 성대 주름이 좁아지는 슬릿형 또는 약간 더 내전(adduct)되는 것으로 설명했다. Tartter는 정상적인 유성음과 비교해서 더 열린 성문에 의해 "속삭임 음성"이 만들어진다고 말했다. Weitzman은 "연골 성문이 열린 동안 세포막 성문의 좁아짐(또는 닫히는 경우)에 의해 만들어지는" 것을 속삭임 모음으로 정의했다.
Solomon 등은 후두(larynx)의 비디오테이프를 사용해서 10개의 피검체에서 속삭이는 동안의 후두음 구성을 연구했다. 성대 주름 떨림을 관찰한 3가지는 다음과 같다: i)성대 주름은 뒤집힌 V자 또는 좁은 슬릿형을 갖는다, ii)성대 주름은 뒤집힌 Y자형을 갖는다, iii)전치 성문의 보잉(bowing)이 관찰되었다. Solomon은 부드러운 속삭임의 생성 동안 성대 주름이 중간 뒤집힌 V자 패턴을 갖는다는 결론을 내렸다.
Morris는 속삭임 음성을 설명하기 위해 성문과 폐를 포함하도록 소스 필터 모델이 성문을 넘어 확장되어야 한다고 말했다. 또한, Morris는 속삭임 음성의 소스가 단일의 속도 소스는 아닐 것이라고 말했다. 대신에, 열린 성문을 모델화하기 위해 분산된 사운드 소스를 사용하는 것이 더 적절하다.
b)속삭임 음성의 스펙트럼 특징
속삭임 음성 모드에서의 여기는 대부분 열린 성문을 통해 내쉰 공기에 의해 생성된 요동 흐름에 기인하기 때문에, 그 결과로서의 신호는 여기된 피치가 아니라 여기된 잡음이다. 성문 개방의 다른 결과는 성문하 기도(subglottal airways)에 대한 상부 성도의 음향 결합이다. 성문하 시스템은 닫힌 성문을 가진 이들의 자연 주파수에 의해 정해진 일련의 공진을 갖는다. 이들 자연 주파수의 처음 3개의 평균값은 성인 여성의 경우 대략 700, 1650, 및 2350Hz로 추정되며, 성인 남성의 경우에는 600, 1550, 및 2200Hz로 추정되었다. 이들의 구성요소들 간에 실질적인 차이가 있다.
이들 성문하 공진은 추가의 극 영점(pole-zero) 쌍을 성문 소스 입력으로부터 입 입력까지의 성도 전달 기능에 추가하는 것을 나타낸다. 이들 극 영점 쌍의 가장 명백한 음향 징후는 출력 스펙트럼에서의 추가의 피크 또는 프라미넌스의 출현이다. 때때로, 추가의 영(zero)은 입력 스펙트럼에서의 추가의 최소값으로서 명백하다.
속삭임 음성 사운드의 스펙트럼은 정상적으로 발음된 음성 사운드에 대한 스펙트럼에서의 피크와 개략적으로 동일한 주파수에서의 일부의 피크를 나타낸다는 것이 관찰되었다. 그러나, 속삭임 음성 사운드의 스펙트럼에서, "포먼트"(즉, 피크)가 플래터 파워 주파수 분포에 따라 일어나며, 기본 주파수에 대응하는 명백한 고조파가 없다.
도 2는 정상적으로 발음된 유성음을 가진 모음 /a/의 스펙트럼(202)과 속삭임(바닥)을 가진 모음 /a/의 스펙트럼(204)을 나타낸다. 두 가지 경우에, 모듬은 단일의 시팅 동안에 단일의 청취자에 대해 말한 것이다. 평활화한 스펙트럼 오버레이(206, 208)에 의해 나타낸 바와 같이, 포먼트 피크는 정상적으로 발음된 유성음을 가지고 말한 모음의 스펙트럼(202)과 속삭임으로 말한 모음의 스펙트럼(204)에서 유사한 위치에 존재한다. 그러나, 속삭임으로 말한 모음의 스펙트럼(202)에서의 포먼트 피크는 덜 발음된다. 또한, 오버레이 선형 스펙트럼 쌍(LSP)(예를 들어, 210, 212)은 도 2에 나타낸 바와 같이 속삭임 음성에 대해 더 넓은 간격을 나타낸다.
속삭임 모음은 정상적으로 발성된 모음과 다르다. 모든 포먼트 주파수(중요한 3개의 제1 포먼트 주파수를 포함)는 속삭임 모음보다 더 높은 경향이 있다. 특히, 속삭임 음성과 완전히 발성된 음성 간의 가장 큰 차이는 제1 포맷 주파수(F1)에 있다. Lehiste의 보고서에 의하면, 속삭임 모음의 경우, 정상적으로 발성된 모음에 대한 대응하는 포먼트에 비해, F1은 대략 200-250Hz 더 높고 제2 및 제3 포먼트 주파수(F2, F3)는 대략 100-150Hz더 높다. 또한, 일반적으로 더 높은 포먼트의 진폭이 낮은 포먼트의 진폭보다 작은 발성된 모음과 달리, 속삭임 모음은 제1 포먼트 정도의 강도인 제2 포먼트를 갖는 것이 일반적이다. 이들의 차이(주로 제1 포먼트 주파수 및 진폭에서)는 속삭일 때에 성도(경직되게 유지된 성대를 포함)의 후위 부위의 형태에서의 변경에 기인하는 것으로 생각된다.
시스템(100)은 속삭임 음성이 생성되는 것으로부터 생기는 음향 특징과 속삭임 음성의 스펙트럼 특징에 관하여 상기 정상 음성과 속삭임 음성 간의 차이를 고려한다. 특히, 시스템(100)은 정상 음성을 위해 구성된 통신 장치 및 응용 장치에서 효과적으로 작용하도록 속삭임 음성을 적용하는 변경을 구현한다.
시스템(100)의 전처리 모듈(102, 104)
시스템(100)에서, 전처리 모듈(102, 104)은 분석-합성 유닛(108)에 대한 입력 신호를 보강하고 준비한다. 이들 전처리 모듈(102, 104)의 구현은 상기 언급한 속삭임 음성의 스펙트럼 특성과 특별한 특징을 고려한다.
속삭임 활동 검출기( WAD )(102)
WAD(102)의 형태인 제1 전처리 유닛은 입력 신호에서의 음성 활동을 검출한다. "음성 활동"(speech activity)은 말하는 사람이 말을 할 때나 말하려고 할 때(예를 들어, 말하는 사람이 후두적제 환자인 경우)에 나타난다. 말하는 사람이 속삭일 때, "음성 활동"은 "속삭임 활동"이라고 할 수 있다.
WAD(102)는 G.729 정상 유성음 활동 검출기와 유사하지만, 정상 유성음 활동 검출기와는 다르다. 이것은 속삭임 음성 신호를 수용한다. WAD(102)는 검출 메커니즘 또는 다수의 검출 메커니즘을 포함할 수 있으며, 이에 의해 WAD(102)의 출력은 검출 메커니즘의 각각의 출력에 의존한다. 음성 활동이 없을 때의 잡음 임계의 통계는 속삭임 음성을 수용하도록 변경될 수 있다.
일례로, WAD(102)는 제1 및 제2 검출 메커니즘을 포함하며, 이들 제1 및 제2 메커니즘으로부터의 출력이 조합되어 WAD(102)의 출력을 형성한다. 제1 및 제2 검출 메커니즘은 입력 신호의 에너지(즉, 신호 파워)와 입력 신호의 영교차율에 기초하여 작용하도록 각각 구성되다. 이들 검출 메커니즘은 WAD(102) 출력의 정확성을 향상시키도록 작용한다.
제1 검출 메커니즘은, 예를 들어, 다음의 것이 될 수 있다.
* 파워 분류기: 이것은 입력 신호의 평활화된 차분 파워에 기초하여 작용한다. 이것은 입력 신호에서의 속삭임, 잡음 및 사일런스를 구분하기 위해 2개의 적응 임계와 입력 신호의 시간 도메인 에너지를 비교한다: 또는
* 주파수-선택 파워 분류기: 이것은 분석 중인 신호 내의 2개 이상의 상이한 주파수 영역 사이에서의 파워율을 판정한다.
속삭임 음소 분류 유닛(104)
속삭임 음소 분류 유닛(104)의 형태인 제2 전처리 유닛은 입력 신호 내의 음소를 분류한다. 속삭임 음소 분류 유닛(104)은 속삭임 음성 입력을 수용하기 위해 전형적인 코덱 내에 정상 유성음/무성음 검출 유닛을 대체한다. 속삭임 내에 유성음 세그먼트가 없을 가능성이 크기 때문에, 속삭임 음소 분류 유닛(104)은 음소 분류에 기초해서 유성음/무성음 가중 유닛으로 구현되고, 이에 의해 알고리즘이 무성음의 가중치가 파열음 또는 무성음 마찰음을 검출할 때에는 무성음의 가중치가 높고 알고리즘이 모음을 검출할 때에는 낮다. 이러한 가중화는 분석-합성 유닛(108)(이하에 상세하게 설명함)의 분석 유닛에서 구현되는 후보 피치 삽입을 판정하는 데에 사용될 수 있다.
속삭임 음소 분류 유닛(104)은 높은 주파수의 초 단위 범위에서 입력 신호의 파워에 대하여 낮은 주파수의 제1 범위 내에서의 입력 신호의 파워를 비교한다. 입력 신호에서의 음소는 이러한 비교에 기초하여 분류된다.
일례로, 검출된 음성 활동을 가진 입력 신호의 각각의 부분은 일련의 대역통과 필터를 사용해서 낮은 주파수(예를 들어, 3kHz 이하)의 작은 대역과 높은 주파수(예를 들어, 3kHz 이상)의 작은 대역으로 분류된다. 이들 부분은 음성의 음, 음소, 이중모음 또는 다른 작은 단위의 형태가 될 수 있다. 다음으로, 이들 주파수 대역들 간의 파워를 서로 비교하고 이러한 비교를 사용해서, 입력 신호의 각각의 부분의 음소를 마찰음, 파열음 또는 모음으로 분류한다. 예를 들어, 6-7.5kHz 범위에 비해 1-3kHz 범위의 더 높은 에너지 집중(즉, 파워)은 모음 사운드의 존재를 나타낸다. 속삭임 음소 분류 유닛(104)에서, 파열음에서 잠시의 침묵 이후에 에너지의 분출이 있는지 여부 등과 같은 다른 조건에서, 더 정확한 결과를 산출하는 것이 고려될 수 있다.
도 3의 (a), (b)는 입력 신호가 무반향실에서 단어 단위로 속삭임 음성 모드에서 발성된 TIMIT 데이터베이스로부터의 문장(구체적으로, "she had your dark suit in greasy wash water all year")인 경우, 속삭임 음소 분류 유닛(104)으로부터의 출력(308)과 WAD(102)로부터의 출력(304, 306)을 각각 나타낸다. 도 3의 (a)에서, WAD(102)의 출력(304, 306)은 입력 신호(302)에 중첩되고, 검출된 음성 활동의 시작(304)(굵은 선)과 종료(306)(점선)를 나타낸다. 도 3의 (b)에서, 속삭임 음소 분류 유닛(104)의 출력(308)은 입력 신호(302)에 중첩된다. 출력(308)은 속삭임 음소 분류 유닛(104)에 의한 분류의 결과를 나타낸다. 특히, 1의 출력(308)은 파열음의 검출을 나타내며, 0.5의 출력(308)은 마찰음의 검출을 나타내고, 0의 출력(308)은 모음의 검출을 나타낸다.
속삭임 음소 분류 유닛(104)은 속삭임 전이음과 비음 식별을 위해 제공하도록 더 향상될 수 있다. 또한, 속삭임 음소 분류 유닛(104)은 분류 임계(예를 들어, 소정의 음소의 존재 여부를 나타내는, 파워, 주파수 대역, 영교차율 등 간의 여러 경험적으로 정해진 고정된 비율)과 스피커에서의 이들 분류 임계의 의존성의 수동적 판정을 제거함으로써 향상될 수 있다. 그러나, 이들 향상이 없어도, 본 발명의 실시예는 속삭임으로부터 음성 재구성을 위한 충분히 정확한 결과를 산출한다.
스펙트럼 보강 유닛(106)
시스템(100) 내의 분석 유닛은 입력 신호의 표현을 형성하기 위해 입력 신호를 분석한다. 스펙트럼 보강 유닛(106)은 이러한 입력 신호의 표현을 변경해서 입력 신호의 스펙트럼을 조정한다. 스펙트럼 보강 유닛(106)은 음성 재구성 동안 스펙트럼 조저을 위한 신규 방법을 채택한다.
속삭임 음성으로부터의 발성된 음성의 재구성은 스펙트럼 변경을 필요로 할 수 있다. 정상적으로 발성된 음성에 비해 속삭임 음성의 크게 낮은 신호대 잡음비(SNR)에 부분적으로 기인하여, 속삭임 음성에 대한 성도 파라미터의 추정치가 정상적으로 발성된 음성에 대한 것보다 훨씬 높은 편차를 갖는다. 앞서 언급한 바와 같이, 속삭임 음성에 대한 성도 응답은 여기된 잡음이며, 이것은 정상적으로 발성된 음성에 대한 성도 응답과 다르며, 성도는 펄스 열에 의해 여기된다. 낮은 SNR과 잡음이 많은 환경에서의 모먼트 추정에 대한 보고된 곤란함에 추가로, 앞서 설명한 것과 같은 속삭임 음성의 본질은 기관 연결에 의한 부정확한 포먼트 산출을 야기시킨다. 열린 성문에 의해 생성된 성도와 기관 간의 증가된 연결(흡인 과정과 유사)은 성도 전달 기능에서의 추가의 극 및 제로의 형성을 유도할 수 있다. 이들 차이는 속삭임 음성으로부터 발성된 음성의 재생성에 영향을 줄 수 있으며, 성도(즉, 포먼트)에서의 공진의 불안정이 귀에 더 뚜렷하게 될 때에의 모음 재구성에 일반적으로 더 중요하다.
피치 삽입을 위한 속삭임을 포함하는 입력 신호를 준비하기 위해, 입력 신호의 스펙트럼(즉, 스펙트럼 특징)이 이러한 입력 신호의 스펙트럼에서의 포먼트가 일반적으로 무질서하게 되고 속삭임에서의 잡음이 많은 물질, 배경 및 여기에 의해 불명확하게 될 때에 조정된다. 스펙트럼 보강 유닛(106)은 이러한 조정을 제공한다.
스펙트럼 보강 유닛(106)에서, 포먼트 스펙트럼 로커스는 음성 인식에서의 포먼트 스펙트럼 대역폭보다 더 중요한 것으로 알려져 있기 때문에, 포먼트 트랙 평활기는 중요한 프레임간 단계적 변경 없이 평탄한 포먼트 궤적을 보장하도록 구현된다. 스펙트럼 보강 유닛(106)은 속삭임 유성음 세그먼트의 포먼트를 추종하고, 오버샘플링되고 중첩된 포먼트 검출을 사용하여, 후속하는 음성 블록 내의 포먼트의 궤적을 평활하게 한다.
일례로, 스펙트럼 보강 유닛(106)은 선형 예측(LP) 계수 루팅 해법의 방법에 기초하여 포먼트를 입력 신호의 스펙트럼 내에서 찾는다. 이어서, 이들 찾은 포먼트로부터 하나 이상의 포먼트를 추출하고 추출한 하나 이상의 포먼트의 대역폭을 변경한다.
자기 회귀(AR) 알고리즘은 음성 스펙트럼의 포먼트에 극이 대응하는 전극(all-pole) LP 시스템을 식별한다. LP 계수(LPC)는 분석-합성 유닛(108)의 분석 유닛에서의 분석에 의해 유도되며, 분석 유닛으로부터 입력 신호의 표현의 일부를 형성한다. 이들 LPC는 도 1에 나타낸 바와 같이 스펙트럼 보강 유닛(106)에 입력되며, 이하에 나타낸 것과 같이 식 (1)을 형성한다. 식 (1)의 근을 얻을 수 있으며, 음성 스펙트럼의 포먼트에 대응하는 극이 이들 근으로부터 정해진다.
Figure pct00001
식 (1)은 실수 계수를 가진 p차 다항식이며 일반적으로 복소 공액 쌍의 p/2 근을 갖는다. 극은
Figure pct00002
로 기재하며, 식 (1)의 ith 근에 대응하는 포먼트 주파수 F와 대역폭 B은 식 (2)와 (3)으로 쓴다.
Figure pct00003
Figure pct00004
식 (2)와 식 (3)에서, θi와 ri는 z-도메인에서의 식 (1)의 ith 근의 각도 및 반경을 각각 나타낸다.
Figure pct00005
를 식 (3)에 대입함으로써, 식 (3)을 간단히 식 (4)로 나타낼 수 있다.
Figure pct00006
도 4는 스펙트럼 보강 유닛(106)의 블록도를 나타낸다. 스펙트럼 보강 유닛(106)은 포먼트 추정 유닛(402), 포먼트 추출 유닛(404), 평활화 및 시프터 유닛(406), LPC 합성 유닛(408) 및 대역폭 향상 유닛(410)을 포함한다.
포먼트 추정 유닛(402)
p가 포먼트의 수보다 크면, 식 (1)의 근은 포먼트과 일부 스퓨리어스 극(spurious pole)을 포함한다. 포먼트 추정 유닛(402)은 식 (1)의 근으로부터 포먼트를 찾는다.
포먼트 추정 유닛(402)에서, 포먼트 주파수(즉, 포먼트 위치)는 이하의 단계에 따라 극의 클러스터 중에서 가장 작은 대역폭을 갖는 복소 극(complex pole)의 위상에 의해 근사(approximate)된다. 극의 대역폭은 스펙트럼 공지의 피크의 3dB 이하의 극의 스펙트럼 공진의 폭을 의미한다.
일례로, 식 (1)의 각 근에 대한 피크 비율에 대한 대역폭을 계산한다. 큰 비율을 갖는 근(입력 신호가 속삭임 음성을 포함할 때에 일반적으로 될 수 있음) 또는 실수 축에 위치하는 근은 일반적으로 스퓨리어스 근이다. 따라서, 허수 축(imaginary axis) 상에 있으며 피크 비율에 대해 더 작은 대역폭을 갖는 미리 정해진 다수의 근이 포먼트로서 분류된다. 이들 위치된 포먼트는 속삭임에서의 잡음이 많은 여기의 결과로서 시간에 따른 잡음 분포(궤적)를 나타낼 수 있다. 스펙트럼 보강 유닛(106)의 다른 유닛(404, 406, 408, 410)은 이러한 잡음의 영향을 제거하고, 잡음이 제거된 포먼트 트랙이 대응하는 대역폭에 관해서가 아니라 포먼트 주파수에 관해서 더 정확해지도록 변경을 적용한다.
속삭임을 포함하는 입력 신호에서의 포먼트 평활화를 달성하기 위해 신규한 방식이 스펙트럼 보강 유닛(106)의 이들 유닛(404, 406, 408, 410)에서 구현된다. 일례로, 포먼트의 잡음이 많은 패턴으로부터의 포먼트가 확률 함수에 기초하여 추출되어 포먼트 궤적을 구축한다. 이들 유닛(404, 406, 408, 410)에서, 포먼트 주파수가 먼저 극 밀도에 기초하여 변경되고, 대응하는 대역폭은 속삭임 음성과 발성된 음성 간의 선험적인 파워 스펙트럼에 기초하여 조절된다.
이하의 설명에서, "세그먼트" 및 "프레임"은 다음과 같이 정의한다. 구체적으로 말해서, "세그먼트"는 입력 신호에서의 해밍 윈도우(hamming window)를 채택함으로써 추출되는 Nms 입력 신호의 블록으로서 정의되며, "프레임"은 M개의 중첩하는(최대 95% 중첩) 세그먼트의 시퀀스로서 정의된다. "프레임"은 몇 개의 세그먼트를 포함할 수 있다.
포먼트 추출 유닛(404)
스펙트럼 조절에 대한 이전의 방법에 비해 더 자연스럽게 발성되는 음성을 얻기 위해, 확률 질량 함수(probability mass function: PMF)를 적용해서 포먼트 추출 유닛(404) 내에 더 평활한 포먼트 궤적을 얻을 수 있다.
포먼트 추정 유닛(402)에서 식 (2)와 (4)를 사용함으로써 각각의 세그먼트에 대해 근 찾기의 방법을 수행해서, 식 (5)에 나타낸 것과 같은 N개의 대응하는 대역폭과 N개의 포먼트 주파수를 얻게 된다.
Figure pct00007
입력 신호의 각각의 프레임(M개의 중첩하는 세그먼트)에 대한 결과로서, 포먼트 구조가 얻어지고 식 (6)에 나타낸 것과 같은 F 및 B 행렬로 나타낸다. 일례로, 입력 신호의 각 프레임에 대한 포먼트 구조는 S=[F, B]T이다.
Figure pct00008
식 (6)에서의 포먼트 트랙 행렬 F의 행은 잡음에 의해 오류가 생긴 발성된 음성의 프레임의 N개의 포먼트의 트랙인 것으로 고려할 수 있다.
이후, 행렬 F는 평활화기(smoother)에 대해 작용된다. 먼저, 모먼트 출현의 확률 질량 함수(PMF)가 유도된다. 일례로, PMF는 4kHz 이하의 주파수 범위에 대해 유도된다. PMF (p(f))를 식 (7)에 나타내고, 스펙트럼에서의 각 주파수에서 생기는 포먼트의 확률을 나타낸다. 이것은 스펙트럼 내의 각 주파수에서 발견되는 포먼트 피크에 기초하여 산출된다.
Figure pct00009
다음으로, 다수의 정상 주파수 대역이 입력 신호의 스펙트럼 내에 위치된다. 정상 주파수 대역은 포먼트를 포함하도록 예측된 주파수 대역으로서 정의되며, 일례로 정상적으로 발성된 음성 신호로부터 유도된다. 각각의 정상 주파수 대역은 다수의 좁은 주파수 대역 δ으로 분할된다.
좁은 주파수 대역 δ 내의 밀도 함수 D[f1,f2]를 식 (8)에서 정의한다. 식 (8)에 나타낸 바와 같이, 밀도 함수 D[f1,f2]는 좁은 주파수 대역 δ 내의 확률 p(f)의 합계를 산출한다.
Figure pct00010
밀도 함수 D[f1,f2]를 사용하여, 소수(예를 들어, 3개)의 제1 포먼트가 추출된다. 포먼트 추출 유닛(404)은 추출된 포먼트가 위치하는 주파수 대역의 마진에서 생길 수 있는 신호의 포먼트형 단편(formant-like fragment)을 제거한다.
식 (9)에 나타낸 바와 같이, 각각의 정상 주파수 대역 [a,b](a는 200이고 b는 1500이 될 수 있음), [b,c] 또는 [c,d]에 대해, 포먼트가 위치할 수 있는 최빈 주파수 범위가 좁은 주파수 대역 [f1,f2]으로 추정되며, 이에 의해, 밀도 값 D([f1,f2])가 가장 높다. 식 (9)의 "argmax" 함수는 가장 높은 밀도 값 D([f1,f2])를 갖는 좁은 주파수 대역 [f1,f2]에 피크를 위치시킨다. 이러한 피크에서의 포먼트가 추출된다. 다시 말해서, 추출된 포먼트는 가장 높은 밀도를 가진 좁은 주파수 대역 내에 있는 공진 피크이다. 낮은 밀도 값을 가진 좁은 주파수 대역은 속삭임 잡음으로부터 생기며, 따라서 부적절한 것으로 간주되어 무시된다.
Figure pct00011
소정 개수의 포먼트(식 (9)에서, 3개의 제1 포먼트)가 정해진 후에, 남은 포먼트(즉, 포먼트 추정 유닛(402) 내의 포먼트로서 분류된 남은 근)가 폐기되고, 식 (6)으로부터 F의 열이 재정렬됨으로써, 제1, 제2 및 제3 포먼트가 각각 F의 제1, 제2 및 제3 컬럼을 차지한다. 추출된 포먼트의 주파수 Fi mod를 식 (10)에 따라 표현할 수 있다.
Figure pct00012
상기 포먼트 변경은 직접 변경 방식으로 보일 수 있지만, 포먼트 주파수를 구축하고 이들의 확률에 기초해서 가중화하는 것은 극 상호작용 문제를 피하는 데에 도움이 된다.
어려운 임계 제한을 피하기 위해, 다음과 같은 점에 주의하는 것이 바람직하다. D(f) 피크의 다수의 배치, 병합 및 분할이 수행되어, 포먼트를 가장 포함할 것 같은 몇 개의 가장 중요한 주파수 범위를 만들 수 있다. 예를 들어, 하나의 포먼트에 대해 정의된 범위에 대한 다수의 배치는 인접한 범위에 중요한 피크가 없는 경우에 허용된다. 밀접하게 인접한 포먼트의 경우에, 범위(즉, 포먼트가 위치하도록 허용되는 좁은 주파수 대역)는 서로 중첩되도록 설정될 수 있고 중첩에 대한 정확한 결정을 통해 나중에 분리될 수 있다. 다른 문제는 포먼트 그룹의 병합 및 분할에 관한 소정의 조건을 설정함으로써 해결되는 오버에지(over-edge) 포먼트 밀도이다.
도 5는 포먼트 추출 유닛(404)으로부터 추출된 포먼트(즉, 밀도 함수를 적용한 후에 추출된 포먼트)의 PMF와 추출된 3개의 포먼트의 포먼트 궤적(포먼트 위치 패턴) 사이의 관계를 나타내며, 입력은 입력 속삭임 모음(/a/)의 속삭임 음성 프레임이다. 도 5로부터 알 수 있는 바와 같이, 입력 신호의 각각의 중첩된 세그먼트에 대한 제1, 제2 및 제3 포먼트의 포먼트 궤적은 PMF의 피크 주위의 좁은 주파수 대역 내에 위치한다. 일부 스퓨리어스 포인트는 이들 좁은 주파수 대역의 밖에서 발견될 수 있다. 그러나, 이러한 스퓨리어스 포인트는 전형적으로 낮은 파워를 가지며, 속삭임에서의 높은 주파수 공진이 정상 음성에서의 높은 주파수 공진보다 상대적으로 훨씬 높은 파워를 갖는다는 것이 잘 알려져 있다(예를 들어, 도 5의 대략 1500Hz에서의 피크를 참조). 이러한 정보를 사용하여, 스퓨리어스 포인트를 식별하고 제거할 수 있다.
평활화기 시프터 유닛(406)
평활화기 및 시프터 유닛(406)에서, 평활화 알고리즘은 잡음의 영향을 감소시키기 위해 시간에 따라 추출된 포먼트에 의해 형성된 포먼트 궤적에 적용된다. 평활화 알고리즘은 Savitzky-Golay 필터링 또는 임의의 이와 유사한 타입의 필터링을 채택할 수 있다. 그 결과, 평활화된 궤적이 메디언 필터링 단을 사용하여 필터링된다. 이후, 추출된 포먼트의 주파수가 속삭임 포먼트 시프팅 알고리즘의 선형 해석에 기초하여 낮아진다(즉, 아래로 시프트된다).
LPC 합성 유닛(408)
입력 신호의 각각의 세그먼트에 대하여, 성도의 전달 함수의 LP 계수는 3개의 추출된 제1 포먼트를 나타내는 6개의 복소 공액 극과 주파수 대역에 위치하는 6개의 다른 극을 사용하여 LPC 합성 유닛(408) 내에서 합성된다. 6개의 다른 극의 위치를 식별하기 위한 여러 전략이 있다. 예를 들어, 랜덤 배치, 등거리 배치, 또는 추출된 포먼트 주위에 모인 극을 위치시키는 것 등이 있다. 일반적인 목표는 다른 6개의 극이 추출된 포먼트에 악영향을 미치지 않도록 하는 것이다.
추출된 포먼트로부터 유도된 상기 LP 계수는 스펙트럼 보강 유닛(106)으로부터의 입력 신호의 변경된 표현의 일부를 형성한다. 합성 유닛은 입력 신호의 이러한 변경된 표현으로부터 음성을 재구성한다.
대역폭 향상 유닛(410)
대역폭 향상 유닛(410)은 추출된 포먼트의 대역폭(즉, 극 ri의 반경)에 비례 향상(proportionate improvement)을 적용한다. 대역폭 향상 유닛(410)에서, 향상(즉, 대역폭 변경)은 포함된 포먼트 주파수와 이들의 에너지가 감쇄된 속삭임을 넘어 우세하도록 개선되는 방식으로 수행된다.
일례로, 대역폭 향상 유닛(410)은 속삭임 음성에 필요한 고려를 유지할 필요뿐만 아니라 속삭임 및 정상 음성의 스펙트럼 에너지에서의 차이를 고려한다. 본 예에서, 포먼트 추출 유닛(404)으로부터 추출된 각각의 포먼트의 대역폭은 포먼트에 대해 미리 정해진 스펙트럼 에너지 분산 및 진폭을 달성하도록 변경된다. 미리 정해진 스펙트럼 에너지 진폭은 속삭임 음성의 스펙트럼 에너지와 정상적으로 발성된 음성의 스펙트럼 에너지 간의 추정된 차에 기초하여 유도될 수 있다.
식 (2)-(4)에 개시된 것과 같은 특징을 갖는 극은 식 (11)과 (12)에 나타낸 바와 같이, 전달 함수 H(z)와 파워 스펙트럼
Figure pct00013
를 갖는다.
Figure pct00014
Figure pct00015
식 (13)은 N개의 극이 있을 때의 총 파워 스펙트럼
Figure pct00016
을 나타낸다.
대역폭 향상 유닛(410)에서, 극의 반경은 추출된 포먼트의 포먼트 다항식의 스펙트럼 에너지가 특정된 스펙트럼 타겟 값과 동일하도록 변경된다. 이러한 특정된 스펙트럼 타겟 값은 정상 음성과 속삭임 음성 간의 추정된 스펙트럼 에너지 차에 기초하여 유도된다. 예를 들어, 속삭임 음성의 스펙트럼 에너지는 동등한 발성된 음성의 스펙트럼 에너지보다 20dB 작은 값이 될 수 있다.
소정의 반경과 각도를 가진 포먼트 극에 대하여, 식 (13)에 기초해서, 추출된 포먼트의 각도 θi mod에서의 포먼트 다항식 H(z)의 스펙트럼 에너지값은 식 (14)를 사용해서 산출되고, 여기서
Figure pct00018
는 스펙트럼 에너지이고, N은 추출된 포먼트에 대응하는 포먼트 극의 총 개수이다.
Figure pct00019
식 (14)에 나타낸 바와 같이, 포먼트 다항식 H(z)의 스펙트럼 에너지에는 2개의 스펙트럼 성분(식 (14)의 우측)이 있다. 이들 스펙트럼 성분 중의 하나는 각도 θi mod를 가진 극 자체에 의해 생성되며, 다른 스펙트럼 성분은 각도 θj mod를 가진 남은 극으로부터의 영향을 반영한다. 식 (14)를 풀어서, ith 극에 대한 대응하는 각도 θi mod를 유지하면서, ith 극에 대한 새로운 반경을 찾을 수 있다. 또한, 시스템의 안정성을 유지하기 위해, ri가 유니티(unity)를 초과하면, 그 상호 값이 대신 사용된다. 각각의 극에 대한 변경된 반경 ri mod는 식 (15)를 사용하여 산출되며, 여기서 Hi mod는 극에 대한 타겟 스펙트럼 에너지를 나타낸다.
Figure pct00020
일례로, 포먼트 근이 복소 공액 쌍이기 때문에, 양의 각도를 가진 포먼트 근의 반경만이 식 (15)를 사용하여 변경된다. 이들 포먼트 근의 공액 부분이 계속해서 취득된다. 식 (15)를 사용하는 반경 변경 과정은 각도가 가장 작은 극으로 시작하고 모든 반경이 변경될 때까지 계속된다.
이러한 기간 중의 임의의 시점에서, 추출된 포먼트는 이들의 주파수, 이들의 대역폭 및 이들이 주파수 스펙트럼에 어떻게 퍼져 있는지와 같은 중요한 특징에 의해 기술될 수 있다. 추출된 포먼트의 주파수와 이들의 변경된 대역폭(식 (4)에서 변경된 반경을 사용하여 유도됨)을 식 (5)에 삽입함으로써, 속삭임 음성에 대하여 향상되고 평활화된 포먼트 구조 Smod가 취득된다. Smod는 정상적으로 발음된 음성 발성의 포먼트 구조와 유사하기 때문에, 여러 코덱, 음성 인식 엔진 및 정상 음성용으로 구성된 다른 용도에 용이하게 사용될 수 있다. LPC 합성 유닛(408)에서 합성된 LP 계수는 이들이 합성 유닛에 입력되기 전에 추출된 포먼트의 변경된 대역폭을 사용하여서도 변경될 수 있다.
도 6의 (a) 및 (b)는 속삭임 모음(/i/)과 속삭임 이중모음(/ie/)에 대한 포먼트 궤적을 각각 나타낸다(도 6의 (b)의 도표의 오른쪽으로 이중모음의 전이가 있음에 주의). 도 6의 (a) 및 (b)는 스펙트럼 보강 유닛(106) 내에 스펙트럼 조절 기술을 적용하기 전의 포먼트 궤적과, 스펙트럼 조절 기술을 적용한 이후의 평활화된 포먼트 궤적을 나타낸다. 도 6의 (b)에 나타낸 바와 같이, 본 발명의 실시예에 따른 스펙트럼 조절 기술은 이중모음으로 발음된 포먼트의 전이 모드에서도 효과적이다. 또한, 비공식 청취 테스트는 본 발명의 실시예에 의해 재구성된 모음 및 이중모음이 직접 LSP 변경 방식에 의해 재구성된 것들에 비해, 훨씬 더 자연스럽다는 것을 나타낸다.
분석-합성 유닛(108)
도 1에 나타낸 바와 같이, 속삭임 음성은 시스템(100) 내의 분석-합성 유닛(108) 내에서의 재구성을 위한 분석/합성 코딩 기법을 통해 이루어진다. 분석-합성 유닛(108)은 분석 유닛과 합성 유닛을 포함한다.
표준 CELP 코덱에서, 음성은 제로-평균 가우스 후보 여기 시퀀스의 코드북으로부터 선택된 여기 신호를 필터링함으로써 생성된다. 필터링된 여기 신호는 피치 정보를 전달하도록 장기 예측(LTP) 필터에 의해 정형된다. 속삭임 음성 재구성을 위해, 분석-합성 유닛(108)은 속삭임 음성으로부터의 자연적인 음성 재생성을 위해 변경된 CELP 코덱을 사용한다. 변경된 CELP 코덱을 사용함으로써, 시스템(100)은 기존의 전기통신 시스템에 더 용이하게 결합될 수 있다. 시스템(100)에서, 분석 유닛은 입력 신호로부터의 이득, 피치 및 LP 계수를 판정하며, 합성 유닛은 이들 이득, 피치 및 LPC로부터 음성형 신호(speech-like signal)를 재생성한다.
많은 CELP 코덱 내에서, LP 계수는 인간의 성도의 상호연결된 튜브 모델 내의 2개의 공진 상태를 기술하는 라인 스펙트럼 쌍(line spectral pairs: LSPs)으로 변환된다. 이들 2개의 공진 상태는 성문에서 완전히 열린 또는 완전히 닫힌 모델화된 성도에 각각 대응한다. 실제로, 인간의 성문은 정상 음성 동안에는 신속하게 열리고 닫히기 때문에, 실제의 공진은 2개의 극단적인 상태 사이 중에 일어난다. 그러나, 이것은 속삭임 음성에 대해서는 그렇지 않을 수 있다(성문은 완전한 떨림이 아니기 때문에).
따라서, 시스템(100) 내에 LSP를 사용하는 대신에, 앞서 설명한 바와 같이, 입력 신호의 변경된 표현은 포먼트 추출 유닛(404)을 사용하여 추출된 포먼트로부터 유도된 다수의 LP 계수를 포함한다(LSP는 사용될 수 있지만, LSP의 사용에 의해 효율이 낮아질 수 있다). 합성 유닛은 추출된 포먼트로부터 유도된 다수의 선형 예측 계수를 사용하여 음성을 재구성한다.
또한, 표준 CELP 코덱과 달리, 분석-합성 유닛(108)의 분석 유닛은 "피치 템플릿"(pitch template) 유닛 및 "피치 추정"(pitch estimate) 유닛을 포함한다. 이들 유닛을 사용해서, 분석 유닛은 피치를 재구성된 음성에 삽입하기 위한 장기 예측 전달 함수를 변경한다. 이것은 분석-합성 유닛(108)의 합성 유닛의 LTP 합성 필터에 대한 입력이 되는 피치 인자를 생성함으로써 수행된다. 일례로, LTP 전달 함수의 변경은 속삭임 음소 분류 유닛(106)에 의한 입력 신호에서의 음소의 분류에 기초한다.
장기 상관을 생성하는, CELP 내에서 LTP에 대해 사용된 식은, 실제 피치 여기에 의한 것인지 여부에 따라, 식 (16)에 개시되며, 여기서 P(z)는 LTP 합성 필터의 전달 함수를 나타내며, β는 피치 스케일링 인자(즉, 피치 성분의 세기)를 나타내며, D는 피치 기간을 나타내고, I는 탭의 수를 나타낸다.
Figure pct00021
정상적으로 발음된 음성을 사용하여, 파라미터 β 및 D가 유도되었고 그 결과는 음성의 무성음 샘플에 있다는 것은 나타내며, D는 랜덤한 변화를 가지며, β는 작고, 음성의 유성음 샘플 내에 있다는 것을 나타내고, D는 β가 큰 값을 갖는 동안 피치 지연의 값 또는 고조파를 갖는다.
피치를 추정하기 위해, 속삭임 음소 분류 유닛(104)의 출력을 사용해서 유성음/무성음 음성이 존재하는지 여부를 판정한다. 유성음/무성음 음성의 존재를 판정하는 데에 포먼트 카운트 과정이 사용될 수 있다. 속삭임 음성에서도, 구분이 가능하기는 하지만, 2가지 타입의 음성의 스펙트럼 패턴 간의 차는 작기 때문에, 속삭임 음성의 작은 의사-포먼트는 2개 타입의 음성에 대해 상이할 수 있으며, 공진(유성음) 및 비공진(무성음) 음소에 대응하는 크게 구분되는 포먼트에 중첩될 수 있다.
무성음 음소에 대하여, D의 평균에 가까운 랜덤하게 바이어스된 D가 식 (16)에 사용되어, 피치된 여기 신호를 정형하고, 유성음 음소에 대해서는 평균 D와 그 2차 고조파(2D)가 이중모음 탭(즉, I=2) LTP 필터에 사용되어 피치된 여기 신호(즉, LTP 합성 필터의 전달 함수 P(z))를 정형한다.
단조로운 음성이 생성되는 것을 피하기 위해, P(z) 내의 파라미터 D에 낮은 주파수 변조가 적용되어, 유성음 세그먼트, 특히 모음에서의 약간의 피치 변화를 유도하며, 정상적으로 발음된 음성에서도, 플랫 피치(flat pitch)가 존재할 것이다. 일례로, 낮은 주파수 사인파 패턴이 사용된다. 이 패턴은 재구성된 음성의 길이와 원하는 시퀀스에 의존할 것이다.
일례로, 속삭임 음소 분류 유닛(104)으로부터의 분류 결과를 사용해서, 파열음 또는 무성 마찰음이 이력 신호의 세그먼트에서 검출되면, 변경된 CELP 알고리즘은 세그먼트 내의 이득만을 변경하고 세그먼트를 재합성한다. 그렇지 않다면, 입력 신호의 세그먼트는 피치가 없는 유성음(모음 및 유성 마찰음)인 것으로 간주하며, 이 경우, 스펙트럼 보강 유닛(106)을 이용하는 스펙트럼 조정과 식 (16)을 이용하는 피치 추정이 이 세그먼트에서 수행된다.
이와 달리, H.R. Sharifzadeh, I.V. McLoughlin, F.Ahmadi, "Regeneration of speech in voice-loss patients", in Proc. of ICBME, vol. 23, 2008, pp.1065-1068에 개시된 바와 같이 포먼트 위치와 진폭에 기초하여 피치 추정을 위한 여러 기술을 구현할 수 있다. 상기 문헌의 내용을 본원에 참조에 의해 원용한다.
실험 결과
무반향실에서 형성되고 16kHz로 샘플링된 속삭임 음성을 포함하는 입력 신호에 대해 12차 선형 예측 분석을 수행하였다. 성도 분석에 대해 20ms의 프레임 구간을 사용하였으며(총 320개의 샘플), 세그먼트 사이에서 95%가 중첩된 프레임을 스펙트럼 보강 유닛(106)에서 포먼트를 위치시키고 추출하는 데에 사용하였다. CELP LTP 피치 필터의 β 및 D는 식별된 유성음 음소에 대해 대략 130Hz의 피치 주파수를 생성하도록 조절하였다. 상기 식 (16)에 의해 설명한 피치 삽입 기술을 사용하였다.
도 7의 (a) 및 (b)는 입력 신호가 무반향실에서 단어 단위로 속삭임 음성 모드에서 발성된 TIMIT 데이터베이스로부터의 문장 "she had your dark suit in greasy wash water all year"인 경우, 스펙트럼 보강 유닛(106) 내의 스펙트럼 조절 이전의 원본 속삭임 포먼트 궤적과 스펙트럼 조절 이후의 평활화된 포먼트 궤적을 각각 나타낸다.
도 8의 (a) 및 (b)는 시스템(100)에 의해 수행된 재구성 이전 및 이후의 속삭임 문장(무반향실에서 단어 단위로 속삭임 음성 모드에서 발성된 TIMIT 데이터베이스로부터의 "she had your dark suit in greasy wash water all year")의 분광 사진을 각각 나타낸다. 도 8의 (b)에 나타낸 바와 같이, 모음과 이중모음은 스펙트럼 보강 유닛9108) 내에서의 속삭임-유성음 변환 내에서의 포먼트 추출 및 시프팅을 고려해서 효과적으로 재구성된다.
도 7과 도 8에 나타낸 바와 같이, 속삭임을 포함하는 입력 신호가 시스템(100)에 제공되면, 시스템(100)의 출력은 속삭임의 이해할 수 있는 유성음 버전이고 자연적인 발성이다. 시스템(100)의 출력의 포먼트 도표와 분광 사진은 시스템(100)이 상대적으로 뚜렷한 음성을 생성하는 것을 나타낸다. 피치 변경에서의 더 자연스러움에 의해 그리고 출력에서의 빠른 연속하는 음성을 더 잘 지원함으로써, 시스템(100)의 재생성 방법을 더 개선할 수 있다. 또한, 시스템(100)은 유성음과 무성음 음서 사이에서의 더 평활한 전이를 달성하도록 개선될 수 있다. 그러나, 이러한 개선이 없어도, 시스템(100)으로부터 재구성된 음성은 충분히 또렷하다.
실시예의 장점은 다음과 같다.
속삭임을 포함하는 입력 신호로부터의 정상 음성의 재생성은 후두 장애를 가진 환자에게 큰 도움이 되며, 개인 모바일 전화를 사용하는 분야에도 적용가능하다. 이러한 입력 신호로부터 음성을 재구성하기 위한 시스템(100)을 사용할 때에, 정상 음성 샘플링은 필요하지 않다. 또한, 시스템(100)은 이러한 재구성을 실시간으로 또는 거의 실시간으로 수행한다.
또한, 시스템(100)은 속삭임을 포함하는 입력 신호를 조정하기 위한 전처리 모듈(일례로, WAD(102)와 속삭임 음소 분류 유닛(104)을 포함하는 2개의 지원 모듈)을 포함함으로써, 변경된 CELP 코덱으로 더 효과적으로 처리될 수 있다.
이상에 의해, 시스템(100)은 속삭임 음성으로부터 정상적으로 발성된 음성을 실시간으로 재구성하는 개선된 방법을 구현한다. 이 방법은 재구성 과정 동안 스펙트럼 조정과 포먼트 평활화를 위한 방법을 포함한다. 일례로, 속삭임에서의 신뢰성 있는 포먼트 궤적을 식별하고 이에 따라 스펙트럼 변경을 적용하기 위해 확률 질량-밀도 함수를 사용한다. 이러한 기술을 사용함으로써, 본 발명의 실시예는 포먼트에 기초하여 신규한 CELP 기반의 변경과 피치 분석 및 합성 방법을 사용하여 속삭임으로부터 자연적인 발성을 성공적으로 재구성할 수 있다.
속삭임 음성의 특징을 분석하고 포먼트 위치를 재구성하고 피치 신호를 재삽입하기 위한 방법을 사용함으로써, 본 발명의 신규한 실시예는, 앞서 설명한 바와 같이, 변경된 CELP 코덱 구조 내에서 속삭임으로부터 정상 음성의 실시간 합성을 사용하여 속삭임 음성-정상 음성에 대한 공학적 방식을 구현한다. 변경된 CELP 코덱은 완전히 발성된 음성으로 발음하도록 속삭임 음성의 특징을 조절하는데에 사용된다.
본 발명의 실시예는 재생성 과정 내의 스펙트럼 조절과 포먼트 평활화를 위한 신규한 방법을 제시한다. 이에 의하면, 본 발명의 실시예에서의 스펙트럼 조절 방법을 적용함에 의한 평활화된 포먼트 궤적으로부터 알 수 있다. 평활화된 궤적은 모음과 이중모음을 재구성하는데 있어서 시스템(100)의 효율을 향상시킨다. 예를 들어, 스펙트럼 조절 이전 및 이후의 속삭임 문장에 대한 포먼트 궤적과 동일 문장에 대해 재구성된 분광 사진이 시스템(100)의 효율을 나타낸다.
상기 설명은 개시된 실시예에 관한 것이지만, 당업자라면 본 발명의 범위를 벗어남이 없이 설계, 구성 및/또는 동작에 대한 많은 변경이 가능하다는 것을 이해할 수있을 것이다.

Claims (24)

  1. 속삭임(whisper)을 포함하는 입력 신호로부터 음성을 재구성하기 위한 시스템에 있어서,
    입력 신호의 표현을 형성하기 위해 상기 입력 신호를 분석하는 분석 유닛;
    상기 입력 신호의 스펙트럼을 조절하기 위해 상기 입력 신호의 표현을 변경하는 보강 유닛(enhancement unit); 및
    상기 입력 신호의 변경된 표현으로부터 음성을 재구성하는 합성 유닛
    을 포함하며,
    상기 입력 신호의 스펙트럼의 조절에서는, 스펙트럼 내의 하나 이상의 포먼트(formant)에 대해 미리 정해진 스펙트럼 에너지 분포 및 진폭을 달성하기 위해, 상기 하나 이상의 포먼트의 대역폭이 변경되는 것을 특징으로 하는 시스템.
  2. 제1항에 있어서,
    상기 입력 신호 내의 음성 활동(speech activity)을 검출하는 제1 전처리 유닛; 및
    상기 입력 신호 내의 음소(phoneme)를 분류하는 제2 전처리 유닛을 더 포함하는, 시스템.
  3. 제2항에 있어서,
    상기 제1 전처리 유닛은 다수의 검출 메커니즘을 포함하고, 상기 제1 전처리 유닛의 출력은 상기 검출 메커니즘의 각각의 출력에 의존하는, 시스템.
  4. 제3항에 있어서,
    상기 다수의 검출 메커니즘은 상기 입력 신호의 에너지에 기초한 제1 검출 메커니즘과 상기 입력 신호의 영교차율(zero crossing rate)에 기초한 제2 검출 메커니즘을 포함하는, 시스템.
  5. 제2항 내지 제4항 중 어느 한 항에 있어서,
    상기 제2 전처리 유닛은, 제1 범위의 주파수에서의 상기 입력 신호의 파워를 상기 제1 범위보다 큰 제2 범위의 주파수에서의 상기 입력 신호의 파워와 비교하고, 상기 비교에 기초하여 상기 입력 신호에서의 음소를 분류하도록 구성된, 시스템.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 보강 유닛은,
    상기 분석 유닛 내에서 유도된 다수의 선형 예측 계수에 의해 형성된 등식의 근(root)을 구하고,
    상기 등식의 각각의 근에 대한 대역폭대 피크율(bandwidth to peak ratio)을 계산하며,
    허수 축(imaginary axis) 상에 있으며 작은 대역폭대 피크율을 갖는 미리 정해진 개수의 근을 상기 입력 신호의 스펙트럼 내에 위치된 포먼트로서 분류하는 단계에 따라 포먼트를 위치시키도록 구성된, 시스템.
  7. 제6항에 있어서,
    상기 보강 유닛은, 하나 이상의 포먼트의 대역폭을 변경하기 전에,
    위치된 포먼트를 사용하여 스펙트럼 내의 각각의 주파수에서 생기는 포먼트의 확률을 유도하는 단계,
    상기 스펙트럼 내의, 포먼트를 포함하는 것으로 예측되는 각각의 주파수 대역이 되는 다수의 표준 주파수 대역을 위치시키는 단계,
    상기 스펙트럼 내의 각각의 표준 주파수 대역을 다수의 좁은 주파수 대역으로 분할하는 단계, 및
    상기 스펙트럼 내의 각각의 표준 주파수에 대하여, 상기 표준 주파수 대역에서의 각각의 좁은 주파수 대역에 대한 밀도를 좁은 주파수 대역에서의 유도된 확률의 합계로서 계산하고, 상기 하나 이상의 포먼트를 가장 높은 밀도를 갖는 좁은 주파수 대역 내에 있는 공진 피크로서 추출하는 단계에 따라, 상기 위치된 포먼트로부터 하나 이상의 포먼트를 추출하도록 구성된, 시스템.
  8. 제7항에 있어서,
    상기 보강 유닛은,
    상기 하나 이상의 포먼트의 궤적을 평활화하고,
    상기 하나 이상의 포먼트의 평활화된 궤적을 필터링하며,
    상기 하나 이상의 포먼트의 주파수를 낮추는 단계를 수행하도록 구성된, 시스템.
  9. 제7항 또는 제8항에 있어서,
    상기 입력 신호의 변형된 표현은 상기 하나 이상의 포먼트로부터 유도된 다수의 선형 예측 계수를 포함하며, 상기 합성 유닛은 다수의 선형 예측 계수를 사용하여 음성을 재구성하도록 구성된, 시스템.
  10. 제9항에 있어서,
    상기 합성 유닛은 상기 제2 전처리 유닛에 의해 상기 입력 신호에서의 음소의 분류에 기초하여, 피치를 재구성된 음성에 삽입하기 위한 장기 예측 전달 함수를 변경하도록 구성된, 시스템.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    미리 정해진 스펙트럼 에너지 진폭은 속삭임 음성의 스펙트럼 에너지와 정상적으로 발성된 음성의 스펙트럼 에너지 간의 추정된 차에 기초하여 유도되는, 시스템.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    상기 보강 유닛은 하나 이상의 포먼트의 주파수를 유지하면서, 상기 하나 이상의 포먼트의 대역폭을 변경하도록 구성된, 시스템.
  13. 속삭임을 포함하는 입력 신호로부터 음성을 재구성하기 위한 방법에 있어서,
    입력 신호의 표현을 형성하기 위해 상기 입력 신호를 분석하는 단계;
    상기 입력 신호의 스펙트럼을 조절하기 위해 상기 입력 신호의 표현을 변경하는 단계; 및
    상기 입력 신호의 변경된 표현으로부터 음성을 재구성하는 단계를 포함하며,
    상기 입력 신호의 스펙트럼의 조절에서는, 스펙트럼 내의 하나 이상의 포먼트(formant)에 대해 미리 정해진 스펙트럼 에너지 분포 및 진폭을 달성하기 위해, 상기 하나 이상의 포먼트의 대역폭이 변경되는 것을 특징으로 하는 방법.
  14. 제13항에 있어서,
    상기 입력 신호를 분석하기 전에,
    상기 입력 신호 내의 음성 활동(speech activity)을 검출하는 단계; 및
    상기 입력 신호 내의 음소(phoneme)를 분류하는 단계를 더 포함하는 방법.
  15. 제14항에 있어서,
    상기 입력 신호에서의 음성 활성의 검출은 다수의 검출 메커니즘을 사용하여 수행되며, 상기 입력 신호에서의 음성 활동의 검출의 출력은 상기 검출 메커니즘의 각각의 출력에 의존하는, 방법.
  16. 제15항에 있어서,
    상기 다수의 검출 메커니즘은 상기 입력 신호의 에너지에 기초한 제1 검출 메커니즘과 상기 입력 신호의 영교차율(zero crossing rate)에 기초한 제2 검출 메커니즘을 포함하는, 방법.
  17. 제14항 내지 제16항 중 어느 한 항에 있어서,
    상기 입력 신호에서 음소를 분류하는 단계는,
    제1 범위의 주파수에서의 상기 입력 신호의 파워를 상기 제1 범위보다 큰 제2 범위의 주파수에서의 상기 입력 신호의 파워와 비교하는 단계와, 상기 비교에 기초하여 상기 입력 신호에서 음소를 분류하는 단계를 포함하는, 방법.
  18. 제13항 내지 제17항 중 어느 한 항에 있어서,
    상기 이력 신호의 분석으로부터 유도된 다수의 선형 예측 계수에 의해 형성된 등식의 근(root)을 구하며,
    상기 등식의 각각의 근에 대한 대역폭대 피크율(bandwidth to peak ratio)을 계산하고,
    허수 축(imaginary axis) 상에 있으며 작은 대역폭대 피크율을 갖는 미리 정해진 개수의 근을 상기 입력 신호의 스펙트럼 내에 위치된 포먼트로서 분류하는 것에 따라 포먼트를 위치시키는 단계를 더 포함하는 방법.
  19. 제18항에 있어서,
    하나 이상의 포먼트의 대역폭을 변경하기 전에,
    위치된 포먼트를 사용하여 스펙트럼 내의 각각의 주파수에서 생기는 포먼트의 확률을 유도하는 단계,
    상기 스펙트럼 내의, 포먼트를 포함하는 것으로 예측되는 각각의 주파수 대역이 되는 다수의 표준 주파수 대역을 위치시키는 단계,
    상기 스펙트럼 내의 각각의 표준 주파수 대역을 다수의 좁은 주파수 대역으로 분할하는 단계, 및
    상기 스펙트럼 내의 각각의 표준 주파수에 대하여, 상기 표준 주파수 대역에서의 각각의 좁은 주파수 대역에 대한 밀도를 좁은 주파수 대역에서의 유도된 확률의 합계로서 계산하고, 상기 하나 이상의 포먼트를 가장 높은 밀도를 갖는 좁은 주파수 대역 내에 있는 공진 피크로서 추출하는 단계에 따라, 상기 위치된 포먼트로부터 하나 이상의 포먼트를 추출하는 단계를 더 포함하는 방법.
  20. 제19항에 있어서,
    상기 입력 신호의 스펙트럼을 조절하는 단계는,
    상기 하나 이상의 포먼트의 궤적을 평활화하고,
    상기 하나 이상의 포먼트의 평활화된 궤적을 필터링하며,
    상기 하나 이상의 포먼트의 주파수를 낮추는 단계를 포함하는, 방법.
  21. 제19항 또는 제20항에 있어서,
    상기 입력 신호의 변형된 표현은 상기 하나 이상의 포먼트로부터 유도된 다수의 선형 예측 계수를 포함하며, 상기 스펙트럼에 의해 조절되고 분석된 입력 신호로부터 음성을 재구성하는 단계는 다수의 선형 예측 계수를 사용하여 음성을 재구성하는 단계를 포함하는, 방법.
  22. 제21항에 있어서,
    상기 입력 신호를 분석하는 단계는, 상기 입력 신호에서의 음소의 분류에 기초하여, 피치를 재구성된 음성에 삽입하기 위한 장기 예측 전달 함수를 변경하는 단계를 포함하는, 방법.
  23. 제13항 내지 제22항 중 어느 한 항에 있어서,
    미리 정해진 스펙트럼 에너지 진폭은 속삭임 음성의 스펙트럼 에너지와 정상적으로 발성된 음성의 스펙트럼 에너지 간의 추정된 차에 기초하여 유도되는, 방법.
  24. 제13항 내지 제22항 중 어느 한 항에 있어서,
    하나 이상의 포먼트의 대역폭은 상기 하나 이상의 포먼트의 주파수를 유지하면서 변경되는, 방법.
KR1020127007484A 2009-08-25 2010-08-25 속삭임을 포함하는 입력 신호로부터 음성을 재구성하는 방법 및 시스템 KR20120054081A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US23668009P 2009-08-25 2009-08-25
US61/236,680 2009-08-25

Publications (1)

Publication Number Publication Date
KR20120054081A true KR20120054081A (ko) 2012-05-29

Family

ID=43628268

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127007484A KR20120054081A (ko) 2009-08-25 2010-08-25 속삭임을 포함하는 입력 신호로부터 음성을 재구성하는 방법 및 시스템

Country Status (5)

Country Link
US (1) US20120150544A1 (ko)
EP (1) EP2471064A4 (ko)
KR (1) KR20120054081A (ko)
SG (1) SG178344A1 (ko)
WO (1) WO2011025462A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190133325A (ko) * 2018-05-23 2019-12-03 카페24 주식회사 음성인식 방법 및 장치

Families Citing this family (140)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
FR2961938B1 (fr) * 2010-06-25 2013-03-01 Inst Nat Rech Inf Automat Synthetiseur numerique audio ameliore
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
JP6047922B2 (ja) * 2011-06-01 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
EP2864983B1 (en) * 2012-06-20 2018-02-21 Widex A/S Method of sound processing in a hearing aid and a hearing aid
DE112012006876B4 (de) * 2012-09-04 2021-06-10 Cerence Operating Company Verfahren und Sprachsignal-Verarbeitungssystem zur formantabhängigen Sprachsignalverstärkung
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US20150127343A1 (en) * 2013-11-04 2015-05-07 Jobaline, Inc. Matching and lead prequalification based on voice analysis
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9510787B2 (en) 2014-12-11 2016-12-06 Mitsubishi Electric Research Laboratories, Inc. Method and system for reconstructing sampled signals
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) * 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US9680983B1 (en) * 2016-06-16 2017-06-13 Motorola Mobility Llc Privacy mode detection and response over voice activated interface
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
CN106409287B (zh) * 2016-12-12 2019-12-13 天津大学 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
CN109686378B (zh) * 2017-10-13 2021-06-08 华为技术有限公司 语音处理方法和终端
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10885929B2 (en) * 2018-02-05 2021-01-05 TS Voice Technology, LLC Computer-aided conversion system and method for generating intelligible speech
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
TWI730585B (zh) * 2019-01-16 2021-06-11 美商Ts聲音科技有限公司 電腦輔助轉換可理解語言的測試系統及其方法
DE102019102414B4 (de) 2019-01-31 2022-01-20 Harmann Becker Automotive Systems Gmbh Verfahren und System zur Detektion von Reibelauten in Sprachsignalen
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN110931037A (zh) * 2019-04-25 2020-03-27 南京师范大学 改进的Mel频率尺度与耳语音共振峰结合的耳语音增强算法
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11610596B2 (en) * 2020-09-17 2023-03-21 Airoha Technology Corp. Adjustment method of sound output and electronic device performing the same
CN113782009A (zh) * 2021-11-10 2021-12-10 中科南京智能技术研究院 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒系统
WO2024056899A1 (en) * 2022-09-16 2024-03-21 Spinelli Holding Sa System for improving the speech intelligibility of people with temporary or permanent speech difficulties

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4509186A (en) * 1981-12-31 1985-04-02 Matsushita Electric Works, Ltd. Method and apparatus for speech message recognition
US4922539A (en) * 1985-06-10 1990-05-01 Texas Instruments Incorporated Method of encoding speech signals involving the extraction of speech formant candidates in real time
UA41913C2 (uk) * 1993-11-30 2001-10-15 Ейті Енд Ті Корп. Спосіб шумозаглушення у системах зв'язку
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6487531B1 (en) * 1999-07-06 2002-11-26 Carol A. Tosaya Signal injection coupling into the human vocal tract for robust audible and inaudible voice recognition
EP1557827B8 (en) * 2002-10-31 2015-01-07 Fujitsu Limited Voice intensifier
AU2003283892A1 (en) * 2002-11-27 2004-06-18 Visual Pronunciation Software Limited A method, system and software for teaching pronunciation
US20060085183A1 (en) * 2004-10-19 2006-04-20 Yogendra Jain System and method for increasing recognition accuracy and modifying the behavior of a device in response to the detection of different levels of speech
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US20060167691A1 (en) * 2005-01-25 2006-07-27 Tuli Raja S Barely audible whisper transforming and transmitting electronic device
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
EP2063420A1 (en) * 2007-11-26 2009-05-27 EyeP Media S.A. Method and assembly to enhance the intelligibility of speech

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190133325A (ko) * 2018-05-23 2019-12-03 카페24 주식회사 음성인식 방법 및 장치

Also Published As

Publication number Publication date
US20120150544A1 (en) 2012-06-14
EP2471064A4 (en) 2014-01-08
SG178344A1 (en) 2012-03-29
WO2011025462A1 (en) 2011-03-03
EP2471064A1 (en) 2012-07-04

Similar Documents

Publication Publication Date Title
KR20120054081A (ko) 속삭임을 포함하는 입력 신호로부터 음성을 재구성하는 방법 및 시스템
Kane et al. Improved automatic detection of creak
Sharifzadeh et al. Reconstruction of normal sounding speech for laryngectomy patients through a modified CELP codec
Coleman Discovering the acoustic correlates of phonological contrasts
Yegnanarayana et al. Epoch-based analysis of speech signals
Suni et al. The GlottHMM speech synthesis entry for Blizzard Challenge 2010
McLoughlin et al. Reconstruction of continuous voiced speech from whispers.
Afroz et al. Recognition and classification of pauses in stuttered speech using acoustic features
Mathur et al. Significance of parametric spectral ratio methods in detection and recognition of whispered speech
Perrotin et al. Glottal flow synthesis for whisper-to-speech conversion
Ahmadi et al. Analysis-by-synthesis method for whisper-speech reconstruction
Raitio et al. Phase perception of the glottal excitation and its relevance in statistical parametric speech synthesis
McLoughlin et al. Automated assessment of glottal dysfunction through unified acoustic voice analysis
Sharifzadeh Reconstruction of natural sounding speech from whispers
Sharifzadeh et al. Voiced Speech from Whispers for Post-Laryngectomised Patients.
Li et al. Formant comparison between whispered and voiced vowels in Mandarin
Koreman Decoding linguistic information in the glottal airflow
Sharifzadeh et al. Regeneration of speech in voice-loss patients
Deng et al. Speech analysis: the production-perception perspective
i Barrobes Voice Conversion applied to Text-to-Speech systems
Othaniel A phonetic study of breathy voicing in Dza
Thati et al. Analysis of breathy voice based on excitation characteristics of speech production
Ali et al. Esophageal speech enhancement using excitation source synthesis and formant structure modification
Vishnubhotla Detection of irregular phonation in speech
Nakamura et al. Enhancement of esophageal speech using statistical voice conversion

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid