KR100511248B1 - 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법 - Google Patents

음성인식에서 화자 내 정규화를 위한 진폭 변경 방법 Download PDF

Info

Publication number
KR100511248B1
KR100511248B1 KR10-2003-0038102A KR20030038102A KR100511248B1 KR 100511248 B1 KR100511248 B1 KR 100511248B1 KR 20030038102 A KR20030038102 A KR 20030038102A KR 100511248 B1 KR100511248 B1 KR 100511248B1
Authority
KR
South Korea
Prior art keywords
amplitude
speaker
pitch
normalization
voice
Prior art date
Application number
KR10-2003-0038102A
Other languages
English (en)
Other versions
KR20040107173A (ko
Inventor
홍광석
Original Assignee
홍광석
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 홍광석 filed Critical 홍광석
Priority to KR10-2003-0038102A priority Critical patent/KR100511248B1/ko
Priority to PCT/KR2003/001216 priority patent/WO2004111999A1/en
Priority to AU2003244240A priority patent/AU2003244240A1/en
Publication of KR20040107173A publication Critical patent/KR20040107173A/ko
Application granted granted Critical
Publication of KR100511248B1 publication Critical patent/KR100511248B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 화자 정규화를 위한 새로운 화자 내 워핑(warping) 인수 추정을 통하여 피치 변경발성에 따른 진폭 정규화를 달성함으로써, 음성인식 응용 제품에서 사용자의 목소리에 적합한 인식 모델을 적용, 또는 인식기에 화자적응 기법으로 적용하여 인식률의 향상을 도모하는 동시에 음성인식 응용 제품의 신뢰도를 향상시킬 수 있도록 한 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법에 관한 것이다.
이를 위해, 본 발명은 화자 내 피치 변경 발성으로부터 변형되지 않은 음성의 특징 공간 분포들은 성문과 성도에 의해 발생하는 음성의 음향학적 차이로 인하여 다양하게 나타나므로, 입력화자의 입력피치와 참조피치 사이의 역비율을 계산하여 진폭 워핑 팩터를 결정하고; 상기 진폭 워핑 팩터를 이용하여 삼각필터의 높이를 조절하면서 진폭을 조절하는 동시에 전체 주파수 축 상에서 진폭의 기울기가 결정되도록 한 것을 특징으로 하는 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법을 제공한다.

Description

음성인식에서 화자 내 정규화를 위한 진폭 변경 방법{An Amplitude Warping Approach to Intra-Speaker Normalization for Speech Recognition}
본 발명은 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법에 관한 것으로서, 더욱 상세하게는 화자 정규화를 위한 새로운 화자 내 워핑(warping) 인수 추정을 통하여 피치 변경발성에 따른 진폭 정규화를 달성함으로써, 음성인식 응용 제품에서 사용자의 목소리에 적합한 인식 모델을 적용, 또는 인식기에 화자적응 기법으로 적용하여 인식률의 향상을 도모하는 동시에 음성인식 응용 제품의 신뢰도를 향상시킬 수 있도록 한 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법에 관한 것이다.
통상적으로 화자의 성대의 성문에서는 목소리의 피치를 제어하는 것으로 알려져 있고, 반면에 성도는 포먼트(formant)를 통하여 모음들을 결정하고 또한 자음들을 조음시키는 것으로 알려져 있으며, 발성된 음성의 피치와 포먼트 성분들은 음성 신호에서 거의 독립적인 관계에 있다.
화자들간의 성도 모양 변이로 인한 음성인식 성능 저하를 줄이기 위한 노력으로, 화자 정규화에 주파수 워핑(warping) 기법이 연구되어 왔다. 즉, 화자 상호간의 차이로 인한 효과를 줄이기 위한 음성신호의 파라미터 성분 표현들을 정규화하기 위한 기술들이 연구되어 왔다.
이에, 화자들 사이의 포먼트 위치 변동을 보상하기 위하여 선형 및 비선형 주파수 워핑(warping) 함수들을 사용하여 정규화가 수행되었다. 이러한 절차들은 각 화자의 실제 성도 모양과 일치하고, 이러한 차이들을 위한 보상에 따라서 포먼트 위치 추정의 복잡한 문제를 해결하기 위하여 시도되었다.
히든 마코프 모델(Hidden Markov Model)에서 출력분포로써 가우시안 믹스쳐(mixture) 들을 사용할 때, 가장 중요한 문제들 중 하나는 다양한 화자 의존적인 스케일 인수들이 믹스쳐 분포들의 다형식에 의하여 모델이 구성되는 경향이 있다.
또한, 화자 간 요소는 음성인식에 있어서 중요한 역할을 하는 바, 화자 간 정규화를 필요로 하는 화자 적응을 위하여 성도 정규화(Vocal Tract Normalization)를 기반으로 한다. 이는 감정의 상태에 따른 피치 변경 발성에서 변동 보상에 의해 화자 간 음성의 변동을 줄이기 위하여 시도된다.
기존의 성도 정규화 방법은 화자 간 정규화의 정확성을 개선하기 위하여 매우 좋은 방법으로서, 화자간 정규화를 위한 주파수 축 정규화를 기반으로 한다.
여기서 화자간 정규화를 위한 주파수 축 정규화에 대하여 설명하면 다음과 같다.
VTN의 가장 중요한 사상은 인식 과정에서 음향학적 벡터들에서 화자 의존 가변성을 제거하기 위해 각각의 화자를 위한 음향학적 벡터들의 주파수 축을 정규화한다. 주어진 소리의 발성을 위하여 스펙트럼의 포먼트(formant) 정점들의 위치들은 성도의 길이에 반비례한다.
이때, 상기 성도의 길이는 대략 13cm에서 18cm까지 다양하게 나타나며, 포먼트 중심 주파수는 화자들 사이에 25%정도 변할 수 있다. 이는 성도의 길이 차이로 인하여 포먼트 중심주파수가 사람마다 다르게 나타나고, 약 25% 까지 변한다는 의미이다.
이런 변이 요소들은 화자 종속부터 화자 독립 음성 인식 성능의 주된 저하 요소이다.
최적의 워핑 팩터(warping factor)는 0.88≤α≤1.12 사이에 균등한 간격의 13개 요소들의 검색으로 얻어진다. 예를들어, 위의 범위에서 알파를 0.02 간격으로 등분하면 0.88, 0.90, 0.92,...., 1.12 등 13개 요소들이 나온다.
상기 α의 범위는 어른들에서 발견되는 성도 길이들에서 대략 25% 범위의 변화를 반영하기 위하여 선택된다.
인식에서 최적의 주파수 워핑 크기를 결정하기 위하여 여러가지 방법들이 제언되었다.
음성인식에서 음향학의 벡터들의 시퀀스(sequence)를 시간 t=1,...,T에 걸쳐서 관찰한다. 즉,
각각의 가정한 단어 시퀀스 W를 위해 적절한 참조모델 파라미터(parameters)θ를 가지고 모델분포 p(X|W;θ) 를 가정한다. 화자 적응 음향학적 모델링에서 어떤 화자의 특성 파마미터 α의 분포에 다음과 같은 의존성이 있다는 것을 가정하였다.
p(X|W;θ,α)
전형적으로 두가지 변수의 변환으로 구분한다.
첫째, 모델 파라미터 θ의 변환으로서, 화자 간 특성 파라미터 α의 각각의 값에 대해서 정규화되지 않은 모델 파라미터 θ를 정규화한 파라미터 θ α 로 변환한다.
θ → θ α
따라서, 분포는 p(X|W;θ,α) = p(X|W; θ α ) 가 된다.
둘째, 관측 벡터 X의 변환으로서, 이것은 음향학적 벡터들의 매핑으로 공식화될 수 있다.
X →X α
이때, 분포는 p(X|W;θ,α) = p(X α |W; θ) 가 된다.
이와 같이, 기존의 성도정규화(VTN: vocal tract normalization) 방법은 사람마다 성도 길이가 다르기 때문에 발생되는 발성의 스펙트럼 포락선 성분의 주파수 축에서의 변화를 주파수 축의 정규화를 통하여 보상해 주는 방법이지만, 주파수 차이는 보상이 되나 진폭 차이는 보상이 되지 않는 단점이 있다.
따라서, 본 발명은 기존의 성도 정규화 방법이 주파수 차이만 보상해주던 점을 감안하여, 화자 정규화를 위한 새로운 화자 내 워핑(warping) 인수 추정을 통하여 피치 변경발성에 따른 진폭 정규화를 달성함과 함께 진폭 차이도 보상해줄 수 있도록 함으로써, 음성인식 응용 제품에서 사용자의 목소리에 적합한 인식 모델을 적용, 또는 인식기에 화자적응 기법으로 적용하여 인식률의 향상을 도모하는 동시에 음성인식 응용 제품의 신뢰도를 향상시킬 수 있도록 한 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법을 제공하는데 그 목적이 있다.
상기한 목적을 달성하기 위한 본 발명은:
화자 내 피치 변경 발성으로부터 변형되지 않은 음성의 특징 공간 분포들은 성문과 성도에 의해 발생하는 음성의 음향학적 차이로 인하여 다양하게 나타나므로, 입력화자의 입력피치와 참조피치 사이의 역비율을 계산하여 진폭 워핑 팩터를 결정하고; 상기 진폭 워핑 팩터를 이용하여 삼각필터의 높이를 조절하면서 진폭을 조절하는 동시에 전체 주파수 축 상에서 진폭의 기울기가 결정되도록 한 것을 특징으로 하는 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법을 제공한다.
바람직한 구현예로서, 상기 입력화자의 입력피치와 참조피치 사이의 역비율을 계산은 보통(평균) 발성시의 피치(참조피치)를 p1으로, 같은 소리를 새로 발성했을 때의 피치를 p2로 하면, p2가 높으면 일반적으로 진폭도 높아지므로 정규화 하기 위하여 진폭을 p1때의 진폭 정도로 조절하고자 p1/p2를 새로운 기울기 조절 상수 값으로 채택하여 계산된 것을 특징으로 한다.
더욱 바람직한 구현예로서, 상기 진폭의 기울기가 결정된 후, 그 결과 특징 벡터들은 HMM 디코팅되는 것을 특징으로 한다.
이하, 본 발명의 바람직한 실시예를 첨부도면을 참조로 설명한다.
먼저, 화자 내 정규화에 진폭 워핑(warping) 접근 방법을 수행하는데 사용하는 처리과정에 대해 자세히 설명을 한다. 이 처리과정들은 감정에 따른 피치 변경 발성에서 변동의 보상에 의해 화자 내 음성의 변동을 줄이기 위한 시도이다.
피치 변경 발성들에 의한 왜곡들은 음성 신호의 주파수 도메인에서 간단한 선형 워핑(warping)에 의해 설계 될 수 있기 때문에 정규화 절차는 적절하게 추정된 워핑 팩터(warping factor)에 의해 진폭 축을 조절 한다.
통상 운율은 감정의 음향학적인 특성들의 표현으로 알려져 있다. 이에 음성 파형 데이터의 유성음 구역으로부터 특징 파라미터를 분석한다. 이는 화자 내 요소를 위한 중요한 점이다.
첨부한 도 1과 도 2는 피치 변경 발성에 따른 남자와 여자가 발성한 유성음의 선형 예측 계수(LPC) 스펙트럼 포락들을 나타낸다.
즉, 도 1은 남자가 발성한 유성음의 LPC스펙트럼 포락들(113~251Hz의 pitch를 가지는 모음 /a/)로서, 도 2는 여성 유성음의 LPC 스펙트럼 포락들(194~342Hz의 지역 피치를 가지는 모음 /a/)로서, 더 높은 하모닉스(harmonics)에서 에너지 이득에 대한 이유는 성문의 기류 파형의 비교에 의해서 보여진다. 발음의 세기가 증가함에 따라 성문의 폐쇄비율이 증가한다. 일반적으로 남성의 목소리는 여성의 목소리보다 낮은 기본 주파수와 강한 하모닉(harmonics)을 가지는 경향이 있다.
첨부한 도 3은 남성 음성 /a/의 정상(굵은선)발성과 피치를 낮춰서(점선) 발성한 음성스펙트럼들을 보여준다. 화자 내 피치 변경 발성으로부터 변형되지 않은 음성의 특징 공간 분포들은 성문과 성도에 의해 발생하는 음성의 음향학적 차이 때문에 다양하다. 그러므로, 본 발명에 따라 참조 피치와 입력 피치의 반비례 계산에 의해 워핑(warping factor)를 고려하는 것이 가능하다.
보다 상세하게는, 상기 워핑 팩터는 입력화자의 피치와 참조 피치 사이의 역비율을 나타낸다.
따라서, 상기 진폭 워핑 팩터를 이용하여 삼각필터의 높이를 조절하면서 진폭을 조절하는 동시에 전체 주파수 축 상에서 진폭의 기울기가 용이하게 결정된다.
도 6, 7, 8에 보이는 바와 같이 음성을 분석하여 특징추출할 때 MFCC 방법에서는 주파수축에 삼각 필터를 적용하여 분석한다. 즉, 주파수 축을 일정 대역폭으로 나누어 처리할 때 삼각형 모양의 필터를 사용한다.
이때, 보통(평균) 발성시의 피치(참조피치)를 p1으로, 같은 소리를 새로 발성했을 때의 피치를 p2로 하면, p2가 높으면 일반적으로 진폭도 높아지므로 정규화 하기 위하여 진폭을 p1때의 진폭 정도로 조절하고자 p1/p2를 새로운 기울기 조절 상수 값으로 채택하게 된다.
그리고, 결과 특징 벡터들은 HMM 디코딩에 사용되고, 목표는 각 테스트 발성의 진폭 스케일을 정규화된 HMM 모델에 매칭을 위해 워핑하는 것이다.
도 4는 피치(pitch) 변경 발성에 따라 화자 내 특성 파라미터 β를 보여준다. 화자 내 특성 스케일(scale) 인수는 스펙트럼의 에너지와 밀접하게 관련이 있다. 도 4는 피치(pitch)와 에너지를 사용하여 를 만족하는 β를 추정한다.
화자 내 음향학적 모델링의 정규화에서, 어떤 화자 내 특성 파라미터 β 분포에 의존한다는 것을 다음과 같이 가정한다.
p(X|W;θ,α,β)
전형적으로 두 가지 변환으로 구분하게 된다.
첫째, 모델 파라미터 θ의 변환으로서, 화자 내 특성 파라미터 β값에 대하여 비정규화된 모델 파라미터 를 정규화한 모델 파라미터θ β 로 변환된다.
θθ α,β (또는 θθ β )
분포는 다음과 같다.
p(X|W;θ,α,β) = p(X|W;θ α,β )
또는
p(X|W;θ,α,β) = p(X α |W;θ β )
둘째, 관측벡터 X의 변환으로서, 음향학적 벡터들의 매핑(mapping)에 따라 다음과 같이 공식화할 수 있다.
X→X α,β (또는 X→X β )
분포는 다음과 같다.
p(X|W;θ,α,β) = p(X α,β |W;θ)
또는
p(X|W;θ,α,β) = p(X β |W;θ α )
진폭 축의 화자 내 스케일 요소 β는 음성 인식을 위한 음향벡터를 계산하기 전에 진폭 축을 재스케일(rescale)하는데 사용된다.
이와 같은 본 발명에 따른 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법을 SKKU-1(SKKU: SungKyunKwan University)음성 데이터베이스(DB)를 이용하여 실험하였다.
SKKU-1음성 DB의 어휘는 한국어 숫자음, 성명, PBW(phonetically balanced word), PRW(phonetically rich word)로 이루어져 있다.
음성 신호는 1 - 0.95z-1로 고역강조 하였고, 20ms의 해밍 윈도우를 취하여 10ms 단위로 분석하였다. 각각의 프레임은 39차원의 특징벡터를 추출하였다.
특징들은 12차 MFCC(mel-frequency cepstrm coefficient)벡터, 12차 delta-MFCC벡터, 12차 delta-delta-MFCC벡터, log 에너지, delta log 에너지, delta-delta log 에너지이다.
한편, 상기 PBW(phonetically balanced word)는 음운학적으로 균형된 단어를 선정한 경우, PRW(phonetically rich word)는 PBW 보다 좀더 많은 단어를 포함한 것으로 수천 개의 단어를 포함하고 단어 수에 대한 규정은 없다. 상기 해밍 윈도우(Hamming window)는 음성을 분석할 때 단위 분석구간에 사용하는 대표적인 창함수이다.
도 5a는 믹스쳐(mixture)에 기반을 둔 최적의 주파수 warping 인수 추정을 보여준다. 도 5b는 입력 음성의 주파수 워핑에 기반을 둔 최적의 주파수 warping 인수 추정을 보여준다. 음성은 추정된 워핑(warping) 인수를 사용하여 워핑하였고, 특징 벡터들의 결과는 HMM 해독을 위하여 사용된다.
도 6은 워핑(warping)을 하는 멜-필터 뱅크(mel-filter bank)분석을 보여준다. 진폭 정규화를 위하여 첫번째, 우리는 발성으로부터 pitch와 에너지를 추출한다. 그리고 둘째로 우리는 화자 내 파라미터를 결정한다.
도 7은 화자 내 정규화를 위해 진폭 워핑(warping)을 하는 멜-필터 뱅크(mel-filter bank)를 보여준다.
보다 상세하게는, 도 6은 인수 α가 정해졌을 때 분석하는 방법이고, 도 7은 β가 결정되었을 때 분석하는 방법을 나타내며, 도 8은 α, β를 순서대로 적용하는 방법을 나타낸다.
다음의 표 1은 기본 인식기를 사용한 경우와, 그리고 화자간 정규화를 적용한 베이스 기본 인식기를 사용한 경우와, 화자간과 화자 내 정규화를 적용한 베이스기본 인식기를 사용하여 SKKU-1 DB에서 숫자와 단어의 인식 단어 에러율을 보여준다.
위의 표 1에서 보는 바와 같이, 베이스라인(baseline)은 정규화를 적용하지 않은 경우, with α는 기존의 주파수 정규화만 적용한 경우, with αand β는 기존의 주파수 정규화 및 제안한 진폭정규화를 적용한 경우에 대한 인식 에러율을 나타내는 바, 에러가 점점 줄어드는 것을 알 수 있다.
즉, 인식 결과에 따르면 단어 인식율은 96.4%와 98.2%이었고, 에러율은 숫자와 단어 인식에 대하여 0.4 ∼ 2.3%로 감소되었다.
이상에서 본 바와 같이, 본 발명에 따른 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법에 의하면, 화자 정규화를 위한 새로운 화자 내 워핑(warping) 인수 추정을 통하여 피치 변경발성에 따른 진폭 정규화를 달성할 수 있다.
따라서, 음성인식 응용 제품에서 사용자의 목소리에 적합한 인식 모델을 적용, 또는 인식기에 화자적응 기법으로 적용하여 인식률의 향상을 도모하는 동시에 음성인식 응용 제품의 신뢰도를 향상시킬 수 있다.
도 1과 도 2는 피치 변경 발성에 따른 남자와 여자가 발성한 유성음의 선형 예측 계수(LPC) 스펙트럼 포락들을 나타낸다.
도 3은 남성 음성 /a/의 정상(굵은선)발성과 피치를 낮춰서(점선) 발성한 음성스펙트럼들을 나타낸다.
도 4는 피치(pitch) 변경 발성에 따라 화자 내 특정한 파라미터 β를 나타낸다.
도 5a,5b는 믹스쳐(mixture) 기반의 최적의 주파수 워핑(warping) 인수 추정을 나타낸다.
도 6은 주파수 워핑(warping)을 하는 멜-필터 뱅크(mel-filter bank)분석을 나타낸다.
도 7은 화자 내 정규화를 위해 진폭 워핑(warping)을 하는 멜-필터 뱅크(mel-filter bank)를 나타낸다.
도 8은 α, β를 순서대로 적용하는 방법을 나타낸다.

Claims (3)

  1. 화자 내 피치 변경 발성으로부터 변형되지 않은 음성의 특징 공간 분포들은 성문과 성도에 의해 발생하는 음성의 음향학적 차이로 인하여 다양하게 나타나므로, 입력화자의 입력피치와 참조피치 사이의 역비율을 계산하여 진폭 워핑 팩터를 결정하고;
    상기 진폭 워핑 팩터를 이용하여 삼각필터의 높이를 조절하면서 진폭을 조절하는 동시에 전체 주파수 축 상에서 진폭의 기울기가 결정되도록 한 것을 특징으로 하는 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법.
  2. 청구항 1에 있어서, 상기 입력화자의 입력피치와 참조피치 사이의 역비율을 계산은 보통(평균) 발성시의 피치(참조피치)를 p1으로, 같은 소리를 새로 발성했을 때의 피치를 p2로 하면, p2가 높으면 일반적으로 진폭도 높아지므로 정규화 하기 위하여 진폭을 p1때의 진폭 정도로 조절하고자 p1/p2를 새로운 기울기 조절 상수 값으로 채택하여 계산된 것을 특징으로 하는 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법.
  3. 청구항 1 또는 2 에 있어서, 상기 진폭의 기울기가 결정된 후, 그 결과 특징 벡터들은 HMM 디코팅되는 것을 특징으로 하는 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법.
KR10-2003-0038102A 2003-06-13 2003-06-13 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법 KR100511248B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR10-2003-0038102A KR100511248B1 (ko) 2003-06-13 2003-06-13 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법
PCT/KR2003/001216 WO2004111999A1 (en) 2003-06-13 2003-06-20 An amplitude warping approach to intra-speaker normalization for speech recognition
AU2003244240A AU2003244240A1 (en) 2003-06-13 2003-06-20 An amplitude warping approach to intra-speaker normalization for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2003-0038102A KR100511248B1 (ko) 2003-06-13 2003-06-13 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법

Publications (2)

Publication Number Publication Date
KR20040107173A KR20040107173A (ko) 2004-12-20
KR100511248B1 true KR100511248B1 (ko) 2005-08-31

Family

ID=33550159

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-0038102A KR100511248B1 (ko) 2003-06-13 2003-06-13 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법

Country Status (3)

Country Link
KR (1) KR100511248B1 (ko)
AU (1) AU2003244240A1 (ko)
WO (1) WO2004111999A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US8442829B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8442833B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8788256B2 (en) 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
CN107204184B (zh) * 2017-05-10 2018-08-03 平安科技(深圳)有限公司 语音识别方法及系统
TWI629680B (zh) * 2017-06-15 2018-07-11 中華電信股份有限公司 Voice confidence assessment method and system
CN109102810B (zh) * 2017-06-21 2021-10-15 北京搜狗科技发展有限公司 声纹识别方法和装置

Also Published As

Publication number Publication date
AU2003244240A1 (en) 2005-01-04
KR20040107173A (ko) 2004-12-20
WO2004111999A1 (en) 2004-12-23

Similar Documents

Publication Publication Date Title
Vergin et al. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition
Ito et al. Analysis and recognition of whispered speech
Furui Speaker-independent isolated word recognition based on emphasized spectral dynamics
Potamianos et al. Automatic speech recognition for children
EP0970466B1 (en) Voice conversion
Hernando et al. Linear prediction of the one-sided autocorrelation sequence for noisy speech recognition
Itoh et al. Acoustic analysis and recognition of whispered speech
Jokinen et al. Vocal effort compensation for MFCC feature extraction in a shouted versus normal speaker recognition task
Vergin et al. Compensated mel frequency cepstrum coefficients
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
Karnjanadecha et al. Signal modeling for high-performance robust isolated word recognition
Saheer et al. Vocal tract length normalization for statistical parametric speech synthesis
KR100511248B1 (ko) 음성인식에서 화자 내 정규화를 위한 진폭 변경 방법
Sinha et al. On the use of pitch normalization for improving children's speech recognition
Miyajima et al. A new approach to designing a feature extractor in speaker identification based on discriminative feature extraction
Ghai et al. Analyzing pitch robustness of PMVDR and MFCC features for children's speech recognition
Molau et al. Matching training and test data distributions for robust speech recognition
Irino et al. Evaluation of a speech recognition/generation method based on HMM and straight.
Stuttle et al. A mixture of Gaussians front end for speech recognition.
Jančovič et al. Incorporating the voicing information into HMM-based automatic speech recognition in noisy environments
Galić et al. HMM-based Whisper Recognition using μ-law Frequency Warping
Verma et al. Voice fonts for individuality representation and transformation
Lin et al. Consonant/vowel segmentation for Mandarin syllable recognition
Kitaoka et al. Speaker independent speech recognition using features based on glottal sound source
Hansen et al. Text-directed speech enhancement employing phone class parsing and feature map constrained vector quantization

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130603

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20140617

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee