KR920701942A - 음성 인식의 잡음강도를 개선하기 위한 스펙트랄 추정방법 - Google Patents

음성 인식의 잡음강도를 개선하기 위한 스펙트랄 추정방법

Info

Publication number
KR920701942A
KR920701942A KR1019910701482A KR910701482A KR920701942A KR 920701942 A KR920701942 A KR 920701942A KR 1019910701482 A KR1019910701482 A KR 1019910701482A KR 910701482 A KR910701482 A KR 910701482A KR 920701942 A KR920701942 A KR 920701942A
Authority
KR
South Korea
Prior art keywords
speech
vector
noise
model
probability
Prior art date
Application number
KR1019910701482A
Other languages
English (en)
Other versions
KR100192854B1 (ko
Inventor
에렐 아도람
와인트라우브 미첼
Original Assignee
리챠드 피. 란제
에스알아이 인터내셔널
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 리챠드 피. 란제, 에스알아이 인터내셔널 filed Critical 리챠드 피. 란제
Publication of KR920701942A publication Critical patent/KR920701942A/ko
Application granted granted Critical
Publication of KR100192854B1 publication Critical patent/KR100192854B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Abstract

내용 없음

Description

음성 인식의 잡음강도를 개선하기 위한 스펙트랄 추정방법
본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음
제1도는 본 발명에 따른 방법을 채용한 전처리기를 채용한 음성인 식 시스템의 블럭도이다. 제2도는 본 발명에 따른 제1방법에 따라 혼합 모델을 사용하는 단일 프레임 MMLSD추정기의 블럭도이다. 제3도는 본 발명과 관련하여 사용되는 가우스 모델(Gaussians model)의 혼합의 계산을 도시한 플로우 챠트이다.

Claims (15)

  1. 디지탈화된 음성을 나타내는 신호들에 응답하기 위한 음성인식 시스템에서 노이즈 존재하의 음성을 전처리하는 방법에 있어서, 디지탈화된 음성과 노이즈를 음성 벡터의 각 시간-불변 세그멘트와 노이즈 존재하의 음성정보의 한 주파수 채널을 나타내는 노이즈 음성 벡터의 각 엘레멘트로 분류하고, 상기한 노이즈는 주파수 정의역에 무관하고 시간 불변하게 부가되어지는 것으로 가정되는 노이지이며; 1)깨긋한 음성의 확률분포가 혼합 모델로서 콤포넌트 혼합에 의하여 모델화 되어질 수 있고, 각 콤포넌트 서로다른 주파수 채널들이 2)항을 근거로하여 각 클래스내에서 상호 관련이 없다고 가정하는 서로다른 음성클래스를 나타낸다는 가정 및 2)추정된 깨끗한 음성 벡터를 획득하기 위하여 서로다른 주파수 채널들이 상호 관련이 없다는 가정을 기본으로하는 깨끗한 음성 벡터 어라운드 노이즈 음성 벡터의 조건확률 함수를 근거로하여 노이즈 음성 벡터로부터 상기한 각 엘리멘트에 대하여 음성값을 추정하는 단계를 포함하는 음성 인식기의 전처리 방법.
  2. 제1항에 있어서,
    여기서 인덱스 n은 클래스이고, Sk어라운드 n의 추정은 다음과 같이 주어진 nth클래스-조건화된 MMSE추정량이고,
    여기서
    인 함수에 따라 다중-주사푸 채널 함수에 관하여 필터 로그 스텍터랄 에너지를 추정하는 단계를 포함하는 음성인식기의 전처리 방법.
  3. 제2항에 있어서, 상기한 추정단계에 유클리드 거리의 추정을 획득하기 위하여 노이즈 음성의 벡터에 최소평균-로그-스펙트랄-거리 추정을 적용하는 단계가 포함된 음성인식기의 전처리 방법.
  4. 제1항에 있어서, 깨끗한 음성 벡터 어라운드 노이즈 음성 벡터의 조건확률 P(S'k|Sk)은 다음과 같이 모델화 되어진다: 1)추정되어지는 음성과 연관된 노이즈는 각 시간 프레임에서 상기 한 노이즈에 대하여 이산푸리에 변형(DFT)의 계수가 상호 무관한 복소 가우스 임의 변수가 되도록 정상적이고 자동복귀 이동평균 확률론적 처리로 가정된다; 2)필터 출력 에너지는 M계수들의 합에 의해 접근 되는 것으로 가정한다; 3)노이즈 스펙트랄 파워는 필터들의 통과대역 범위내에서 균일하게 되도록 가정된다; 노이즈만 있는 경우, 합은 가우스인 임의의 2M변수, 제로평균 및 편차의 합 이상으로 연장된다;
    a2= (Nk)/(2M)
    여기서 Nk는 노이즈 필터 에너지의 기대값이고, 분산-정규화 필터 에너지는 2M등급의 자유를 가진 카이제곱 확률분포(PD)를 따른다.
    그리고 노이즈 및 음성이 존재하는 경우, 필터 에너지는 다음과 같이 주어진다.
    여기서 DFTS는 음성계수이고, DFTn은 노이즈계수이고, 분산정규화 필터 에너지는 2M 등급자유를 가진 비집중카이제곱 및 비집중변수의 확률분포를 따른다; 필터 에너지의 조건확률이 다음과 같이 주어지려면;
    정규화 로그-에너지 변수는 다음과 같이 정의되고 :에 대한 조건확률이인 음성인식기의 전처리 방법.
  5. 제1항에 있어서, 혼합 모델은 클래스들이 음향공간의 구체적 경계 구획들과 동일시하고, 구획들은 벡터양자화에 의해 생성되는 벡터 양자와 혼합 모델로서 실행되는 음성인식기의 전처리 방법.
  6. 제1항에 있어서, 혼합 모델은 확률 Pn(Sk)이 가우스 분포이고, 이들 가우스값들의 평균 및 표준편차들은 혼합 모델로 주어진 음성 데이타의 가능성을 최대화하도록 조정된다는 가정을 가지고 가우스 혼합 모델의 혼합으로서 실행되는 음성인식기의 전처리 방법.
  7. 제2항에 있어서, 혼합 모델의 백터 S'는 벡터 R'와 교체되고, 여기서 벡터 R'는 주파수 광대역에서의 로그 스펙트랄 에너지의 보다 낮은 차원의 벡터이고, S'에 따라 달라지는 클래스 n의 확률은 새로운 클래스 n콤포넌트들이 벡터 R에 대해 혼합 모델의 클래들로 참고하도록 R'에 관하여 달라지는 새로운 클래스의 n의 확률로 교체되는 음성인식기의 전처리 방법.
  8. 제7항에 있어서, 벡터 R에 대한 혼합 모델이 벡터 양자와 혼합 모델로서 실행되고, 여기서 클래스들은 음향공간의 구체적 경계 구획들과 동일시되고, 구획들은 벡터 양자화에 의해 생성되고,가 깨끗한 음성에 대한 추정량의 표현식에서
    로 되어, 새로운 클래스 n에 대해 필요조건이 되는 음성인식기의 전처리 방법.
  9. 제7항에 있어서, 벡터 R에 대한 혼합 모델은 확률들 Pn(RJ)이 가우스 분포들이고, 가우스 평균 및 표준편차들이 혼합 모델로 주어진 음성 데이타의 유사성을 최대화하도록 조정된다는 가정하에 가우스 혼합 모델의 혼합으로서 실행되고, 깨끗한 음성에 대한 추정량에 대한 표현식에서 SK
    되어 새로운 클래스 n에 대해 필요조건이 되는 음성인식기의 전처리 방법.
  10. 디지탈화된 음성을 나타내는 신호들에 응답하기 위한 음성인식 시스템에서 노이즈 존재하의 음성을 전처리하는 방법에 있어서, 디지탈화된 음성과 노이즈를 음설벡터의각 시간-불변 세그멘트와, 노이즈 존재하의 음성정보의 한 채널을 나타내는 노이즈 음성벡터의 각 엘리멘트로 분류하고, 상기한 노이즈 주파수에 독립하고 시간에 불변한 것으로 가정되는 노이즈이며; 1)깨끗한 음성의 확률분포가 마르코프 모델로서 모델화될 수 있고, 미르코프 모델의 각 상태는 다음 2)항을 근거로 각 클래스내에서 서로다른 주파수 채널은 상호 관련이 없다고 가정하는 서로 다른 음성 클래스를 나타내고 2)추정된 깨끗한 음성 벡터를 획득하기 위하여 서로다른 주파수 채널들이 상호 관련이 없다는 가정을 기본으로 하는 깨끗한 음성 벡터 어라운드 노이즈 음성 벡터의 조건확률 함수.
    이상의 2가지 사항을 근거하여 일련의 노이즈 음성 벡터들 S'O에서부터 S'T까지 상기한 각 엘리멘트에 대하여 음성값을 추정하는 단계를 포함하는 음성인식기의 전처리 방법.
  11. 제10항에 있어서,
    에 따르는 다중-주파수 채널확률에 관해 필터 로그 스펙트랄 에너지들을 추정하는 단계를 포함하고, 여기서 인덱스 n은 상태이고 SK어라운드 n의 추정은 다음식으로 주어진 nthMMSE추정량이고;
    여기서
    여기서 히든 마르코프 모델은 음성에 대하여 가정되고, 히든 마르코프 상태 출력 확률은 다음과 같고;
    여기서 순방향-역방향 알고리즘이 P(n|S'O,...S't...S'T)를 계산하기 위해 적용되는 음성인식기의 전처리 방법.
  12. 제10항에 있어서, 깨끗한 음성 벡터 어라운드 노이즈 음성 벡터의 조건 확룔 P(S'k|Sk)은 다음과 같이 모델화되어진다; 1)추정되어지는 음성과 연관된 노이즈는 각 시간 프레임에서 상기 한 노이즈에 대하여 이산푸리에 변형 (DFT)의 계수가 상호무관한 복소 가우스 임의 변수가 되도록 정상적이고 자동 복귀 이동 평균 확률론적 처리로 가정된다; 2)필터 출력 에너지는 M계수들의 합에 의해 접근되는 것으로 가정한다; 3)노이즈스펙트랄 파워는 필터들의 통과대역 범위내에서 균일하게 되도록 가정된다; 노이즈가 없는 경우, 합은 가우스인 임의의 2M변수, 제로평균 및 편차의 합을 넘어 연장된다;
    여기서 NK는 노이즈 필터 에너지의 기대값이고 분산-정규화 필터 에너지는 2M등급자유를 가진 카이제곱확률 분포(PD)를 따른다.
    그리고, 노이즈 및 음성이 존재하는 경우, 필터 에너지는 다음과 같이 주어진다;
    여기서 DFTs는 음성계수이고, DFTn은 노이즈계수이고, 분산정규화 필터 에너지는 2M등급자유를 가진 비집중 카이제곱 및 비집중변수의 확률분포를 따른다; 필터 에너지의 조건확률이 다음과 같이 주어지도록;
    정규화 로그-에너지 변수는 다음과 같이 정의되고 :에 대한 조건확륭이인 음성인식기의 전처리 방법.
  13. 제10항에 있어서, 마르코프 모델이 벡터 양자화 마르코프 모델로서 실행되고 상태들은 음향공간의 견고한 경계구획과 동일하게 되고, 구획들은 벡터 양자화에 의해 생성되는 음성 인식기의 전처리 방법.
  14. 제11항에 있어서, 혼합 모델의 벡터 S'는 벡터 R'에 의해 교체되고 여기서, 벡터 R'는 주파수광대역에서 로그 스펙트랄 에너지들의 더욱 낮은 차원의 벡터이고, t가 제로에서 T 인 S'(t)의 순서에 따라 맞춰진 상태 n의 확률은 새로운 상태 n 콤포넌트가 벡 R을 위한 마르코프 모델에서 상태들은 언급하도록 t가 제로에서 T인 R'(t)의 순서에 관해 맞춰진 새로운 상태 n의 확률로 교체되는 음성인식기의 전처리 방법.
  15. 제14항에 있어서, 벡터 R에 대한 혼합 모델은 벡터 양자화 마르코프 모델로서 실행되고, 상태들은 음향공간의 견고한 경계구획들과 동일시되고, 구획들은 벡터 양자화에 의해 생성되고,는 새로운 상태 n에 따라 좌우되는 음성인식기의 전처리 방법.
    ※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.
KR1019910701482A 1990-02-28 1991-02-25 음성인식의 잡음강도를 개선하기 위한 스텍트랄 추정 방법 KR100192854B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US48646290A 1990-02-28 1990-02-28
US486,462 1990-02-28
US486462 1990-02-28

Publications (2)

Publication Number Publication Date
KR920701942A true KR920701942A (ko) 1992-08-12
KR100192854B1 KR100192854B1 (ko) 1999-06-15

Family

ID=23931980

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019910701482A KR100192854B1 (ko) 1990-02-28 1991-02-25 음성인식의 잡음강도를 개선하기 위한 스텍트랄 추정 방법

Country Status (7)

Country Link
EP (1) EP0470245B1 (ko)
JP (1) JP3154487B2 (ko)
KR (1) KR100192854B1 (ko)
AU (1) AU649029B2 (ko)
CA (1) CA2051386A1 (ko)
DE (1) DE69121145T2 (ko)
WO (1) WO1991013430A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100434532B1 (ko) * 1998-02-24 2004-07-16 삼성전자주식회사 음성인식을 위한 온라인 모델 변수 보상 방법 및 그에 따른 음성 인식 방법
KR100442825B1 (ko) * 1997-07-11 2005-02-03 삼성전자주식회사 음성 인식을 위한 환경 보상 방법
KR100808775B1 (ko) * 2006-07-26 2008-03-07 한국정보통신대학교 산학협력단 클래스 기반 히스토그램 등화 기법을 이용한 음성인식시스템 및 방법

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2681715B1 (fr) * 1991-09-25 1994-02-11 Matra Communication Procede de traitement de la parole en presence de bruits acoustiques: procede de soustraction spectrale non lineaire .
US5651071A (en) * 1993-09-17 1997-07-22 Audiologic, Inc. Noise reduction system for binaural hearing aid
US5511128A (en) * 1994-01-21 1996-04-23 Lindemann; Eric Dynamic intensity beamforming system for noise reduction in a binaural hearing aid
KR100413797B1 (ko) * 2001-08-23 2003-12-31 삼성전자주식회사 음성 신호 보상 방법 및 그 장치
ES2314182T3 (es) 2002-02-11 2009-03-16 Antares Pharma, Inc. Inyector intradermico.
DE102004017486A1 (de) * 2004-04-08 2005-10-27 Siemens Ag Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal
EP1850892B2 (en) 2005-01-24 2023-04-19 Antares Pharma, Inc. Prefilled needle assisted syringe jet injector
JP4724478B2 (ja) 2005-06-21 2011-07-13 株式会社リコー 撮像装置、撮像制御方法およびコンピュータ読取り可能の記録媒体
WO2007066933A1 (en) * 2005-12-08 2007-06-14 Electronics And Telecommunications Research Institute Voice recognition apparatus and method using vocal band signal
KR100717401B1 (ko) 2006-03-02 2007-05-11 삼성전자주식회사 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
US9144648B2 (en) 2006-05-03 2015-09-29 Antares Pharma, Inc. Injector with adjustable dosing
WO2007131013A1 (en) 2006-05-03 2007-11-15 Antares Pharma, Inc. Two-stage reconstituting injector
WO2009114542A1 (en) 2008-03-10 2009-09-17 Antares Pharma, Inc. Injector safety device
EP2318075B1 (en) 2008-08-05 2019-05-22 Antares Pharma, Inc. Multiple dosage injector
EP2408493A1 (en) 2009-03-20 2012-01-25 Antares Pharma, Inc. Hazardous agent injection system
US9220660B2 (en) 2011-07-15 2015-12-29 Antares Pharma, Inc. Liquid-transfer adapter beveled spike
US8496619B2 (en) 2011-07-15 2013-07-30 Antares Pharma, Inc. Injection device with cammed ram assembly
PT2822618T (pt) 2012-03-06 2024-03-04 Antares Pharma Inc Seringa pré-cheia com característica de força de rutura
JP6457383B2 (ja) 2012-04-06 2019-01-23 アンタレス・ファーマ・インコーポレーテッド テストステロン組成物の針支援式ジェット注入投与
WO2013169804A1 (en) 2012-05-07 2013-11-14 Antares Pharma, Inc. Needle assisted jet injection device having reduced trigger force
ES2763633T3 (es) 2013-02-11 2020-05-29 Antares Pharma Inc Dispositivo de inyección por chorro asistido por aguja que tiene fuerza de disparo reducida
ES2742046T3 (es) 2013-03-11 2020-02-12 Antares Pharma Inc Inyector de dosis con sistema de piñón
WO2014165136A1 (en) 2013-03-12 2014-10-09 Antares Pharma, Inc. Constant volume prefilled syringes and kits thereof
KR101501279B1 (ko) * 2013-12-31 2015-03-11 서울대학교산학협력단 인접 범위 내의 시간 또는 주파수 상관관계 기반의 음향학적 스테레오 에코 제거 방법 및 시스템
CN111627426B (zh) * 2020-04-30 2023-11-17 锐迪科微电子科技(上海)有限公司 消除语音交互中信道差异的方法及系统、电子设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8608289D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100442825B1 (ko) * 1997-07-11 2005-02-03 삼성전자주식회사 음성 인식을 위한 환경 보상 방법
KR100434532B1 (ko) * 1998-02-24 2004-07-16 삼성전자주식회사 음성인식을 위한 온라인 모델 변수 보상 방법 및 그에 따른 음성 인식 방법
KR100808775B1 (ko) * 2006-07-26 2008-03-07 한국정보통신대학교 산학협력단 클래스 기반 히스토그램 등화 기법을 이용한 음성인식시스템 및 방법

Also Published As

Publication number Publication date
AU7487591A (en) 1991-09-18
WO1991013430A1 (en) 1991-09-05
CA2051386A1 (en) 1991-08-29
JP3154487B2 (ja) 2001-04-09
DE69121145D1 (de) 1996-09-05
EP0470245A1 (en) 1992-02-12
DE69121145T2 (de) 1996-12-12
AU649029B2 (en) 1994-05-12
KR100192854B1 (ko) 1999-06-15
EP0470245B1 (en) 1996-07-31
JPH04505670A (ja) 1992-10-01

Similar Documents

Publication Publication Date Title
KR920701942A (ko) 음성 인식의 잡음강도를 개선하기 위한 스펙트랄 추정방법
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
Soon et al. Speech enhancement using 2-D Fourier transform
US5963904A (en) Phoneme dividing method using multilevel neural network
Obuchi Framewise speech-nonspeech classification by neural networks for voice activity detection with statistical noise suppression
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
CN108257606A (zh) 一种基于自适应并行模型组合的鲁棒语音身份识别方法
Ma et al. Perceptual Kalman filtering for speech enhancement in colored noise
Fujimoto et al. Noisy speech recognition using noise reduction method based on Kalman filter
JP2836271B2 (ja) 雑音除去装置
KR100308028B1 (ko) 적응음성검출장치및방법과그방법을이용한읽기가능한컴퓨터매체
Moreno Bilbao et al. Pitch determination of noisy speech using higher order statistics
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
Lee et al. Statistical model-based VAD algorithm with wavelet transform
Doire et al. Single-channel blind estimation of reverberation parameters
Benois et al. Image segmentation by region-contour cooperation for image coding
Kim et al. On the applications of the interacting multiple model algorithm for enhancing noisy speech
KR100835993B1 (ko) 마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치
KR100270309B1 (ko) 신호대 잡음비의 정규화에 의한 특징벡터 추출방법
Ahmed Comparison of noisy speech enhancement algorithms in terms of LPC perturbation
Shao et al. A versatile speech enhancement system based on perceptual wavelet denoising
Le et al. Characteristics of multi-layer perceptron models in enhancing degraded speech
Solé-Casals et al. A non-linear VAD for noisy environments
Chehrehsa et al. Speech enhancement using Gaussian mixture models, explicit Bayesian estimation and Wiener filtering
Rose et al. Robust speaker identification in noisy environments using noise adaptive speaker models

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090129

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee