KR920701942A - 음성 인식의 잡음강도를 개선하기 위한 스펙트랄 추정방법 - Google Patents
음성 인식의 잡음강도를 개선하기 위한 스펙트랄 추정방법Info
- Publication number
- KR920701942A KR920701942A KR1019910701482A KR910701482A KR920701942A KR 920701942 A KR920701942 A KR 920701942A KR 1019910701482 A KR1019910701482 A KR 1019910701482A KR 910701482 A KR910701482 A KR 910701482A KR 920701942 A KR920701942 A KR 920701942A
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- vector
- noise
- model
- probability
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Abstract
내용 없음
Description
본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음
제1도는 본 발명에 따른 방법을 채용한 전처리기를 채용한 음성인 식 시스템의 블럭도이다. 제2도는 본 발명에 따른 제1방법에 따라 혼합 모델을 사용하는 단일 프레임 MMLSD추정기의 블럭도이다. 제3도는 본 발명과 관련하여 사용되는 가우스 모델(Gaussians model)의 혼합의 계산을 도시한 플로우 챠트이다.
Claims (15)
- 디지탈화된 음성을 나타내는 신호들에 응답하기 위한 음성인식 시스템에서 노이즈 존재하의 음성을 전처리하는 방법에 있어서, 디지탈화된 음성과 노이즈를 음성 벡터의 각 시간-불변 세그멘트와 노이즈 존재하의 음성정보의 한 주파수 채널을 나타내는 노이즈 음성 벡터의 각 엘레멘트로 분류하고, 상기한 노이즈는 주파수 정의역에 무관하고 시간 불변하게 부가되어지는 것으로 가정되는 노이지이며; 1)깨긋한 음성의 확률분포가 혼합 모델로서 콤포넌트 혼합에 의하여 모델화 되어질 수 있고, 각 콤포넌트 서로다른 주파수 채널들이 2)항을 근거로하여 각 클래스내에서 상호 관련이 없다고 가정하는 서로다른 음성클래스를 나타낸다는 가정 및 2)추정된 깨끗한 음성 벡터를 획득하기 위하여 서로다른 주파수 채널들이 상호 관련이 없다는 가정을 기본으로하는 깨끗한 음성 벡터 어라운드 노이즈 음성 벡터의 조건확률 함수를 근거로하여 노이즈 음성 벡터로부터 상기한 각 엘리멘트에 대하여 음성값을 추정하는 단계를 포함하는 음성 인식기의 전처리 방법.
- 제1항에 있어서,여기서 인덱스 n은 클래스이고, Sk어라운드 n의 추정은 다음과 같이 주어진 nth클래스-조건화된 MMSE추정량이고,여기서인 함수에 따라 다중-주사푸 채널 함수에 관하여 필터 로그 스텍터랄 에너지를 추정하는 단계를 포함하는 음성인식기의 전처리 방법.
- 제2항에 있어서, 상기한 추정단계에 유클리드 거리의 추정을 획득하기 위하여 노이즈 음성의 벡터에 최소평균-로그-스펙트랄-거리 추정을 적용하는 단계가 포함된 음성인식기의 전처리 방법.
- 제1항에 있어서, 깨끗한 음성 벡터 어라운드 노이즈 음성 벡터의 조건확률 P(S'k|Sk)은 다음과 같이 모델화 되어진다: 1)추정되어지는 음성과 연관된 노이즈는 각 시간 프레임에서 상기 한 노이즈에 대하여 이산푸리에 변형(DFT)의 계수가 상호 무관한 복소 가우스 임의 변수가 되도록 정상적이고 자동복귀 이동평균 확률론적 처리로 가정된다; 2)필터 출력 에너지는 M계수들의 합에 의해 접근 되는 것으로 가정한다; 3)노이즈 스펙트랄 파워는 필터들의 통과대역 범위내에서 균일하게 되도록 가정된다; 노이즈만 있는 경우, 합은 가우스인 임의의 2M변수, 제로평균 및 편차의 합 이상으로 연장된다;a2= (Nk)/(2M)여기서 Nk는 노이즈 필터 에너지의 기대값이고, 분산-정규화 필터 에너지는 2M등급의 자유를 가진 카이제곱 확률분포(PD)를 따른다.그리고 노이즈 및 음성이 존재하는 경우, 필터 에너지는 다음과 같이 주어진다.여기서 DFTS는 음성계수이고, DFTn은 노이즈계수이고, 분산정규화 필터 에너지는 2M 등급자유를 가진 비집중카이제곱 및 비집중변수의 확률분포를 따른다; 필터 에너지의 조건확률이 다음과 같이 주어지려면;정규화 로그-에너지 변수는 다음과 같이 정의되고 :에 대한 조건확률이인 음성인식기의 전처리 방법.
- 제1항에 있어서, 혼합 모델은 클래스들이 음향공간의 구체적 경계 구획들과 동일시하고, 구획들은 벡터양자화에 의해 생성되는 벡터 양자와 혼합 모델로서 실행되는 음성인식기의 전처리 방법.
- 제1항에 있어서, 혼합 모델은 확률 Pn(Sk)이 가우스 분포이고, 이들 가우스값들의 평균 및 표준편차들은 혼합 모델로 주어진 음성 데이타의 가능성을 최대화하도록 조정된다는 가정을 가지고 가우스 혼합 모델의 혼합으로서 실행되는 음성인식기의 전처리 방법.
- 제2항에 있어서, 혼합 모델의 백터 S'는 벡터 R'와 교체되고, 여기서 벡터 R'는 주파수 광대역에서의 로그 스펙트랄 에너지의 보다 낮은 차원의 벡터이고, S'에 따라 달라지는 클래스 n의 확률은 새로운 클래스 n콤포넌트들이 벡터 R에 대해 혼합 모델의 클래들로 참고하도록 R'에 관하여 달라지는 새로운 클래스의 n의 확률로 교체되는 음성인식기의 전처리 방법.
- 제7항에 있어서, 벡터 R에 대한 혼합 모델이 벡터 양자와 혼합 모델로서 실행되고, 여기서 클래스들은 음향공간의 구체적 경계 구획들과 동일시되고, 구획들은 벡터 양자화에 의해 생성되고,가 깨끗한 음성에 대한 추정량의 표현식에서로 되어, 새로운 클래스 n에 대해 필요조건이 되는 음성인식기의 전처리 방법.
- 제7항에 있어서, 벡터 R에 대한 혼합 모델은 확률들 Pn(RJ)이 가우스 분포들이고, 가우스 평균 및 표준편차들이 혼합 모델로 주어진 음성 데이타의 유사성을 최대화하도록 조정된다는 가정하에 가우스 혼합 모델의 혼합으로서 실행되고, 깨끗한 음성에 대한 추정량에 대한 표현식에서 SK는되어 새로운 클래스 n에 대해 필요조건이 되는 음성인식기의 전처리 방법.
- 디지탈화된 음성을 나타내는 신호들에 응답하기 위한 음성인식 시스템에서 노이즈 존재하의 음성을 전처리하는 방법에 있어서, 디지탈화된 음성과 노이즈를 음설벡터의각 시간-불변 세그멘트와, 노이즈 존재하의 음성정보의 한 채널을 나타내는 노이즈 음성벡터의 각 엘리멘트로 분류하고, 상기한 노이즈 주파수에 독립하고 시간에 불변한 것으로 가정되는 노이즈이며; 1)깨끗한 음성의 확률분포가 마르코프 모델로서 모델화될 수 있고, 미르코프 모델의 각 상태는 다음 2)항을 근거로 각 클래스내에서 서로다른 주파수 채널은 상호 관련이 없다고 가정하는 서로 다른 음성 클래스를 나타내고 2)추정된 깨끗한 음성 벡터를 획득하기 위하여 서로다른 주파수 채널들이 상호 관련이 없다는 가정을 기본으로 하는 깨끗한 음성 벡터 어라운드 노이즈 음성 벡터의 조건확률 함수.이상의 2가지 사항을 근거하여 일련의 노이즈 음성 벡터들 S'O에서부터 S'T까지 상기한 각 엘리멘트에 대하여 음성값을 추정하는 단계를 포함하는 음성인식기의 전처리 방법.
- 제10항에 있어서,에 따르는 다중-주파수 채널확률에 관해 필터 로그 스펙트랄 에너지들을 추정하는 단계를 포함하고, 여기서 인덱스 n은 상태이고 SK어라운드 n의 추정은 다음식으로 주어진 nthMMSE추정량이고;여기서여기서 히든 마르코프 모델은 음성에 대하여 가정되고, 히든 마르코프 상태 출력 확률은 다음과 같고;여기서 순방향-역방향 알고리즘이 P(n|S'O,...S't...S'T)를 계산하기 위해 적용되는 음성인식기의 전처리 방법.
- 제10항에 있어서, 깨끗한 음성 벡터 어라운드 노이즈 음성 벡터의 조건 확룔 P(S'k|Sk)은 다음과 같이 모델화되어진다; 1)추정되어지는 음성과 연관된 노이즈는 각 시간 프레임에서 상기 한 노이즈에 대하여 이산푸리에 변형 (DFT)의 계수가 상호무관한 복소 가우스 임의 변수가 되도록 정상적이고 자동 복귀 이동 평균 확률론적 처리로 가정된다; 2)필터 출력 에너지는 M계수들의 합에 의해 접근되는 것으로 가정한다; 3)노이즈스펙트랄 파워는 필터들의 통과대역 범위내에서 균일하게 되도록 가정된다; 노이즈가 없는 경우, 합은 가우스인 임의의 2M변수, 제로평균 및 편차의 합을 넘어 연장된다;여기서 NK는 노이즈 필터 에너지의 기대값이고 분산-정규화 필터 에너지는 2M등급자유를 가진 카이제곱확률 분포(PD)를 따른다.그리고, 노이즈 및 음성이 존재하는 경우, 필터 에너지는 다음과 같이 주어진다;여기서 DFTs는 음성계수이고, DFTn은 노이즈계수이고, 분산정규화 필터 에너지는 2M등급자유를 가진 비집중 카이제곱 및 비집중변수의 확률분포를 따른다; 필터 에너지의 조건확률이 다음과 같이 주어지도록;정규화 로그-에너지 변수는 다음과 같이 정의되고 :에 대한 조건확륭이인 음성인식기의 전처리 방법.
- 제10항에 있어서, 마르코프 모델이 벡터 양자화 마르코프 모델로서 실행되고 상태들은 음향공간의 견고한 경계구획과 동일하게 되고, 구획들은 벡터 양자화에 의해 생성되는 음성 인식기의 전처리 방법.
- 제11항에 있어서, 혼합 모델의 벡터 S'는 벡터 R'에 의해 교체되고 여기서, 벡터 R'는 주파수광대역에서 로그 스펙트랄 에너지들의 더욱 낮은 차원의 벡터이고, t가 제로에서 T 인 S'(t)의 순서에 따라 맞춰진 상태 n의 확률은 새로운 상태 n 콤포넌트가 벡 R을 위한 마르코프 모델에서 상태들은 언급하도록 t가 제로에서 T인 R'(t)의 순서에 관해 맞춰진 새로운 상태 n의 확률로 교체되는 음성인식기의 전처리 방법.
- 제14항에 있어서, 벡터 R에 대한 혼합 모델은 벡터 양자화 마르코프 모델로서 실행되고, 상태들은 음향공간의 견고한 경계구획들과 동일시되고, 구획들은 벡터 양자화에 의해 생성되고,는 새로운 상태 n에 따라 좌우되는 음성인식기의 전처리 방법.※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US48646290A | 1990-02-28 | 1990-02-28 | |
US486,462 | 1990-02-28 | ||
US486462 | 1990-02-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR920701942A true KR920701942A (ko) | 1992-08-12 |
KR100192854B1 KR100192854B1 (ko) | 1999-06-15 |
Family
ID=23931980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019910701482A KR100192854B1 (ko) | 1990-02-28 | 1991-02-25 | 음성인식의 잡음강도를 개선하기 위한 스텍트랄 추정 방법 |
Country Status (7)
Country | Link |
---|---|
EP (1) | EP0470245B1 (ko) |
JP (1) | JP3154487B2 (ko) |
KR (1) | KR100192854B1 (ko) |
AU (1) | AU649029B2 (ko) |
CA (1) | CA2051386A1 (ko) |
DE (1) | DE69121145T2 (ko) |
WO (1) | WO1991013430A1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100434532B1 (ko) * | 1998-02-24 | 2004-07-16 | 삼성전자주식회사 | 음성인식을 위한 온라인 모델 변수 보상 방법 및 그에 따른 음성 인식 방법 |
KR100442825B1 (ko) * | 1997-07-11 | 2005-02-03 | 삼성전자주식회사 | 음성 인식을 위한 환경 보상 방법 |
KR100808775B1 (ko) * | 2006-07-26 | 2008-03-07 | 한국정보통신대학교 산학협력단 | 클래스 기반 히스토그램 등화 기법을 이용한 음성인식시스템 및 방법 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2681715B1 (fr) * | 1991-09-25 | 1994-02-11 | Matra Communication | Procede de traitement de la parole en presence de bruits acoustiques: procede de soustraction spectrale non lineaire . |
US5651071A (en) * | 1993-09-17 | 1997-07-22 | Audiologic, Inc. | Noise reduction system for binaural hearing aid |
US5511128A (en) * | 1994-01-21 | 1996-04-23 | Lindemann; Eric | Dynamic intensity beamforming system for noise reduction in a binaural hearing aid |
KR100413797B1 (ko) * | 2001-08-23 | 2003-12-31 | 삼성전자주식회사 | 음성 신호 보상 방법 및 그 장치 |
ES2314182T3 (es) | 2002-02-11 | 2009-03-16 | Antares Pharma, Inc. | Inyector intradermico. |
DE102004017486A1 (de) * | 2004-04-08 | 2005-10-27 | Siemens Ag | Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal |
EP1850892B2 (en) | 2005-01-24 | 2023-04-19 | Antares Pharma, Inc. | Prefilled needle assisted syringe jet injector |
JP4724478B2 (ja) | 2005-06-21 | 2011-07-13 | 株式会社リコー | 撮像装置、撮像制御方法およびコンピュータ読取り可能の記録媒体 |
WO2007066933A1 (en) * | 2005-12-08 | 2007-06-14 | Electronics And Telecommunications Research Institute | Voice recognition apparatus and method using vocal band signal |
KR100717401B1 (ko) | 2006-03-02 | 2007-05-11 | 삼성전자주식회사 | 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치 |
US9144648B2 (en) | 2006-05-03 | 2015-09-29 | Antares Pharma, Inc. | Injector with adjustable dosing |
WO2007131013A1 (en) | 2006-05-03 | 2007-11-15 | Antares Pharma, Inc. | Two-stage reconstituting injector |
WO2009114542A1 (en) | 2008-03-10 | 2009-09-17 | Antares Pharma, Inc. | Injector safety device |
EP2318075B1 (en) | 2008-08-05 | 2019-05-22 | Antares Pharma, Inc. | Multiple dosage injector |
EP2408493A1 (en) | 2009-03-20 | 2012-01-25 | Antares Pharma, Inc. | Hazardous agent injection system |
US9220660B2 (en) | 2011-07-15 | 2015-12-29 | Antares Pharma, Inc. | Liquid-transfer adapter beveled spike |
US8496619B2 (en) | 2011-07-15 | 2013-07-30 | Antares Pharma, Inc. | Injection device with cammed ram assembly |
PT2822618T (pt) | 2012-03-06 | 2024-03-04 | Antares Pharma Inc | Seringa pré-cheia com característica de força de rutura |
JP6457383B2 (ja) | 2012-04-06 | 2019-01-23 | アンタレス・ファーマ・インコーポレーテッド | テストステロン組成物の針支援式ジェット注入投与 |
WO2013169804A1 (en) | 2012-05-07 | 2013-11-14 | Antares Pharma, Inc. | Needle assisted jet injection device having reduced trigger force |
ES2763633T3 (es) | 2013-02-11 | 2020-05-29 | Antares Pharma Inc | Dispositivo de inyección por chorro asistido por aguja que tiene fuerza de disparo reducida |
ES2742046T3 (es) | 2013-03-11 | 2020-02-12 | Antares Pharma Inc | Inyector de dosis con sistema de piñón |
WO2014165136A1 (en) | 2013-03-12 | 2014-10-09 | Antares Pharma, Inc. | Constant volume prefilled syringes and kits thereof |
KR101501279B1 (ko) * | 2013-12-31 | 2015-03-11 | 서울대학교산학협력단 | 인접 범위 내의 시간 또는 주파수 상관관계 기반의 음향학적 스테레오 에코 제거 방법 및 시스템 |
CN111627426B (zh) * | 2020-04-30 | 2023-11-17 | 锐迪科微电子科技(上海)有限公司 | 消除语音交互中信道差异的方法及系统、电子设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8608289D0 (en) * | 1986-04-04 | 1986-05-08 | Pa Consulting Services | Noise compensation in speech recognition |
-
1991
- 1991-02-25 WO PCT/US1991/001333 patent/WO1991013430A1/en active IP Right Grant
- 1991-02-25 AU AU74875/91A patent/AU649029B2/en not_active Ceased
- 1991-02-25 JP JP50607891A patent/JP3154487B2/ja not_active Expired - Fee Related
- 1991-02-25 CA CA002051386A patent/CA2051386A1/en not_active Abandoned
- 1991-02-25 EP EP91906368A patent/EP0470245B1/en not_active Expired - Lifetime
- 1991-02-25 DE DE69121145T patent/DE69121145T2/de not_active Expired - Fee Related
- 1991-02-25 KR KR1019910701482A patent/KR100192854B1/ko not_active IP Right Cessation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100442825B1 (ko) * | 1997-07-11 | 2005-02-03 | 삼성전자주식회사 | 음성 인식을 위한 환경 보상 방법 |
KR100434532B1 (ko) * | 1998-02-24 | 2004-07-16 | 삼성전자주식회사 | 음성인식을 위한 온라인 모델 변수 보상 방법 및 그에 따른 음성 인식 방법 |
KR100808775B1 (ko) * | 2006-07-26 | 2008-03-07 | 한국정보통신대학교 산학협력단 | 클래스 기반 히스토그램 등화 기법을 이용한 음성인식시스템 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
AU7487591A (en) | 1991-09-18 |
WO1991013430A1 (en) | 1991-09-05 |
CA2051386A1 (en) | 1991-08-29 |
JP3154487B2 (ja) | 2001-04-09 |
DE69121145D1 (de) | 1996-09-05 |
EP0470245A1 (en) | 1992-02-12 |
DE69121145T2 (de) | 1996-12-12 |
AU649029B2 (en) | 1994-05-12 |
KR100192854B1 (ko) | 1999-06-15 |
EP0470245B1 (en) | 1996-07-31 |
JPH04505670A (ja) | 1992-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR920701942A (ko) | 음성 인식의 잡음강도를 개선하기 위한 스펙트랄 추정방법 | |
DE60316704T2 (de) | Mehrkanalige spracherkennung in ungünstigen umgebungen | |
Soon et al. | Speech enhancement using 2-D Fourier transform | |
US5963904A (en) | Phoneme dividing method using multilevel neural network | |
Obuchi | Framewise speech-nonspeech classification by neural networks for voice activity detection with statistical noise suppression | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN108257606A (zh) | 一种基于自适应并行模型组合的鲁棒语音身份识别方法 | |
Ma et al. | Perceptual Kalman filtering for speech enhancement in colored noise | |
Fujimoto et al. | Noisy speech recognition using noise reduction method based on Kalman filter | |
JP2836271B2 (ja) | 雑音除去装置 | |
KR100308028B1 (ko) | 적응음성검출장치및방법과그방법을이용한읽기가능한컴퓨터매체 | |
Moreno Bilbao et al. | Pitch determination of noisy speech using higher order statistics | |
KR100784456B1 (ko) | Gmm을 이용한 음질향상 시스템 | |
Lee et al. | Statistical model-based VAD algorithm with wavelet transform | |
Doire et al. | Single-channel blind estimation of reverberation parameters | |
Benois et al. | Image segmentation by region-contour cooperation for image coding | |
Kim et al. | On the applications of the interacting multiple model algorithm for enhancing noisy speech | |
KR100835993B1 (ko) | 마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치 | |
KR100270309B1 (ko) | 신호대 잡음비의 정규화에 의한 특징벡터 추출방법 | |
Ahmed | Comparison of noisy speech enhancement algorithms in terms of LPC perturbation | |
Shao et al. | A versatile speech enhancement system based on perceptual wavelet denoising | |
Le et al. | Characteristics of multi-layer perceptron models in enhancing degraded speech | |
Solé-Casals et al. | A non-linear VAD for noisy environments | |
Chehrehsa et al. | Speech enhancement using Gaussian mixture models, explicit Bayesian estimation and Wiener filtering | |
Rose et al. | Robust speaker identification in noisy environments using noise adaptive speaker models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20090129 Year of fee payment: 11 |
|
LAPS | Lapse due to unpaid annual fee |