KR20060082465A - 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 - Google Patents
음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 Download PDFInfo
- Publication number
- KR20060082465A KR20060082465A KR1020050002967A KR20050002967A KR20060082465A KR 20060082465 A KR20060082465 A KR 20060082465A KR 1020050002967 A KR1020050002967 A KR 1020050002967A KR 20050002967 A KR20050002967 A KR 20050002967A KR 20060082465 A KR20060082465 A KR 20060082465A
- Authority
- KR
- South Korea
- Prior art keywords
- frame
- speech
- voice
- noise
- model
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000005236 sound signal Effects 0.000 claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 9
- 230000001131 transforming effect Effects 0.000 claims description 8
- 206010002953 Aphonia Diseases 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 19
- 238000001228 spectrum Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Claims (20)
- 입력된 음향 신호가 음성 구간에 속하는지 비음성 구간에 속하는지를 판단하는 음성 구분 장치에 있어서,입력된 음향 신호 프레임을 주파수 영역에서의 프레임으로 변환하는 영역 변환부;상기 주파수 영역에서 음성 모델 및 복수의 잡음 모델을 설정하고 상기 모델들을 초기화하거나 갱신하는 모델 학습/갱신부;상기 초기화 또는 갱신된 음성 모델 및 복수의 잡음 모델을 이용하여 각각의 잡음원 별로 음성 부재 확률 계산식을 구하고 상기 변환된 프레임을 상기 계산식에 대입함으로써 각각의 잡음원 별로 음성 부재 확률을 계산하는 SAP 계산부;상기 계산된 잡음원 별 음성 부재 확률들 간을 비교함으로써 잡음원을 선택하는 잡음원 결정부; 및상기 선택된 잡음원의 음성 부재 확률의 크기에 따라서 상기 입력된 프레임이 음성 구간에 속하는지 여부를 판단하는 음성 판단부를 포함하는, 음성 구분 장치.
- 제1항에 있어서,입력된 음향 신호를 복수의 음향 신호 프레임들로 분할하는 프레임 분할부를 더 포함하는, 음성 구분 장치.
- 제1항에 있어서, 상기 영역 변환부는이산 푸리에 변환을 이용하여 상기 입력된 음향 신호 프레임을 주파수 영역의 프레임으로 변환하는, 음성 구분 장치.
- 제1항에 있어서, 상기 모델 학습/갱신부는상기 음성 판단부의 판단에 따라, 음성 프레임으로 판단되면 음성 모델을, 잡음 프레임으로 판단되면 해당 잡음 모델을 갱신하는, 음성 구분 장치.
- 제1항에 있어서, 상기 잡음 모델 각각은가우시안 혼합 모델에 의하여 모델링되는, 음성 구분 장치.
- 제1항에 있어서, 상기 음성 모델은단일 가우시안 모델에 의하여 모델링되는, 음성 구분 장치.
- 제1항에 있어서, 상기 음성 모델은라플라시안 모델에 의하여 모델링되는, 음성 구분 장치.
- 제1항에 있어서, 상기 모델/학습 갱신부는EM(Expectation Maximization) 알고리즘에 의하여 상기 파라미터들을 초기화 하거나 갱신하는, 음성 구분 장치.
- 제1항에 있어서, 상기 SAP 계산부는상기 음성 모델 및 복수의 잡음 모델로부터 복수의 음성/잡음 모델을 구성하고, 잡음원 별로 잡음 모델 및 음성/잡음 모델로부터 음성 부재 확률의 계산식을 구하는, 음성 구분 장치.
- 제1항에 있어서, 상기 잡음원 결정부는음성 부재 확률들 중에서 그 크기가 가장 작은 값에 대응되는 잡음원을 선택하거나, 상기 음성 부재 확률들에 의하여 계산되는 음성 존재 확률들 중에서 그 크기가 가장 큰 값에 대응되는 잡음원을 선택하는, 음성 구분 장치.
- 제1항에 있어서, 상기 음성 판단부는상기 선택된 잡음원의 음성 부재 확률의 크기가 소정의 임계치보다 작은 경우에 상기 입력된 프레임이 음성 구간에 속하는 것으로 판단하는, 음성 구분 장치.
- 입력된 음향 신호가 음성 구간에 속하는지 비음성 구간에 속하는지를 판단하는 음성 구분 장치에 있어서,입력된 음향 신호 프레임을 주파수 영역에서의 프레임으로 변환하는 영역 변환부;상기 변환된 프레임의 차원을 감소시키기 위하여 상기 변환된 프레임을 선형 변환하는 차원 공간 변환부;상기 선형 변환된 영역에서 음성 모델 및 복수의 잡음 모델을 설정하고 상기 모델들을 초기화하거나 갱신하는 모델 학습/갱신부;상기 초기화 또는 갱신된 음성 모델 및 복수의 잡음 모델을 이용하여 각각의 잡음원 별로 음성 부재 확률 계산식을 구하고 상기 변환된 프레임을 상기 계산식에 대입함으로써 각각의 잡음원 별로 음성 부재 확률을 계산하는 SAP 계산부;상기 계산된 잡음원 별 음성 부재 확률들 간을 비교함으로써 잡음원을 선택하는 잡음원 결정부; 및상기 선택된 잡음원의 음성 부재 확률의 크기에 따라서 상기 입력된 프레임이 음성 구간에 속하는지 여부를 판단하는 음성 판단부를 포함하는, 음성 구분 장치.
- 제12항에 있어서, 상기 선형 변환은Mel 필터 뱅크에 의한 변환인, 음성 구분 장치.
- 제12항에 있어서, 차원 공간 변환부는상기 주파수 영역으로 변환된 프레임으로부터 파생 프레임을 생성하고, 상기 주파수 영역으로 변환된 프레임 및 상기 파생 프레임을 결합하여 구성되는 통합 프레임을 선형 변환하는, 음성 구분 장치.
- 제14항에 있어서, 상기 파생 프레임은현재 프레임 주변에 위치하는 소정 개수의 프레임들부터 구해지는, 음성 구분 장치.
- 입력된 음향 신호가 음성 구간에 속하는지 비음성 구간에 속하는지를 판단하는 음성 구분 방법에 있어서,주파수 영역에서 음성 모델 및 복수의 잡음 모델을 설정하고 상기 모델들을 초기화하는 단계;입력된 음향 신호 프레임을 주파수 영역에서의 프레임으로 변환하는 단계;상기 초기화된 음성 모델 및 복수의 잡음 모델을 이용하여 각각의 잡음원 별로 음성 부재 확률 계산식을 구하는 단계;상기 변환된 프레임을 상기 계산식에 대입함으로써 각각의 잡음원 별로 음성 부재 확률을 계산하는 단계;상기 계산된 잡음원 별 음성 부재 확률들 간을 비교함으로써 잡음원을 선택하는 단계; 및상기 선택된 잡음원의 음성 부재 확률의 크기에 따라서 상기 입력된 프레임이 음성 구간에 속하는지 여부를 판단하는 단계를 포함하는, 음성 구분 방법.
- 제16항에 있어서,제1항에 있어서, 상기 모델 학습/갱신부는상기 음성 판단부의 판단에 따라, 음성 프레임으로 판단되면 음성 모델을, 특정 잡음 프레임으로 판단되면 해당 잡음 모델을 갱신하는, 음성 구분 방법.
- 입력된 음향 신호가 음성 구간에 속하는지 비음성 구간에 속하는지를 판단하는 음성 구분 방법에 있어서,선형 변환 영역에서 음성 모델 및 복수의 잡음 모델을 설정하고 상기 모델들을 초기화하는 단계;입력된 음향 신호 프레임을 주파수 영역에서의 프레임으로 변환하는 단계;상기 변환된 프레임의 차원을 감소시키기 위하여 상기 변환된 프레임을 선형 변환하는 단계;상기 초기화된 음성 모델 및 복수의 잡음 모델을 이용하여 각각의 잡음원 별로 음성 부재 확률 계산식을 구하는 단계;상기 선형 변환된 프레임을 상기 계산식에 대입함으로써 각각의 잡음원 별로 음성 부재 확률을 계산하는 단계;상기 계산된 잡음원 별 음성 부재 확률들 간을 비교함으로써 잡음원을 선택하는 단계; 및상기 선택된 잡음원의 음성 부재 확률의 크기에 따라서 상기 입력된 프레임이 음성 구간에 속하는지 여부를 판단하는 단계를 포함하는, 음성 구분 방법.
- 제18항에 있어서, 상기 선형 변환하는 단계는상기 주파수 영역으로 변환된 프레임으로부터 파생 프레임을 생성하고, 상기 주파수 영역으로 변환된 프레임 및 상기 파생 프레임을 결합하여 구성되는 통합 프레임을 선형 변환하는, 음성 구분 방법.
- 제16항 내지 19항 중 어느 한 항의 방법을 컴퓨터로 판독 가능한 프로그램으로 기록한 기록 매체.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050002967A KR100745976B1 (ko) | 2005-01-12 | 2005-01-12 | 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 |
US11/330,343 US8155953B2 (en) | 2005-01-12 | 2006-01-12 | Method and apparatus for discriminating between voice and non-voice using sound model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020050002967A KR100745976B1 (ko) | 2005-01-12 | 2005-01-12 | 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060082465A true KR20060082465A (ko) | 2006-07-18 |
KR100745976B1 KR100745976B1 (ko) | 2007-08-06 |
Family
ID=36654352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050002967A KR100745976B1 (ko) | 2005-01-12 | 2005-01-12 | 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8155953B2 (ko) |
KR (1) | KR100745976B1 (ko) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100774800B1 (ko) * | 2006-09-06 | 2007-11-07 | 한국정보통신대학교 산학협력단 | 포아송 폴링 기법을 이용한 세그먼트 단위의 음성/비음성분류 방법 및 장치 |
KR20100115093A (ko) * | 2009-04-17 | 2010-10-27 | 삼성전자주식회사 | 음성 검출 장치 및 방법 |
KR101054071B1 (ko) * | 2008-11-25 | 2011-08-03 | 한국과학기술원 | 음성과 비음성 구간 판별 방법 및 장치 |
KR101294405B1 (ko) * | 2012-01-20 | 2013-08-08 | 세종대학교산학협력단 | 위상 변환된 잡음 신호를 이용한 음성 영역 검출 방법 및 그 장치 |
KR101296472B1 (ko) * | 2011-11-18 | 2013-08-13 | 엘지전자 주식회사 | 이동형 로봇 |
KR102176375B1 (ko) * | 2019-04-17 | 2020-11-09 | 충북대학교 산학협력단 | 딥러닝을 이용한 방송 콘텐츠에서 음악 구간 검출 시스템 |
US11823669B2 (en) * | 2019-08-23 | 2023-11-21 | Kabushiki Kaisha Toshiba | Information processing apparatus and information processing method |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8131543B1 (en) * | 2008-04-14 | 2012-03-06 | Google Inc. | Speech detection |
JP2009288523A (ja) * | 2008-05-29 | 2009-12-10 | Toshiba Corp | 音声認識装置及びその方法 |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
CN103971680B (zh) * | 2013-01-24 | 2018-06-05 | 华为终端(东莞)有限公司 | 一种语音识别的方法、装置 |
CN103065631B (zh) * | 2013-01-24 | 2015-07-29 | 华为终端有限公司 | 一种语音识别的方法、装置 |
CN103971685B (zh) * | 2013-01-30 | 2015-06-10 | 腾讯科技(深圳)有限公司 | 语音命令识别方法和系统 |
US9886968B2 (en) * | 2013-03-04 | 2018-02-06 | Synaptics Incorporated | Robust speech boundary detection system and method |
US20150161999A1 (en) * | 2013-12-09 | 2015-06-11 | Ravi Kalluri | Media content consumption with individualized acoustic speech recognition |
US9837102B2 (en) * | 2014-07-02 | 2017-12-05 | Microsoft Technology Licensing, Llc | User environment aware acoustic noise reduction |
DE112015003945T5 (de) | 2014-08-28 | 2017-05-11 | Knowles Electronics, Llc | Mehrquellen-Rauschunterdrückung |
TWI576834B (zh) * | 2015-03-02 | 2017-04-01 | 聯詠科技股份有限公司 | 聲頻訊號的雜訊偵測方法與裝置 |
CN108198547B (zh) * | 2018-01-18 | 2020-10-23 | 深圳市北科瑞声科技股份有限公司 | 语音端点检测方法、装置、计算机设备和存储介质 |
CN112017676B (zh) * | 2019-05-31 | 2024-07-16 | 京东科技控股股份有限公司 | 音频处理方法、装置和计算机可读存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3065739B2 (ja) * | 1991-10-14 | 2000-07-17 | 三菱電機株式会社 | 音声区間検出装置 |
US5970446A (en) * | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
KR100382473B1 (ko) * | 1999-02-05 | 2003-05-01 | 엘지전자 주식회사 | 음성 인식 방법 |
KR100304666B1 (ko) | 1999-08-28 | 2001-11-01 | 윤종용 | 음성 향상 방법 |
US6615170B1 (en) | 2000-03-07 | 2003-09-02 | International Business Machines Corporation | Model-based voice activity detection system and method using a log-likelihood ratio and pitch |
US6782363B2 (en) | 2001-05-04 | 2004-08-24 | Lucent Technologies Inc. | Method and apparatus for performing real-time endpoint detection in automatic speech recognition |
JP3826032B2 (ja) | 2001-12-28 | 2006-09-27 | 株式会社東芝 | 音声認識装置、音声認識方法及び音声認識プログラム |
JP4233831B2 (ja) | 2002-09-25 | 2009-03-04 | 株式会社エヌ・ティ・ティ・ドコモ | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
US20040064314A1 (en) * | 2002-09-27 | 2004-04-01 | Aubert Nicolas De Saint | Methods and apparatus for speech end-point detection |
-
2005
- 2005-01-12 KR KR1020050002967A patent/KR100745976B1/ko active IP Right Grant
-
2006
- 2006-01-12 US US11/330,343 patent/US8155953B2/en not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100774800B1 (ko) * | 2006-09-06 | 2007-11-07 | 한국정보통신대학교 산학협력단 | 포아송 폴링 기법을 이용한 세그먼트 단위의 음성/비음성분류 방법 및 장치 |
KR101054071B1 (ko) * | 2008-11-25 | 2011-08-03 | 한국과학기술원 | 음성과 비음성 구간 판별 방법 및 장치 |
KR20100115093A (ko) * | 2009-04-17 | 2010-10-27 | 삼성전자주식회사 | 음성 검출 장치 및 방법 |
US8874440B2 (en) | 2009-04-17 | 2014-10-28 | Samsung Electronics Co., Ltd. | Apparatus and method for detecting speech |
KR101296472B1 (ko) * | 2011-11-18 | 2013-08-13 | 엘지전자 주식회사 | 이동형 로봇 |
KR101294405B1 (ko) * | 2012-01-20 | 2013-08-08 | 세종대학교산학협력단 | 위상 변환된 잡음 신호를 이용한 음성 영역 검출 방법 및 그 장치 |
KR102176375B1 (ko) * | 2019-04-17 | 2020-11-09 | 충북대학교 산학협력단 | 딥러닝을 이용한 방송 콘텐츠에서 음악 구간 검출 시스템 |
US11823669B2 (en) * | 2019-08-23 | 2023-11-21 | Kabushiki Kaisha Toshiba | Information processing apparatus and information processing method |
Also Published As
Publication number | Publication date |
---|---|
KR100745976B1 (ko) | 2007-08-06 |
US20060155537A1 (en) | 2006-07-13 |
US8155953B2 (en) | 2012-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100745976B1 (ko) | 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 | |
CN107564513B (zh) | 语音识别方法及装置 | |
KR101099339B1 (ko) | 복수-감지기형 음성 향상 방법 및 컴퓨터-판독가능 매체 | |
JP6243858B2 (ja) | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム | |
US9224392B2 (en) | Audio signal processing apparatus and audio signal processing method | |
US7774203B2 (en) | Audio signal segmentation algorithm | |
US8140329B2 (en) | Method and apparatus for automatically recognizing audio data | |
EP1515305A1 (en) | Noise adaption for speech recognition | |
US20080208578A1 (en) | Robust Speaker-Dependent Speech Recognition System | |
CN109801646B (zh) | 一种基于融合特征的语音端点检测方法和装置 | |
CA2051386A1 (en) | Method for spectral estimation to improve noise robustness for speech recognition | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
JP2020071482A (ja) | 語音分離方法、語音分離モデル訓練方法及びコンピュータ可読媒体 | |
JP2002023776A (ja) | ブラインドセパレーションにおける話者音声と非音声雑音の識別方法及び話者音声チャンネルの特定方法 | |
JP4871191B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 | |
CN114023336A (zh) | 模型训练方法、装置、设备以及存储介质 | |
JP2000259198A (ja) | パターン認識装置および方法、並びに提供媒体 | |
Nasersharif et al. | Application of wavelet transform and wavelet thresholding in robust sub-band speech recognition | |
Yılmaz et al. | Noise robust exemplar matching with alpha–beta divergence | |
CN118212934B (zh) | 基于语音识别的数字人嘴型智能驱动方法 | |
CN113744754B (zh) | 语音信号的增强处理方法和装置 | |
WO2022249302A1 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
EP1488410A1 (en) | Pattern recognition | |
Jadhav et al. | Speech recognition to distinguish gender and a review and related terms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130624 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140619 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20150624 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20160620 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20170619 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20180620 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20190619 Year of fee payment: 13 |