RU2005106251A - Устройство и способ распределенного распознования речи с помощью речевой активности во внутреннем интерфейсе - Google Patents
Устройство и способ распределенного распознования речи с помощью речевой активности во внутреннем интерфейсе Download PDFInfo
- Publication number
- RU2005106251A RU2005106251A RU2005106251/09A RU2005106251A RU2005106251A RU 2005106251 A RU2005106251 A RU 2005106251A RU 2005106251/09 A RU2005106251/09 A RU 2005106251/09A RU 2005106251 A RU2005106251 A RU 2005106251A RU 2005106251 A RU2005106251 A RU 2005106251A
- Authority
- RU
- Russia
- Prior art keywords
- speech
- spectral components
- speech recognition
- recognition
- several
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims 17
- 230000000694 effects Effects 0.000 title claims 6
- 230000003595 spectral effect Effects 0.000 claims 28
- 238000001514 detection method Methods 0.000 claims 3
- 230000011218 segmentation Effects 0.000 claims 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
- Traffic Control Systems (AREA)
Claims (20)
1. Способ, облегчающий распознавание речи, заключающийся в том, что принимают несколько спектральных компонент для распознавания речи, обрабатывают по меньшей мере некоторые из нескольких спектральных компонент для распознавания речи для обеспечения по меньшей мере аппроксимации предшествующей информации, которая произвела несколько спектральных компонент для распознавания речи, обрабатывают по меньшей мере аппроксимацию предшествующей информации для обнаружения участков, которые, вероятно, соответствуют речи, и обеспечения соответствующей идентификации участков речи, обрабатывают несколько спектральных компонент для распознавания речи, как функцию, по меньшей мере частично, идентификации участков речи, для облегчения распознавания речевого содержимого, представленного по меньшей мере некоторыми из спектральных компонент для распознавания речи.
2. Способ по п.1, в котором прием нескольких спектральных компонент для распознавания речи включает в себя прием нескольких спектральных компонент для распознавания речи через радиоканал.
3. Способ по п.1, в котором прием нескольких спектральных компонент для распознавания речи включает в себя прием нескольких спектральных компонент для распознавания речи, в которые входит по меньшей мере один коэффициент косинусного преобразования Фурье Mel-частоты.
4. Способ по п.3, в котором прием нескольких спектральных компонент для распознавания речи, в которые входит по меньшей мере один коэффициент косинусного преобразования Фурье Mel-частоты, включает в себя прием нескольких коэффициентов косинусного преобразования Фурье Mel-частоты.
5. Способ по п.4, в котором прием нескольких коэффициентов косинусного преобразования Фурье Mel-частоты включает в себя прием по меньшей мере 13 коэффициентов косинусного преобразования Фурье Mel-частоты для каждой выборки предшествующей информации.
6. Способ по п.1, в котором обработка по меньшей мере некоторых из нескольких спектральных компонент для распознавания речи для обеспечения по меньшей мере аппроксимации предшествующей информации, которая произвела несколько спектральных компонент для распознавания речи, включает в себя обработку по меньшей мере некоторых из нескольких спектральных компонент для распознавания речи посредством обратного дискретного косинусного преобразования для обеспечения нескольких результирующих значений.
7. Способ по п.6, в котором обработка по меньшей мере некоторых из нескольких спектральных компонент для распознавания речи посредством обратного дискретного косинусного преобразования дополнительно включает в себя обработку по меньшей мере одного из результирующих значений посредством возведения в степень.
8. Способ по п.1, в котором дополнительно обрабатывают по меньшей мере аппроксимацию предшествующей информации для определения значений отношения сигнал-шум, которые, вероятно, соответствуют речи, которая произвела несколько спектральных компонент для распознавания речи.
9. Способ по п.1, в котором обработка нескольких спектральных компонент для распознавания речи, как функции, по меньшей мере частично, идентификации участков речи, для облегчения распознавания речевого содержимого, представленного по меньшей мере некоторыми из спектральных компонент для распознавания речи, дополнительно включает в себя обработку нескольких спектральных компонент для распознавания речи, как функции, по меньшей мере частично, идентификации участков речи и значений отношения сигнал-шум для облегчения распознавания речевого содержимого, представленного по меньшей мере некоторыми из спектральных компонент для распознавания речи.
10. Устройство, используемое для облегчения распределенного распознавания речи, содержащее детектор речевой активности, имеющий вход, подсоединенный с возможностью приема спектральных компонент для распознавания речи, которые получены из предшествующей информации, и имеющий по меньшей мере первый выход, который обеспечивает сигнал обнаружения речи, идентифицирующий каждую выборку по меньшей мере аппроксимации предшествующей информации, которая, вероятно, соответствует речи, блок сегментации, имеющий вход с возможностью подсоединения к первому выходу детектора речевой активности, и имеющий выход, который обеспечивает сигнал обнаружения речи, идентифицирующий участки по меньшей мере аппроксимации предшествующей информации, которые, вероятно, соответствуют речи, и блок сопоставления с эталоном, имеющий входы, подсоединенные с возможностью приема спектральных компонент для распознавания речи и сигнала обнаружения речи, и имеющий выход, который обеспечивает распознанную речь, соответствующую спектральным компонентам распознавания речи.
11. Устройство по п.10, в котором детектор речевой активности дополнительно содержит второй выход, который обеспечивает сигнал отношения сигнал-шум, соответствующий речи, которая произвела несколько спектральных компонент для распознавания речи.
12. Устройство по п.11, в котором блок сопоставления с эталоном дополнительно имеет вход, подсоединенный с возможностью приема сигнала отношения сигнал-шум.
13. Устройство по п.10, в котором спектральные компоненты для распознавания речи включают в себя несколько коэффициентов косинусного преобразования Фурье Mel-частоты.
14. Устройство по п.13, в котором детектор речевой активности содержит средство обратного дискретного косинусного преобразования, облегчающее использование нескольких коэффициентов косинусного преобразования Фурье Mel-частоты для обеспечения по меньшей мере аппроксимации предшествующей информации.
15. Устройство по п.14, в котором детектор речевой активности дополнительно содержит средство возведения в степень, дополнительно облегчающее использование коэффициентов косинусного преобразования Фурье Mel-частоты для обеспечения по меньшей мере аппроксимации предшествующей информации.
16. Устройство по п.10, дополнительно содержащее декодер, имеющий вход, подсоединенный с возможностью приема кодированного потока битов, и выход, который обеспечивает спектральные компоненты для распознавания речи.
17. Устройство по п.16, дополнительно содержащее радиоприемник, выполненный с возможностью подсоединения к декодеру.
18. Способ, облегчающий распознавание речи, заключающийся в том, что принимают через радиоканал сигнал, включающий в себя поток битов, содержащий информацию, полученную из нескольких входных выборок, декодируют поток битов для восстановления тринадцати коэффициентов косинусного преобразования Фурье Mel-частоты и логарифмического значения энергии, которые соответствуют каждому кадру входных выборок, используют обратное дискретное косинусное преобразование и возведение в степень для преобразования коэффициентов косинусного преобразования Фурье Mel-частоты в их спектральное представление, используют спектральное представление для идентификации его участков, которые, вероятно, включают в себя речь, используют коэффициенты косинусного преобразования Фурье Mel-частоты, логарифмическое значение для каждого кадра входных выборок и информацию, идентифицирующую участки, которые, вероятно, включают в себя речь, для облегчения процесса сопоставления с эталоном для распознавания речевого содержимого во входных данных.
19. Способ по п.18, в котором дополнительно используют спектральное представление входных данных для определения значений отношения сигнал-шум.
20. Способ по п.19, в котором использование коэффициентов косинусного преобразования Фурье Mel-частоты, логарифмического значения для каждой из выборок, и информации, идентифицирующей участки входных данных, которые, вероятно, включают в себя речь, для облегчения процесса сопоставления с эталоном для распознавания речевого содержимого во входных данных включает в себя использование коэффициентов косинусного преобразования Фурье Mel-частоты, логарифмического значения для каждой из выборок, и информации, идентифицирующей участки входных данных, которые, вероятно, включают в себя речь, и значений отношения сигнал-шум, для облегчения процесса сопоставления с эталоном для распознавания речевого содержимого во входных данных.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/215,810 US7024353B2 (en) | 2002-08-09 | 2002-08-09 | Distributed speech recognition with back-end voice activity detection apparatus and method |
US10/215,810 | 2002-08-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2005106251A true RU2005106251A (ru) | 2005-10-10 |
Family
ID=31494940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2005106251/09A RU2005106251A (ru) | 2002-08-09 | 2003-08-01 | Устройство и способ распределенного распознования речи с помощью речевой активности во внутреннем интерфейсе |
Country Status (10)
Country | Link |
---|---|
US (1) | US7024353B2 (ru) |
EP (1) | EP1540645A4 (ru) |
JP (1) | JP2005535920A (ru) |
KR (1) | KR20060007363A (ru) |
CN (1) | CN1675684A (ru) |
AU (1) | AU2003254288A1 (ru) |
MX (1) | MXPA05001593A (ru) |
RU (1) | RU2005106251A (ru) |
WO (1) | WO2004015685A2 (ru) |
ZA (1) | ZA200500792B (ru) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6560445B1 (en) * | 1999-10-22 | 2003-05-06 | General Dynamics Decision Systems, Inc. | Radio communication system and method of operation |
GB2422279A (en) * | 2004-09-29 | 2006-07-19 | Fluency Voice Technology Ltd | Determining Pattern End-Point in an Input Signal |
US8175877B2 (en) * | 2005-02-02 | 2012-05-08 | At&T Intellectual Property Ii, L.P. | Method and apparatus for predicting word accuracy in automatic speech recognition systems |
KR100714721B1 (ko) * | 2005-02-04 | 2007-05-04 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치 |
CA2612903C (en) * | 2005-06-20 | 2015-04-21 | Telecom Italia S.P.A. | Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system |
KR100791349B1 (ko) * | 2005-12-08 | 2008-01-07 | 한국전자통신연구원 | 분산 음성 인식 시스템에서 음성 신호의 코딩 방법 및 그장치 |
JP5229217B2 (ja) * | 2007-02-27 | 2013-07-03 | 日本電気株式会社 | 音声認識システム、方法およびプログラム |
US8374851B2 (en) * | 2007-07-30 | 2013-02-12 | Texas Instruments Incorporated | Voice activity detector and method |
US20090150144A1 (en) * | 2007-12-10 | 2009-06-11 | Qnx Software Systems (Wavemakers), Inc. | Robust voice detector for receive-side automatic gain control |
JP5454469B2 (ja) * | 2008-05-09 | 2014-03-26 | 富士通株式会社 | 音声認識辞書作成支援装置,処理プログラム,および処理方法 |
US9037474B2 (en) * | 2008-09-06 | 2015-05-19 | Huawei Technologies Co., Ltd. | Method for classifying audio signal into fast signal or slow signal |
JP5712220B2 (ja) * | 2009-10-19 | 2015-05-07 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 音声活動検出のための方法および背景推定器 |
US20110103370A1 (en) | 2009-10-29 | 2011-05-05 | General Instruments Corporation | Call monitoring and hung call prevention |
KR20140026229A (ko) | 2010-04-22 | 2014-03-05 | 퀄컴 인코포레이티드 | 음성 액티비티 검출 |
US8898058B2 (en) * | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
ES2860986T3 (es) | 2010-12-24 | 2021-10-05 | Huawei Tech Co Ltd | Método y aparato para detectar adaptivamente una actividad de voz en una señal de audio de entrada |
KR101251373B1 (ko) | 2011-10-27 | 2013-04-05 | 한국과학기술연구원 | 음원 분류 장치 및 그 방법 |
US8615221B1 (en) | 2012-12-06 | 2013-12-24 | Google Inc. | System and method for selection of notification techniques in an electronic device |
CN104715761B (zh) * | 2013-12-16 | 2018-03-30 | 深圳市梦网百科信息技术有限公司 | 一种音频有效数据检测方法和系统 |
US9037455B1 (en) * | 2014-01-08 | 2015-05-19 | Google Inc. | Limiting notification interruptions |
CN103778914B (zh) * | 2014-01-27 | 2017-02-15 | 华南理工大学 | 基于信噪比加权模板特征匹配的抗噪语音识别方法及装置 |
CN107293287B (zh) * | 2014-03-12 | 2021-10-26 | 华为技术有限公司 | 检测音频信号的方法和装置 |
EP3117210A4 (en) * | 2014-03-12 | 2017-11-01 | University Of Virginia Patent Foundation | Compositions and methods for treating eye infections and disease |
US9489958B2 (en) * | 2014-07-31 | 2016-11-08 | Nuance Communications, Inc. | System and method to reduce transmission bandwidth via improved discontinuous transmission |
US9691413B2 (en) * | 2015-10-06 | 2017-06-27 | Microsoft Technology Licensing, Llc | Identifying sound from a source of interest based on multiple audio feeds |
US10070220B2 (en) * | 2015-10-30 | 2018-09-04 | Dialog Semiconductor (Uk) Limited | Method for equalization of microphone sensitivities |
CN105513589B (zh) * | 2015-12-18 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
US10090005B2 (en) * | 2016-03-10 | 2018-10-02 | Aspinity, Inc. | Analog voice activity detection |
CN107919130B (zh) * | 2017-11-06 | 2021-12-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
US10861484B2 (en) * | 2018-12-10 | 2020-12-08 | Cirrus Logic, Inc. | Methods and systems for speech detection |
CN112489692A (zh) * | 2020-11-03 | 2021-03-12 | 北京捷通华声科技股份有限公司 | 语音端点检测方法和装置 |
CN113345473B (zh) * | 2021-06-24 | 2024-02-13 | 中国科学技术大学 | 语音端点检测方法、装置、电子设备和存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2153170C (en) * | 1993-11-30 | 2000-12-19 | At&T Corp. | Transmitted noise reduction in communications systems |
US6104993A (en) | 1997-02-26 | 2000-08-15 | Motorola, Inc. | Apparatus and method for rate determination in a communication system |
WO1999013608A2 (en) * | 1997-09-10 | 1999-03-18 | Koninklijke Philips Electronics N.V. | A communication system and a terminal having speech encoding and decoding means |
US6003004A (en) * | 1998-01-08 | 1999-12-14 | Advanced Recognition Technologies, Inc. | Speech recognition method and system using compressed speech data |
US6453289B1 (en) * | 1998-07-24 | 2002-09-17 | Hughes Electronics Corporation | Method of noise reduction for speech codecs |
US6594629B1 (en) * | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
JP2001236085A (ja) * | 2000-02-25 | 2001-08-31 | Matsushita Electric Ind Co Ltd | 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置 |
JP4244514B2 (ja) * | 2000-10-23 | 2009-03-25 | セイコーエプソン株式会社 | 音声認識方法および音声認識装置 |
US6633839B2 (en) * | 2001-02-02 | 2003-10-14 | Motorola, Inc. | Method and apparatus for speech reconstruction in a distributed speech recognition system |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
US7089178B2 (en) * | 2002-04-30 | 2006-08-08 | Qualcomm Inc. | Multistream network feature processing for a distributed speech recognition system |
-
2002
- 2002-08-09 US US10/215,810 patent/US7024353B2/en not_active Expired - Lifetime
-
2003
- 2003-08-01 EP EP03784867A patent/EP1540645A4/en not_active Withdrawn
- 2003-08-01 AU AU2003254288A patent/AU2003254288A1/en not_active Abandoned
- 2003-08-01 RU RU2005106251/09A patent/RU2005106251A/ru not_active Application Discontinuation
- 2003-08-01 WO PCT/US2003/024040 patent/WO2004015685A2/en active Application Filing
- 2003-08-01 KR KR1020057002294A patent/KR20060007363A/ko not_active Application Discontinuation
- 2003-08-01 MX MXPA05001593A patent/MXPA05001593A/es not_active Application Discontinuation
- 2003-08-01 JP JP2004527699A patent/JP2005535920A/ja active Pending
- 2003-08-01 CN CNA038194147A patent/CN1675684A/zh active Pending
-
2005
- 2005-01-26 ZA ZA200500792A patent/ZA200500792B/xx unknown
Also Published As
Publication number | Publication date |
---|---|
AU2003254288A8 (en) | 2004-02-25 |
EP1540645A2 (en) | 2005-06-15 |
EP1540645A4 (en) | 2006-05-31 |
AU2003254288A1 (en) | 2004-02-25 |
US7024353B2 (en) | 2006-04-04 |
CN1675684A (zh) | 2005-09-28 |
WO2004015685A3 (en) | 2004-07-15 |
MXPA05001593A (es) | 2005-09-20 |
JP2005535920A (ja) | 2005-11-24 |
WO2004015685A2 (en) | 2004-02-19 |
ZA200500792B (en) | 2006-07-26 |
KR20060007363A (ko) | 2006-01-24 |
US20040030544A1 (en) | 2004-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2005106251A (ru) | Устройство и способ распределенного распознования речи с помощью речевой активности во внутреннем интерфейсе | |
KR100661040B1 (ko) | 정보 처리 장치 및 방법, 정보 기록 장치 및 방법, 기록 매체 및 제공 매체 | |
US9286909B2 (en) | Method and system for robust audio hashing | |
EP1738355B1 (en) | Signal encoding | |
US20050055201A1 (en) | System and method for real-time detection and preservation of speech onset in a signal | |
US20060053009A1 (en) | Distributed speech recognition system and method | |
CN110120227A (zh) | 一种深度堆叠残差网络的语音分离方法 | |
KR100657916B1 (ko) | 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법 | |
CN101421780A (zh) | 音频编码和解码中的激励处理 | |
CN110647656B (zh) | 一种利用变换域稀疏化和压缩降维的音频检索方法 | |
US11763801B2 (en) | Method and system for outputting target audio, readable storage medium, and electronic device | |
CN101645265A (zh) | 一种音频类别的实时识别方法及装置 | |
Couvreur et al. | Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models | |
Jarina et al. | Rhythm detection for speech-music discrimination in mpeg compressed domain | |
CN108735230B (zh) | 基于混合音频的背景音乐识别方法、装置及设备 | |
US7318023B2 (en) | Method for detecting the quantization of spectra | |
JP2002140093A (ja) | ノイズ含有スピーチのドメインにおいて音響空間の区分、補正およびスケーリング・ベクトルを用いたノイズ低減方法 | |
JP2005512137A5 (ru) | ||
CN116825123A (zh) | 一种基于音频推送的音质优化方法及系统 | |
Sundaram et al. | Usable Speech Detection Using Linear Predictive Analysis–A Model-Based Approach | |
KR20090026504A (ko) | 음성 신호의 스펙트럼 평가 방법 및 장치 | |
US20020095297A1 (en) | Device and method for processing audio information | |
Wang et al. | Parametric vector quantization for coding percussive sounds in music | |
Mapelli et al. | Audio hashing technique for automatic song identification | |
JP2806048B2 (ja) | 自動採譜装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FA94 | Acknowledgement of application withdrawn (non-payment of fees) |
Effective date: 20080226 |