RU2005106251A - Устройство и способ распределенного распознования речи с помощью речевой активности во внутреннем интерфейсе - Google Patents

Устройство и способ распределенного распознования речи с помощью речевой активности во внутреннем интерфейсе Download PDF

Info

Publication number
RU2005106251A
RU2005106251A RU2005106251/09A RU2005106251A RU2005106251A RU 2005106251 A RU2005106251 A RU 2005106251A RU 2005106251/09 A RU2005106251/09 A RU 2005106251/09A RU 2005106251 A RU2005106251 A RU 2005106251A RU 2005106251 A RU2005106251 A RU 2005106251A
Authority
RU
Russia
Prior art keywords
speech
spectral components
speech recognition
recognition
several
Prior art date
Application number
RU2005106251/09A
Other languages
English (en)
Inventor
Тенкаси РАМАБАДРАН (US)
Тенкаси РАМАБАДРАН
Original Assignee
Моторола, Инк. (US)
Моторола, Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Моторола, Инк. (US), Моторола, Инк. filed Critical Моторола, Инк. (US)
Publication of RU2005106251A publication Critical patent/RU2005106251A/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Traffic Control Systems (AREA)

Claims (20)

1. Способ, облегчающий распознавание речи, заключающийся в том, что принимают несколько спектральных компонент для распознавания речи, обрабатывают по меньшей мере некоторые из нескольких спектральных компонент для распознавания речи для обеспечения по меньшей мере аппроксимации предшествующей информации, которая произвела несколько спектральных компонент для распознавания речи, обрабатывают по меньшей мере аппроксимацию предшествующей информации для обнаружения участков, которые, вероятно, соответствуют речи, и обеспечения соответствующей идентификации участков речи, обрабатывают несколько спектральных компонент для распознавания речи, как функцию, по меньшей мере частично, идентификации участков речи, для облегчения распознавания речевого содержимого, представленного по меньшей мере некоторыми из спектральных компонент для распознавания речи.
2. Способ по п.1, в котором прием нескольких спектральных компонент для распознавания речи включает в себя прием нескольких спектральных компонент для распознавания речи через радиоканал.
3. Способ по п.1, в котором прием нескольких спектральных компонент для распознавания речи включает в себя прием нескольких спектральных компонент для распознавания речи, в которые входит по меньшей мере один коэффициент косинусного преобразования Фурье Mel-частоты.
4. Способ по п.3, в котором прием нескольких спектральных компонент для распознавания речи, в которые входит по меньшей мере один коэффициент косинусного преобразования Фурье Mel-частоты, включает в себя прием нескольких коэффициентов косинусного преобразования Фурье Mel-частоты.
5. Способ по п.4, в котором прием нескольких коэффициентов косинусного преобразования Фурье Mel-частоты включает в себя прием по меньшей мере 13 коэффициентов косинусного преобразования Фурье Mel-частоты для каждой выборки предшествующей информации.
6. Способ по п.1, в котором обработка по меньшей мере некоторых из нескольких спектральных компонент для распознавания речи для обеспечения по меньшей мере аппроксимации предшествующей информации, которая произвела несколько спектральных компонент для распознавания речи, включает в себя обработку по меньшей мере некоторых из нескольких спектральных компонент для распознавания речи посредством обратного дискретного косинусного преобразования для обеспечения нескольких результирующих значений.
7. Способ по п.6, в котором обработка по меньшей мере некоторых из нескольких спектральных компонент для распознавания речи посредством обратного дискретного косинусного преобразования дополнительно включает в себя обработку по меньшей мере одного из результирующих значений посредством возведения в степень.
8. Способ по п.1, в котором дополнительно обрабатывают по меньшей мере аппроксимацию предшествующей информации для определения значений отношения сигнал-шум, которые, вероятно, соответствуют речи, которая произвела несколько спектральных компонент для распознавания речи.
9. Способ по п.1, в котором обработка нескольких спектральных компонент для распознавания речи, как функции, по меньшей мере частично, идентификации участков речи, для облегчения распознавания речевого содержимого, представленного по меньшей мере некоторыми из спектральных компонент для распознавания речи, дополнительно включает в себя обработку нескольких спектральных компонент для распознавания речи, как функции, по меньшей мере частично, идентификации участков речи и значений отношения сигнал-шум для облегчения распознавания речевого содержимого, представленного по меньшей мере некоторыми из спектральных компонент для распознавания речи.
10. Устройство, используемое для облегчения распределенного распознавания речи, содержащее детектор речевой активности, имеющий вход, подсоединенный с возможностью приема спектральных компонент для распознавания речи, которые получены из предшествующей информации, и имеющий по меньшей мере первый выход, который обеспечивает сигнал обнаружения речи, идентифицирующий каждую выборку по меньшей мере аппроксимации предшествующей информации, которая, вероятно, соответствует речи, блок сегментации, имеющий вход с возможностью подсоединения к первому выходу детектора речевой активности, и имеющий выход, который обеспечивает сигнал обнаружения речи, идентифицирующий участки по меньшей мере аппроксимации предшествующей информации, которые, вероятно, соответствуют речи, и блок сопоставления с эталоном, имеющий входы, подсоединенные с возможностью приема спектральных компонент для распознавания речи и сигнала обнаружения речи, и имеющий выход, который обеспечивает распознанную речь, соответствующую спектральным компонентам распознавания речи.
11. Устройство по п.10, в котором детектор речевой активности дополнительно содержит второй выход, который обеспечивает сигнал отношения сигнал-шум, соответствующий речи, которая произвела несколько спектральных компонент для распознавания речи.
12. Устройство по п.11, в котором блок сопоставления с эталоном дополнительно имеет вход, подсоединенный с возможностью приема сигнала отношения сигнал-шум.
13. Устройство по п.10, в котором спектральные компоненты для распознавания речи включают в себя несколько коэффициентов косинусного преобразования Фурье Mel-частоты.
14. Устройство по п.13, в котором детектор речевой активности содержит средство обратного дискретного косинусного преобразования, облегчающее использование нескольких коэффициентов косинусного преобразования Фурье Mel-частоты для обеспечения по меньшей мере аппроксимации предшествующей информации.
15. Устройство по п.14, в котором детектор речевой активности дополнительно содержит средство возведения в степень, дополнительно облегчающее использование коэффициентов косинусного преобразования Фурье Mel-частоты для обеспечения по меньшей мере аппроксимации предшествующей информации.
16. Устройство по п.10, дополнительно содержащее декодер, имеющий вход, подсоединенный с возможностью приема кодированного потока битов, и выход, который обеспечивает спектральные компоненты для распознавания речи.
17. Устройство по п.16, дополнительно содержащее радиоприемник, выполненный с возможностью подсоединения к декодеру.
18. Способ, облегчающий распознавание речи, заключающийся в том, что принимают через радиоканал сигнал, включающий в себя поток битов, содержащий информацию, полученную из нескольких входных выборок, декодируют поток битов для восстановления тринадцати коэффициентов косинусного преобразования Фурье Mel-частоты и логарифмического значения энергии, которые соответствуют каждому кадру входных выборок, используют обратное дискретное косинусное преобразование и возведение в степень для преобразования коэффициентов косинусного преобразования Фурье Mel-частоты в их спектральное представление, используют спектральное представление для идентификации его участков, которые, вероятно, включают в себя речь, используют коэффициенты косинусного преобразования Фурье Mel-частоты, логарифмическое значение для каждого кадра входных выборок и информацию, идентифицирующую участки, которые, вероятно, включают в себя речь, для облегчения процесса сопоставления с эталоном для распознавания речевого содержимого во входных данных.
19. Способ по п.18, в котором дополнительно используют спектральное представление входных данных для определения значений отношения сигнал-шум.
20. Способ по п.19, в котором использование коэффициентов косинусного преобразования Фурье Mel-частоты, логарифмического значения для каждой из выборок, и информации, идентифицирующей участки входных данных, которые, вероятно, включают в себя речь, для облегчения процесса сопоставления с эталоном для распознавания речевого содержимого во входных данных включает в себя использование коэффициентов косинусного преобразования Фурье Mel-частоты, логарифмического значения для каждой из выборок, и информации, идентифицирующей участки входных данных, которые, вероятно, включают в себя речь, и значений отношения сигнал-шум, для облегчения процесса сопоставления с эталоном для распознавания речевого содержимого во входных данных.
RU2005106251/09A 2002-08-09 2003-08-01 Устройство и способ распределенного распознования речи с помощью речевой активности во внутреннем интерфейсе RU2005106251A (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/215,810 US7024353B2 (en) 2002-08-09 2002-08-09 Distributed speech recognition with back-end voice activity detection apparatus and method
US10/215,810 2002-08-09

Publications (1)

Publication Number Publication Date
RU2005106251A true RU2005106251A (ru) 2005-10-10

Family

ID=31494940

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2005106251/09A RU2005106251A (ru) 2002-08-09 2003-08-01 Устройство и способ распределенного распознования речи с помощью речевой активности во внутреннем интерфейсе

Country Status (10)

Country Link
US (1) US7024353B2 (ru)
EP (1) EP1540645A4 (ru)
JP (1) JP2005535920A (ru)
KR (1) KR20060007363A (ru)
CN (1) CN1675684A (ru)
AU (1) AU2003254288A1 (ru)
MX (1) MXPA05001593A (ru)
RU (1) RU2005106251A (ru)
WO (1) WO2004015685A2 (ru)
ZA (1) ZA200500792B (ru)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6560445B1 (en) * 1999-10-22 2003-05-06 General Dynamics Decision Systems, Inc. Radio communication system and method of operation
GB2422279A (en) * 2004-09-29 2006-07-19 Fluency Voice Technology Ltd Determining Pattern End-Point in an Input Signal
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
CA2612903C (en) * 2005-06-20 2015-04-21 Telecom Italia S.P.A. Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system
KR100791349B1 (ko) * 2005-12-08 2008-01-07 한국전자통신연구원 분산 음성 인식 시스템에서 음성 신호의 코딩 방법 및 그장치
JP5229217B2 (ja) * 2007-02-27 2013-07-03 日本電気株式会社 音声認識システム、方法およびプログラム
US8374851B2 (en) * 2007-07-30 2013-02-12 Texas Instruments Incorporated Voice activity detector and method
US20090150144A1 (en) * 2007-12-10 2009-06-11 Qnx Software Systems (Wavemakers), Inc. Robust voice detector for receive-side automatic gain control
JP5454469B2 (ja) * 2008-05-09 2014-03-26 富士通株式会社 音声認識辞書作成支援装置,処理プログラム,および処理方法
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
JP5712220B2 (ja) * 2009-10-19 2015-05-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声活動検出のための方法および背景推定器
US20110103370A1 (en) 2009-10-29 2011-05-05 General Instruments Corporation Call monitoring and hung call prevention
KR20140026229A (ko) 2010-04-22 2014-03-05 퀄컴 인코포레이티드 음성 액티비티 검출
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
ES2860986T3 (es) 2010-12-24 2021-10-05 Huawei Tech Co Ltd Método y aparato para detectar adaptivamente una actividad de voz en una señal de audio de entrada
KR101251373B1 (ko) 2011-10-27 2013-04-05 한국과학기술연구원 음원 분류 장치 및 그 방법
US8615221B1 (en) 2012-12-06 2013-12-24 Google Inc. System and method for selection of notification techniques in an electronic device
CN104715761B (zh) * 2013-12-16 2018-03-30 深圳市梦网百科信息技术有限公司 一种音频有效数据检测方法和系统
US9037455B1 (en) * 2014-01-08 2015-05-19 Google Inc. Limiting notification interruptions
CN103778914B (zh) * 2014-01-27 2017-02-15 华南理工大学 基于信噪比加权模板特征匹配的抗噪语音识别方法及装置
CN107293287B (zh) * 2014-03-12 2021-10-26 华为技术有限公司 检测音频信号的方法和装置
EP3117210A4 (en) * 2014-03-12 2017-11-01 University Of Virginia Patent Foundation Compositions and methods for treating eye infections and disease
US9489958B2 (en) * 2014-07-31 2016-11-08 Nuance Communications, Inc. System and method to reduce transmission bandwidth via improved discontinuous transmission
US9691413B2 (en) * 2015-10-06 2017-06-27 Microsoft Technology Licensing, Llc Identifying sound from a source of interest based on multiple audio feeds
US10070220B2 (en) * 2015-10-30 2018-09-04 Dialog Semiconductor (Uk) Limited Method for equalization of microphone sensitivities
CN105513589B (zh) * 2015-12-18 2020-04-28 百度在线网络技术(北京)有限公司 语音识别方法和装置
US10090005B2 (en) * 2016-03-10 2018-10-02 Aspinity, Inc. Analog voice activity detection
CN107919130B (zh) * 2017-11-06 2021-12-17 百度在线网络技术(北京)有限公司 基于云端的语音处理方法和装置
US10861484B2 (en) * 2018-12-10 2020-12-08 Cirrus Logic, Inc. Methods and systems for speech detection
CN112489692A (zh) * 2020-11-03 2021-03-12 北京捷通华声科技股份有限公司 语音端点检测方法和装置
CN113345473B (zh) * 2021-06-24 2024-02-13 中国科学技术大学 语音端点检测方法、装置、电子设备和存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2153170C (en) * 1993-11-30 2000-12-19 At&T Corp. Transmitted noise reduction in communications systems
US6104993A (en) 1997-02-26 2000-08-15 Motorola, Inc. Apparatus and method for rate determination in a communication system
WO1999013608A2 (en) * 1997-09-10 1999-03-18 Koninklijke Philips Electronics N.V. A communication system and a terminal having speech encoding and decoding means
US6003004A (en) * 1998-01-08 1999-12-14 Advanced Recognition Technologies, Inc. Speech recognition method and system using compressed speech data
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
JP2001236085A (ja) * 2000-02-25 2001-08-31 Matsushita Electric Ind Co Ltd 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
US6633839B2 (en) * 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US7089178B2 (en) * 2002-04-30 2006-08-08 Qualcomm Inc. Multistream network feature processing for a distributed speech recognition system

Also Published As

Publication number Publication date
AU2003254288A8 (en) 2004-02-25
EP1540645A2 (en) 2005-06-15
EP1540645A4 (en) 2006-05-31
AU2003254288A1 (en) 2004-02-25
US7024353B2 (en) 2006-04-04
CN1675684A (zh) 2005-09-28
WO2004015685A3 (en) 2004-07-15
MXPA05001593A (es) 2005-09-20
JP2005535920A (ja) 2005-11-24
WO2004015685A2 (en) 2004-02-19
ZA200500792B (en) 2006-07-26
KR20060007363A (ko) 2006-01-24
US20040030544A1 (en) 2004-02-12

Similar Documents

Publication Publication Date Title
RU2005106251A (ru) Устройство и способ распределенного распознования речи с помощью речевой активности во внутреннем интерфейсе
KR100661040B1 (ko) 정보 처리 장치 및 방법, 정보 기록 장치 및 방법, 기록 매체 및 제공 매체
US9286909B2 (en) Method and system for robust audio hashing
EP1738355B1 (en) Signal encoding
US20050055201A1 (en) System and method for real-time detection and preservation of speech onset in a signal
US20060053009A1 (en) Distributed speech recognition system and method
CN110120227A (zh) 一种深度堆叠残差网络的语音分离方法
KR100657916B1 (ko) 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
CN101421780A (zh) 音频编码和解码中的激励处理
CN110647656B (zh) 一种利用变换域稀疏化和压缩降维的音频检索方法
US11763801B2 (en) Method and system for outputting target audio, readable storage medium, and electronic device
CN101645265A (zh) 一种音频类别的实时识别方法及装置
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models
Jarina et al. Rhythm detection for speech-music discrimination in mpeg compressed domain
CN108735230B (zh) 基于混合音频的背景音乐识别方法、装置及设备
US7318023B2 (en) Method for detecting the quantization of spectra
JP2002140093A (ja) ノイズ含有スピーチのドメインにおいて音響空間の区分、補正およびスケーリング・ベクトルを用いたノイズ低減方法
JP2005512137A5 (ru)
CN116825123A (zh) 一种基于音频推送的音质优化方法及系统
Sundaram et al. Usable Speech Detection Using Linear Predictive Analysis–A Model-Based Approach
KR20090026504A (ko) 음성 신호의 스펙트럼 평가 방법 및 장치
US20020095297A1 (en) Device and method for processing audio information
Wang et al. Parametric vector quantization for coding percussive sounds in music
Mapelli et al. Audio hashing technique for automatic song identification
JP2806048B2 (ja) 自動採譜装置

Legal Events

Date Code Title Description
FA94 Acknowledgement of application withdrawn (non-payment of fees)

Effective date: 20080226