RU2005127871A - Квантование классов для распределенного распознавания речи - Google Patents
Квантование классов для распределенного распознавания речи Download PDFInfo
- Publication number
- RU2005127871A RU2005127871A RU2005127871/09A RU2005127871A RU2005127871A RU 2005127871 A RU2005127871 A RU 2005127871A RU 2005127871/09 A RU2005127871/09 A RU 2005127871/09A RU 2005127871 A RU2005127871 A RU 2005127871A RU 2005127871 A RU2005127871 A RU 2005127871A
- Authority
- RU
- Russia
- Prior art keywords
- pitch
- class
- frame
- information
- keyword
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/72—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/935—Mixed voiced class; Transitions
Claims (19)
1. Способ в системе обработки информации для квантования информации о классе и информации об основном тоне звука, заключающийся в том, что принимают звук, захватывают кадр звука, определяют основной тон кадра, вычисляют ключевое слово, представляющее основной тон кадра, причем первое значение ключевого слова указывает неопределенный основной тон, определяют класс кадра, причем класс представляет собой любой один из по меньшей мере двух классов, указывающих неопределенный основной тон, и по меньшей мере одного класса, указывающего определенный основной тон, и вычисляют ключевое слово, представляющее класс кадра, причем длина ключевого слова составляет максимум минимальное количество битов, требуемых для представления по меньшей мере двух классов, указывающих неопределенный основной тон, и минимальное количество битов, требуемых для представления по меньшей мере одного класса, указывающего определенный основной тон, при этом основной тон и класс кадра представляют двумя ключевыми словами.
2. Способ по п.1, в котором, если ключевое слово, представляющее основной тон кадра, указывает неопределенный основной тон, то ключевое слово, представляющее класс кадра, указывает один из по меньшей мере двух классов, указывающих неопределенный основной тон.
3. Способ по п.2, в котором, если ключевое слово, представляющее основной тон кадра, указывает определенный основной тон, то ключевое слово, представляющее класс кадра, указывает один из по меньшей мере одного класса, указывающего определенный основной тон.
4. Способ по п.3, в котором по меньшей мере два класса, указывающие неопределенный основной тон, включают в себя класс отсутствия речи и невокализованный класс.
5. Способ по п.1, в котором система обработки информации представляет собой любую из клиентского компьютера и беспроводного устройства типа мобильного телефона.
6. Способ по п.5, в котором звук относится к речи.
7. Способ по п.6, в котором продолжительность кадра составляет от, приблизительно, 20 до, приблизительно, 30 мс, и последовательные кадры перекрывают друг друга в течение от, приблизительно, 10 до, приблизительно, 15 мс.
8. Способ по п.1, в котором дополнительно передают ключевое слово, представляющее основной тон кадра, и ключевое слово, представляющее класс кадра, на сервер.
9. Система обработки информации для квантования информации о классе и информации об основном тоне звука, содержащая микрофон для приема звука и цифровой процессор сигналов для захвата кадра звука, определения основного тона кадра, вычисления ключевого слова, представляющего основной тон кадра, причем первое значение ключевого слова указывает неопределенный основной тон, определения класса кадра, причем класс представляет собой любой один из по меньшей мере двух классов, указывающих неопределенный основной тон, и по меньшей мере одного класса, указывающего определенный основной тон, и вычисления ключевого слова, представляющего класс кадра, причем длина ключевого слова представляет собой максимум минимальное количество битов, требуемых для представления по меньшей мере двух классов, указывающих неопределенный основной тон, и минимальное количество битов, требуемых для представления по меньшей мере одного класса, указывающего определенный основной тон, при этом основной тон и класс кадра представлены двумя ключевыми словами.
10. Система обработки информации по п.9, в которой, если ключевое слово, представляющее основной тон кадра, указывает неопределенный основной тон, то ключевое слово, представляющее класс кадра, указывает один из по меньшей мере двух классов, указывающих неопределенный основной тон.
11. Система обработки информации по п.10, в которой если ключевое слово, представляющее основной тон кадра, указывает определенный основной тон, то ключевое слово, представляющее класс кадра, указывает один из по меньшей мере одного класса, указывающего определенный основной тон.
12. Система обработки информации по п.11, в которой по меньшей мере два класса, указывающие неопределенный основной тон, включают в себя класс отсутствия речи и невокализованный класс.
13. Система обработки информации по п.9, в которой система обработки информации представляет собой любой из клиентского компьютера и беспроводного устройства типа мобильного телефона.
14. Система обработки информации по п.13, в которой звук относится к речи.
15. Система обработки информации по п.14, в которой продолжительность кадра составляет от, приблизительно, 20 до, приблизительно, 30 мс, и последующие кадры перекрывают друг друга в течение от, приблизительно, 10 до, приблизительно, 15 мс.
16. Система обработки информации по п.9, дополнительно содержащая передатчик для передачи ключевого слова, представляющего основной тон кадра, и ключевого слова, представляющего класс кадра, на сервер.
17. Способ в системе распределенного распознавания речи, заключающийся в том, что принимают звук, организуют принятый звук в кадры, квантуют информацию об основном тоне звука для каждого кадра, причем квантованную информацию об основном тоне звука для каждого кадра представляют одним из множества квантованных значений основного тона, и квантуют информацию о классе для каждого кадра, причем квантованную информацию о классе для каждого кадра представляют одним из множества квантованных значений класса, и при этом одно из множества квантованных значений основного тона резервируют для указания, является ли квантованная информация о классе для каждого кадра одной из категорий категорией невокализованного класса или категорией вокализованного класса, причем квантованное значение класса для каждого кадра выбирают из одной из категорий категории невокализованного класса или категории вокализованного класса.
18. Способ по п.17, в котором дополнительно обеспечивают по меньшей мере одно ключевое слово, включающее в себя квантованную информацию об основном тоне и квантованную информацию о классе по меньшей мере для одного кадра.
19. Способ по п.17, в котором квантованное значение класса для каждого кадра представляют минимальным количеством битов, требуемых для представления одного из по меньшей мере двух классов.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/360,582 US6961696B2 (en) | 2003-02-07 | 2003-02-07 | Class quantization for distributed speech recognition |
US10/360,582 | 2003-02-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2005127871A true RU2005127871A (ru) | 2006-01-20 |
RU2348019C2 RU2348019C2 (ru) | 2009-02-27 |
Family
ID=32824044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2005127871/09A RU2348019C2 (ru) | 2003-02-07 | 2004-02-05 | Квантование классов для распределенного распознавания речи |
Country Status (8)
Country | Link |
---|---|
US (1) | US6961696B2 (ru) |
EP (1) | EP1595249B1 (ru) |
KR (1) | KR100763325B1 (ru) |
CN (1) | CN101160380B (ru) |
BR (1) | BRPI0406952B1 (ru) |
RU (1) | RU2348019C2 (ru) |
TW (1) | TWI326447B (ru) |
WO (1) | WO2004072948A2 (ru) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7783488B2 (en) * | 2005-12-19 | 2010-08-24 | Nuance Communications, Inc. | Remote tracing and debugging of automatic speech recognition servers by speech reconstruction from cepstra and pitch information |
CN102256372B (zh) * | 2010-05-17 | 2016-06-22 | 中兴通讯股份有限公司 | Mtc终端接入方法及系统和mtc终端 |
US9854377B2 (en) | 2013-05-29 | 2017-12-26 | Qualcomm Incorporated | Interpolation for decomposed representations of a sound field |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US9489955B2 (en) | 2014-01-30 | 2016-11-08 | Qualcomm Incorporated | Indicating frame parameter reusability for coding vectors |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
RU2701120C1 (ru) * | 2018-05-14 | 2019-09-24 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" | Устройство для обработки речевого сигнала |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5680508A (en) * | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
AU684872B2 (en) * | 1994-03-10 | 1998-01-08 | Cable And Wireless Plc | Communication system |
US5699485A (en) * | 1995-06-07 | 1997-12-16 | Lucent Technologies Inc. | Pitch delay modification during frame erasures |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
SE512613C2 (sv) * | 1996-12-30 | 2000-04-10 | Ericsson Telefon Ab L M | Metod och organ för informationshantering |
US6058205A (en) * | 1997-01-09 | 2000-05-02 | International Business Machines Corporation | System and method for partitioning the feature space of a classifier in a pattern classification system |
JP3011678B2 (ja) * | 1997-07-09 | 2000-02-21 | 株式会社精研 | たわし |
US5924066A (en) * | 1997-09-26 | 1999-07-13 | U S West, Inc. | System and method for classifying a speech signal |
US6038535A (en) * | 1998-03-23 | 2000-03-14 | Motorola, Inc. | Speech classifier and method using delay elements |
GB9811019D0 (en) * | 1998-05-21 | 1998-07-22 | Univ Surrey | Speech coders |
US6377915B1 (en) * | 1999-03-17 | 2002-04-23 | Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. | Speech decoding using mix ratio table |
US6377916B1 (en) * | 1999-11-29 | 2002-04-23 | Digital Voice Systems, Inc. | Multiband harmonic transform coder |
US20020016161A1 (en) * | 2000-02-10 | 2002-02-07 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for compression of speech encoded parameters |
US6934756B2 (en) * | 2000-11-01 | 2005-08-23 | International Business Machines Corporation | Conversational networking via transport, coding and control conversational protocols |
US6915256B2 (en) * | 2003-02-07 | 2005-07-05 | Motorola, Inc. | Pitch quantization for distributed speech recognition |
KR20060068278A (ko) * | 2004-12-16 | 2006-06-21 | 한국전자통신연구원 | 분산 음성 인식 시스템에서의 멜켑스트럼 계수의 양자화방법 및 장치 |
-
2003
- 2003-02-07 US US10/360,582 patent/US6961696B2/en not_active Expired - Lifetime
-
2004
- 2004-02-05 CN CN2004800036671A patent/CN101160380B/zh not_active Expired - Lifetime
- 2004-02-05 WO PCT/US2004/003419 patent/WO2004072948A2/en active Application Filing
- 2004-02-05 KR KR1020057012452A patent/KR100763325B1/ko active IP Right Grant
- 2004-02-05 EP EP04708622.8A patent/EP1595249B1/en not_active Expired - Lifetime
- 2004-02-05 RU RU2005127871/09A patent/RU2348019C2/ru active
- 2004-02-05 BR BRPI0406952-8A patent/BRPI0406952B1/pt active IP Right Grant
- 2004-02-06 TW TW093102827A patent/TWI326447B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR20050097928A (ko) | 2005-10-10 |
US6961696B2 (en) | 2005-11-01 |
EP1595249A4 (en) | 2007-06-20 |
US20040158461A1 (en) | 2004-08-12 |
EP1595249A2 (en) | 2005-11-16 |
WO2004072948A2 (en) | 2004-08-26 |
RU2348019C2 (ru) | 2009-02-27 |
WO2004072948A3 (en) | 2004-12-16 |
EP1595249B1 (en) | 2017-07-12 |
KR100763325B1 (ko) | 2007-10-05 |
CN101160380B (zh) | 2011-09-21 |
TW200501055A (en) | 2005-01-01 |
CN101160380A (zh) | 2008-04-09 |
BRPI0406952A (pt) | 2006-01-03 |
TWI326447B (en) | 2010-06-21 |
BRPI0406952B1 (pt) | 2018-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108900725B (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
CN1306472C (zh) | 分布式语音识别系统中用于发送语音活动的系统和方法 | |
CN104040626B (zh) | 多译码模式信号分类 | |
CN1302460C (zh) | 语音编码中噪音鲁棒分类方法和装置 | |
CN113488024B (zh) | 一种基于语义识别的电话打断识别方法和系统 | |
RU2005127871A (ru) | Квантование классов для распределенного распознавания речи | |
CN110364170A (zh) | 语音传输方法、装置、计算机装置及存储介质 | |
CN107731232A (zh) | 语音翻译方法和装置 | |
CN1046366C (zh) | 静态和非静态信号的鉴别 | |
CN114338623B (zh) | 音频的处理方法、装置、设备及介质 | |
CN114360561A (zh) | 一种基于深度神经网络技术的语音增强方法 | |
US6539349B1 (en) | Constraining pulse positions in CELP vocoding | |
CN112397093A (zh) | 一种语音检测方法与装置 | |
CN112017690A (zh) | 一种音频处理方法、装置、设备和介质 | |
CN1315721A (zh) | 客户服务器语音信息传送系统与方法 | |
RU2005127863A (ru) | Квантование основного тона для распределенного распознавания речи | |
KR100766170B1 (ko) | 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법 | |
EP1388845A1 (en) | Transcoder and encoder for speech signals having embedded data | |
CN111986657B (zh) | 音频识别方法和装置、录音终端及服务器、存储介质 | |
EP1298647B1 (en) | A communication device and a method for transmitting and receiving of natural speech, comprising a speech recognition module coupled to an encoder | |
CN111916095A (zh) | 语音增强方法、装置、存储介质及电子设备 | |
US6385574B1 (en) | Reusing invalid pulse positions in CELP vocoding | |
CN105989832A (zh) | 一种用于在计算机设备中生成个性化语音的方法和装置 | |
CN116013349B (zh) | 音频处理方法及相关装置 | |
JP3101430B2 (ja) | 音声伝送方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20190513 |
|
PC43 | Official registration of the transfer of the exclusive right without contract for inventions |
Effective date: 20190718 |
|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20190916 |