RU2005127871A - Квантование классов для распределенного распознавания речи - Google Patents

Квантование классов для распределенного распознавания речи Download PDF

Info

Publication number
RU2005127871A
RU2005127871A RU2005127871/09A RU2005127871A RU2005127871A RU 2005127871 A RU2005127871 A RU 2005127871A RU 2005127871/09 A RU2005127871/09 A RU 2005127871/09A RU 2005127871 A RU2005127871 A RU 2005127871A RU 2005127871 A RU2005127871 A RU 2005127871A
Authority
RU
Russia
Prior art keywords
pitch
class
frame
information
keyword
Prior art date
Application number
RU2005127871/09A
Other languages
English (en)
Other versions
RU2348019C2 (ru
Inventor
Тенкаси В РАМАБАДРАН (US)
Тенкаси В РАМАБАДРАН
Александр СОРИН (IL)
Александр СОРИН
Original Assignee
Моторола, Инк. (US)
Моторола, Инк.
Интернэшнл Бизнес Машинз Корпорейшн (US)
Интернэшнл Бизнес Машинз Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Моторола, Инк. (US), Моторола, Инк., Интернэшнл Бизнес Машинз Корпорейшн (US), Интернэшнл Бизнес Машинз Корпорейшн filed Critical Моторола, Инк. (US)
Publication of RU2005127871A publication Critical patent/RU2005127871A/ru
Application granted granted Critical
Publication of RU2348019C2 publication Critical patent/RU2348019C2/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/935Mixed voiced class; Transitions

Claims (19)

1. Способ в системе обработки информации для квантования информации о классе и информации об основном тоне звука, заключающийся в том, что принимают звук, захватывают кадр звука, определяют основной тон кадра, вычисляют ключевое слово, представляющее основной тон кадра, причем первое значение ключевого слова указывает неопределенный основной тон, определяют класс кадра, причем класс представляет собой любой один из по меньшей мере двух классов, указывающих неопределенный основной тон, и по меньшей мере одного класса, указывающего определенный основной тон, и вычисляют ключевое слово, представляющее класс кадра, причем длина ключевого слова составляет максимум минимальное количество битов, требуемых для представления по меньшей мере двух классов, указывающих неопределенный основной тон, и минимальное количество битов, требуемых для представления по меньшей мере одного класса, указывающего определенный основной тон, при этом основной тон и класс кадра представляют двумя ключевыми словами.
2. Способ по п.1, в котором, если ключевое слово, представляющее основной тон кадра, указывает неопределенный основной тон, то ключевое слово, представляющее класс кадра, указывает один из по меньшей мере двух классов, указывающих неопределенный основной тон.
3. Способ по п.2, в котором, если ключевое слово, представляющее основной тон кадра, указывает определенный основной тон, то ключевое слово, представляющее класс кадра, указывает один из по меньшей мере одного класса, указывающего определенный основной тон.
4. Способ по п.3, в котором по меньшей мере два класса, указывающие неопределенный основной тон, включают в себя класс отсутствия речи и невокализованный класс.
5. Способ по п.1, в котором система обработки информации представляет собой любую из клиентского компьютера и беспроводного устройства типа мобильного телефона.
6. Способ по п.5, в котором звук относится к речи.
7. Способ по п.6, в котором продолжительность кадра составляет от, приблизительно, 20 до, приблизительно, 30 мс, и последовательные кадры перекрывают друг друга в течение от, приблизительно, 10 до, приблизительно, 15 мс.
8. Способ по п.1, в котором дополнительно передают ключевое слово, представляющее основной тон кадра, и ключевое слово, представляющее класс кадра, на сервер.
9. Система обработки информации для квантования информации о классе и информации об основном тоне звука, содержащая микрофон для приема звука и цифровой процессор сигналов для захвата кадра звука, определения основного тона кадра, вычисления ключевого слова, представляющего основной тон кадра, причем первое значение ключевого слова указывает неопределенный основной тон, определения класса кадра, причем класс представляет собой любой один из по меньшей мере двух классов, указывающих неопределенный основной тон, и по меньшей мере одного класса, указывающего определенный основной тон, и вычисления ключевого слова, представляющего класс кадра, причем длина ключевого слова представляет собой максимум минимальное количество битов, требуемых для представления по меньшей мере двух классов, указывающих неопределенный основной тон, и минимальное количество битов, требуемых для представления по меньшей мере одного класса, указывающего определенный основной тон, при этом основной тон и класс кадра представлены двумя ключевыми словами.
10. Система обработки информации по п.9, в которой, если ключевое слово, представляющее основной тон кадра, указывает неопределенный основной тон, то ключевое слово, представляющее класс кадра, указывает один из по меньшей мере двух классов, указывающих неопределенный основной тон.
11. Система обработки информации по п.10, в которой если ключевое слово, представляющее основной тон кадра, указывает определенный основной тон, то ключевое слово, представляющее класс кадра, указывает один из по меньшей мере одного класса, указывающего определенный основной тон.
12. Система обработки информации по п.11, в которой по меньшей мере два класса, указывающие неопределенный основной тон, включают в себя класс отсутствия речи и невокализованный класс.
13. Система обработки информации по п.9, в которой система обработки информации представляет собой любой из клиентского компьютера и беспроводного устройства типа мобильного телефона.
14. Система обработки информации по п.13, в которой звук относится к речи.
15. Система обработки информации по п.14, в которой продолжительность кадра составляет от, приблизительно, 20 до, приблизительно, 30 мс, и последующие кадры перекрывают друг друга в течение от, приблизительно, 10 до, приблизительно, 15 мс.
16. Система обработки информации по п.9, дополнительно содержащая передатчик для передачи ключевого слова, представляющего основной тон кадра, и ключевого слова, представляющего класс кадра, на сервер.
17. Способ в системе распределенного распознавания речи, заключающийся в том, что принимают звук, организуют принятый звук в кадры, квантуют информацию об основном тоне звука для каждого кадра, причем квантованную информацию об основном тоне звука для каждого кадра представляют одним из множества квантованных значений основного тона, и квантуют информацию о классе для каждого кадра, причем квантованную информацию о классе для каждого кадра представляют одним из множества квантованных значений класса, и при этом одно из множества квантованных значений основного тона резервируют для указания, является ли квантованная информация о классе для каждого кадра одной из категорий категорией невокализованного класса или категорией вокализованного класса, причем квантованное значение класса для каждого кадра выбирают из одной из категорий категории невокализованного класса или категории вокализованного класса.
18. Способ по п.17, в котором дополнительно обеспечивают по меньшей мере одно ключевое слово, включающее в себя квантованную информацию об основном тоне и квантованную информацию о классе по меньшей мере для одного кадра.
19. Способ по п.17, в котором квантованное значение класса для каждого кадра представляют минимальным количеством битов, требуемых для представления одного из по меньшей мере двух классов.
RU2005127871/09A 2003-02-07 2004-02-05 Квантование классов для распределенного распознавания речи RU2348019C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/360,582 US6961696B2 (en) 2003-02-07 2003-02-07 Class quantization for distributed speech recognition
US10/360,582 2003-02-07

Publications (2)

Publication Number Publication Date
RU2005127871A true RU2005127871A (ru) 2006-01-20
RU2348019C2 RU2348019C2 (ru) 2009-02-27

Family

ID=32824044

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2005127871/09A RU2348019C2 (ru) 2003-02-07 2004-02-05 Квантование классов для распределенного распознавания речи

Country Status (8)

Country Link
US (1) US6961696B2 (ru)
EP (1) EP1595249B1 (ru)
KR (1) KR100763325B1 (ru)
CN (1) CN101160380B (ru)
BR (1) BRPI0406952B1 (ru)
RU (1) RU2348019C2 (ru)
TW (1) TWI326447B (ru)
WO (1) WO2004072948A2 (ru)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783488B2 (en) * 2005-12-19 2010-08-24 Nuance Communications, Inc. Remote tracing and debugging of automatic speech recognition servers by speech reconstruction from cepstra and pitch information
CN102256372B (zh) * 2010-05-17 2016-06-22 中兴通讯股份有限公司 Mtc终端接入方法及系统和mtc终端
US9854377B2 (en) 2013-05-29 2017-12-26 Qualcomm Incorporated Interpolation for decomposed representations of a sound field
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
RU2701120C1 (ru) * 2018-05-14 2019-09-24 Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" Устройство для обработки речевого сигнала

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
AU684872B2 (en) * 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
SE512613C2 (sv) * 1996-12-30 2000-04-10 Ericsson Telefon Ab L M Metod och organ för informationshantering
US6058205A (en) * 1997-01-09 2000-05-02 International Business Machines Corporation System and method for partitioning the feature space of a classifier in a pattern classification system
JP3011678B2 (ja) * 1997-07-09 2000-02-21 株式会社精研 たわし
US5924066A (en) * 1997-09-26 1999-07-13 U S West, Inc. System and method for classifying a speech signal
US6038535A (en) * 1998-03-23 2000-03-14 Motorola, Inc. Speech classifier and method using delay elements
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
US6377916B1 (en) * 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
US20020016161A1 (en) * 2000-02-10 2002-02-07 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for compression of speech encoded parameters
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6915256B2 (en) * 2003-02-07 2005-07-05 Motorola, Inc. Pitch quantization for distributed speech recognition
KR20060068278A (ko) * 2004-12-16 2006-06-21 한국전자통신연구원 분산 음성 인식 시스템에서의 멜켑스트럼 계수의 양자화방법 및 장치

Also Published As

Publication number Publication date
KR20050097928A (ko) 2005-10-10
US6961696B2 (en) 2005-11-01
EP1595249A4 (en) 2007-06-20
US20040158461A1 (en) 2004-08-12
EP1595249A2 (en) 2005-11-16
WO2004072948A2 (en) 2004-08-26
RU2348019C2 (ru) 2009-02-27
WO2004072948A3 (en) 2004-12-16
EP1595249B1 (en) 2017-07-12
KR100763325B1 (ko) 2007-10-05
CN101160380B (zh) 2011-09-21
TW200501055A (en) 2005-01-01
CN101160380A (zh) 2008-04-09
BRPI0406952A (pt) 2006-01-03
TWI326447B (en) 2010-06-21
BRPI0406952B1 (pt) 2018-02-27

Similar Documents

Publication Publication Date Title
CN108900725B (zh) 一种声纹识别方法、装置、终端设备及存储介质
CN1306472C (zh) 分布式语音识别系统中用于发送语音活动的系统和方法
CN104040626B (zh) 多译码模式信号分类
CN1302460C (zh) 语音编码中噪音鲁棒分类方法和装置
CN113488024B (zh) 一种基于语义识别的电话打断识别方法和系统
RU2005127871A (ru) Квантование классов для распределенного распознавания речи
CN110364170A (zh) 语音传输方法、装置、计算机装置及存储介质
CN107731232A (zh) 语音翻译方法和装置
CN1046366C (zh) 静态和非静态信号的鉴别
CN114338623B (zh) 音频的处理方法、装置、设备及介质
CN114360561A (zh) 一种基于深度神经网络技术的语音增强方法
US6539349B1 (en) Constraining pulse positions in CELP vocoding
CN112397093A (zh) 一种语音检测方法与装置
CN112017690A (zh) 一种音频处理方法、装置、设备和介质
CN1315721A (zh) 客户服务器语音信息传送系统与方法
RU2005127863A (ru) Квантование основного тона для распределенного распознавания речи
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
EP1388845A1 (en) Transcoder and encoder for speech signals having embedded data
CN111986657B (zh) 音频识别方法和装置、录音终端及服务器、存储介质
EP1298647B1 (en) A communication device and a method for transmitting and receiving of natural speech, comprising a speech recognition module coupled to an encoder
CN111916095A (zh) 语音增强方法、装置、存储介质及电子设备
US6385574B1 (en) Reusing invalid pulse positions in CELP vocoding
CN105989832A (zh) 一种用于在计算机设备中生成个性化语音的方法和装置
CN116013349B (zh) 音频处理方法及相关装置
JP3101430B2 (ja) 音声伝送方式

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20190513

PC43 Official registration of the transfer of the exclusive right without contract for inventions

Effective date: 20190718

PC41 Official registration of the transfer of exclusive right

Effective date: 20190916