RU2005127863A - Квантование основного тона для распределенного распознавания речи - Google Patents
Квантование основного тона для распределенного распознавания речи Download PDFInfo
- Publication number
- RU2005127863A RU2005127863A RU2005127863/09A RU2005127863A RU2005127863A RU 2005127863 A RU2005127863 A RU 2005127863A RU 2005127863/09 A RU2005127863/09 A RU 2005127863/09A RU 2005127863 A RU2005127863 A RU 2005127863A RU 2005127863 A RU2005127863 A RU 2005127863A
- Authority
- RU
- Russia
- Prior art keywords
- frame
- class
- pitch
- length
- numbered
- Prior art date
Links
- 238000013139 quantization Methods 0.000 title claims 9
- 230000010365 information processing Effects 0.000 claims 18
- 238000000034 method Methods 0.000 claims 11
- 238000004364 calculation method Methods 0.000 claims 4
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/935—Mixed voiced class; Transitions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mobile Radio Communication Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Claims (24)
1. Способ в системе обработки информации для квантования информации об основном тоне звука, содержащий захват звука, с представлением пронумерованного кадра из множества пронумерованных кадров, вычисление класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса, если кадр представляет собой вокализированный класс, вычисление основного тона для кадра, если кадр представляет собой кадр с четным номером и вокализированный класс, вычисление ключевого слова первой длины посредством абсолютного квантования основного тона кадра, если кадр представляет собой кадр с четным номером и невокализированный класс, вычисление ключевого слова первой длины, указывающего кадр невокализированного класса, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и по меньшей мере один из трех кадров, непосредственно предшествующих этому кадру, является достоверным, вычисление ключевого слова второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон самого близкого предшествующего достоверного кадра, в котором первая длина больше, чем вторая длина, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и каждый из трех кадров, непосредственно предшествующих этому кадру, является недостоверным, вычисление ключевого слова второй длины посредством абсолютного квантования основного тона кадра, и если кадр представляет собой кадр с нечетным номером и невокализированный класс, вычисление ключевого слова второй длины, указывающего кадр невокализированного класса.
2. Способ по п.1, в котором кадр с четным номером является достоверным, если он представляет собой вокализированный класс.
3. Способ по п.2, в котором кадр с нечетным номером является достоверным, если он представляет собой вокализированный класс, а основной тон кадра квантуется абсолютно или квантуется дифференциально, ссылаясь на основной тон непосредственно предшествующего кадра.
4. Способ по п.1, в котором система обработки информации представляет собой любой из клиентского компьютера и беспроводного устройства типа мобильного телефона.
5. Способ по п.4, в котором звук относится к речи.
6. Способ по п.5, в котором кадр включает в себя от, приблизительно, 20 до, приблизительно, 30 мс звука, а последовательные кадры могут перекрывать друг друга в течение периода от, приблизительно, 10 до, приблизительно, 15 мс.
7. Способ по п.1, дополнительно содержащий передачу ключевого слова, которое было рассчитано, на сервер.
8. Система обработки информации для квантования информации об основном тоне звука, содержащая микрофон для захвата звука, с представлением пронумерованного кадра из множества пронумерованных кадров, и цифровой процессор сигналов, предназначенный для вычисления класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса, если кадр представляет собой вокализированный класс, вычисления основного тона для кадра, если кадр представляет собой кадр с четным номером и вокализированный класс, вычисления ключевого слова первой длины посредством абсолютного квантования основного тона кадра, если кадр представляет собой кадр с четным номером и невокализированный класс, вычисление ключевого слова первой длины, указывающего кадр невокализированного класса, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и по меньшей мере один из трех кадров, непосредственно предшествующих этому кадру, является достоверным, вычисления ключевого слова второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон ближайшего предшествующего достоверного кадра, в котором первая длина больше, чем вторая длина, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и каждый из трех кадров, непосредственно предшествующих этому кадру, является недостоверным, вычисления ключевого слова второй длины посредством абсолютного квантования основного тона кадра, и если кадр представляет собой кадр с нечетным номером и невокализированный класс, вычисления ключевого слова второй длины, указывающего кадр невокализированного класса.
9. Система обработки информации по п.8, в которой кадр с четным номером является достоверным, если он представляет собой вокализированный класс.
10. Система обработки информации по п.9, в которой кадр с нечетным номером является достоверным, если он представляет собой вокализированный класс, а основной тон кадра квантуется абсолютно или квантуется дифференциально, ссылаясь на основной тон непосредственно предшествующего кадра.
11. Система обработки информации по п.8, в которой система обработки информации представляет собой любой из клиентского компьютера и беспроводного устройства типа мобильного телефона.
12. Система обработки информации по п.11, в которой звук относится к речи.
13. Система обработки информации по п.12, в которой кадр включает в себя от, приблизительно, 20 до, приблизительно, 30 мс звука, а последовательные кадры могут перекрывать друг друга в течение периода от, приблизительно, 10 до, приблизительно, 15 мс.
14. Система обработки информации по п.8, дополнительно содержащая передатчик для передачи ключевого слова, которое было рассчитано, на сервер.
15. Система обработки информации для квантования информации об основном тоне звука, содержащая средство для захвата звука, с представлением пронумерованного кадра из множества пронумерованных кадров, средство для вычисления класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса, если кадр представляет собой вокализированный класс, средство для вычисления основного тона для кадра, если кадр представляет собой кадр с четным номером и вокализированный класс, средство для вычисления ключевого слова первой длины посредством абсолютного квантования основного тона кадра, если кадр представляет собой кадр с четным номером и невокализированный класс, средство для вычисления ключевого слова первой длины, указывающего кадр невокализированного класса, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и по меньшей мере один из трех кадров, непосредственно предшествующих кадру, является достоверным, средство для вычисления ключевого слова второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон ближайшего предшествующего достоверного кадра, в котором первая длина больше, чем вторая длина, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и каждый из трех кадров, непосредственно предшествующих кадру, является недостоверным, средство для вычисления ключевого слова второй длины посредством абсолютного квантования основного тона кадра, и если кадр представляет собой кадр с нечетным номером и невокализированный класс, средство для вычисления ключевого слова второй длины, указывающего кадр невокализированного класса.
16. Система обработки информации по п.15, в которой кадр с четным номером является достоверным, если он представляет собой вокализированный класс.
17. Система обработки информации по п.16, в которой кадр с нечетным номером является достоверным, если он представляет собой вокализированный класс, а основной тон кадра квантуется абсолютно или квантуется дифференциально, ссылаясь на основной тон непосредственно предшествующего кадра.
18. Система обработки информации по п.15, в которой система обработки информации представляет собой любой из клиентского компьютера и беспроводного устройства типа мобильного телефона.
19. Система обработки информации по п.18, в которой звук относится к речи.
20. Система обработки информации по п.15, дополнительно содержащая передатчик для передачи ключевого слова, которое было рассчитано, на сервер.
21. Способ в системе обработки информации для квантования информации об основном тоне звука, содержащий захват звука, с представлением пронумерованного кадра из множества пронумерованных кадров, вычисление класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса, если кадр представляет собой вокализированный класс, вычисление основного тона для кадра, если кадр представляет собой вокализированный класс, а номер n кадра является кратным предварительно определенному числу N > 0, вычисление ключевого слова первой длины посредством абсолютного квантования основного тона кадра, если кадр представляет собой невокализированный класс, а номер n кадра является кратным N, вычисление ключевого слова первой длины, указывающего кадр невокализированного класса, если кадр представляет собой невокализированный класс, а номер n кадра не является кратным N, вычисление ключевого слова второй длины, указывающего кадр невокализированного класса, в котором первая длина больше, чем вторая длина, если кадр представляет собой вокализированный класс, а номер n кадра не является кратным N, и основной тон кадра может быть квантован дифференциально, ссылаясь на квантованный основной тон предшествующего вокализированного кадра так, что полная длина зависимости кадра не превышает значение, заданное предварительно определенной функцией D(n) номера n кадра, вычисление ключевого слова второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон предшествующего вокализированного кадра, в котором полная длина зависимости кадра, основной тон которого квантуется абсолютно, составляет 0, и полная длина зависимости кадра, основной тон которого квантуется дифференциально, составляет сумму полной длины зависимости кадра исходной точки и расстояния, измеренного в кадре, считая номера между этим кадром и кадром исходной точки, и если кадр представляет собой вокализированный класс, а номер n кадра не является кратным N, и основной тон кадра не может быть квантован дифференциально, ссылаясь на квантованный основной тон предшествующего вокализированного кадра, так что полная длина зависимости кадра не превышает значение, заданное предварительно определенной функцией D(n) номера кадра n, вычисление ключевого слова второй длины посредством абсолютного квантования основного тона кадра.
22. Способ по п.21, в котором дифференциальное квантование основного тона кадра выполняется с использованием самого близкого предшествующего кадра в качестве кадра исходной точки так, чтобы полная длина зависимости кадра не превышала значение, заданное предварительно определенной функцией D(n) номера n кадра.
23. Способ по п.21, в котором D(n) = kN + n модуль N, где k - предварительно определенное неотрицательное число.
24. Способ по п.23, в котором N=2 и k=1.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/360,581 | 2003-02-07 | ||
US10/360,581 US6915256B2 (en) | 2003-02-07 | 2003-02-07 | Pitch quantization for distributed speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2005127863A true RU2005127863A (ru) | 2006-01-27 |
RU2331932C2 RU2331932C2 (ru) | 2008-08-20 |
Family
ID=32867946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2005127863/09A RU2331932C2 (ru) | 2003-02-07 | 2004-02-05 | Квантование основного тона для распределенного распознавания речи |
Country Status (9)
Country | Link |
---|---|
US (1) | US6915256B2 (ru) |
EP (1) | EP1595244B1 (ru) |
KR (1) | KR100641673B1 (ru) |
CN (1) | CN1748244B (ru) |
BR (1) | BRPI0406956B1 (ru) |
ES (1) | ES2395717T3 (ru) |
RU (1) | RU2331932C2 (ru) |
TW (1) | TWI333640B (ru) |
WO (1) | WO2004072949A2 (ru) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6961696B2 (en) * | 2003-02-07 | 2005-11-01 | Motorola, Inc. | Class quantization for distributed speech recognition |
US8249873B2 (en) | 2005-08-12 | 2012-08-21 | Avaya Inc. | Tonal correction of speech |
US7783488B2 (en) * | 2005-12-19 | 2010-08-24 | Nuance Communications, Inc. | Remote tracing and debugging of automatic speech recognition servers by speech reconstruction from cepstra and pitch information |
TWI299133B (en) | 2006-01-23 | 2008-07-21 | Realtek Semiconductor Corp | Webcasting system and audio regulating methods therefor |
KR101317269B1 (ko) | 2007-06-07 | 2013-10-14 | 삼성전자주식회사 | 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치 |
US9269366B2 (en) * | 2009-08-03 | 2016-02-23 | Broadcom Corporation | Hybrid instantaneous/differential pitch period coding |
EP4131258A1 (en) * | 2010-07-20 | 2023-02-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, audio decoding method, audio encoder, audio encoding method and computer program |
US8645128B1 (en) | 2012-10-02 | 2014-02-04 | Google Inc. | Determining pitch dynamics of an audio signal |
US9454976B2 (en) | 2013-10-14 | 2016-09-27 | Zanavox | Efficient discrimination of voiced and unvoiced sounds |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0782359B2 (ja) * | 1989-04-21 | 1995-09-06 | 三菱電機株式会社 | 音声符号化装置、音声復号化装置及び音声符号化・復号化装置 |
US5081681B1 (en) * | 1989-11-30 | 1995-08-15 | Digital Voice Systems Inc | Method and apparatus for phase synthesis for speech processing |
US6041297A (en) * | 1997-03-10 | 2000-03-21 | At&T Corp | Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations |
US6199037B1 (en) * | 1997-12-04 | 2001-03-06 | Digital Voice Systems, Inc. | Joint quantization of speech subframe voicing metrics and fundamental frequencies |
GB9811019D0 (en) * | 1998-05-21 | 1998-07-22 | Univ Surrey | Speech coders |
US6094629A (en) * | 1998-07-13 | 2000-07-25 | Lockheed Martin Corp. | Speech coding system and method including spectral quantizer |
US6377916B1 (en) * | 1999-11-29 | 2002-04-23 | Digital Voice Systems, Inc. | Multiband harmonic transform coder |
-
2003
- 2003-02-07 US US10/360,581 patent/US6915256B2/en not_active Expired - Lifetime
-
2004
- 2004-02-05 WO PCT/US2004/003425 patent/WO2004072949A2/en active Application Filing
- 2004-02-05 CN CN2004800036741A patent/CN1748244B/zh not_active Expired - Lifetime
- 2004-02-05 KR KR1020057012455A patent/KR100641673B1/ko active IP Right Grant
- 2004-02-05 RU RU2005127863/09A patent/RU2331932C2/ru active
- 2004-02-05 ES ES04708630T patent/ES2395717T3/es not_active Expired - Lifetime
- 2004-02-05 EP EP04708630A patent/EP1595244B1/en not_active Expired - Lifetime
- 2004-02-05 BR BRPI0406956-0A patent/BRPI0406956B1/pt active IP Right Grant
- 2004-02-06 TW TW093102838A patent/TWI333640B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
TWI333640B (en) | 2010-11-21 |
RU2331932C2 (ru) | 2008-08-20 |
EP1595244A2 (en) | 2005-11-16 |
US6915256B2 (en) | 2005-07-05 |
US20040172243A1 (en) | 2004-09-02 |
KR100641673B1 (ko) | 2006-11-10 |
EP1595244B1 (en) | 2012-11-14 |
EP1595244A4 (en) | 2006-03-08 |
BRPI0406956A (pt) | 2006-01-03 |
CN1748244A (zh) | 2006-03-15 |
TW200506814A (en) | 2005-02-16 |
CN1748244B (zh) | 2010-09-29 |
KR20050097929A (ko) | 2005-10-10 |
ES2395717T3 (es) | 2013-02-14 |
WO2004072949A3 (en) | 2004-12-09 |
WO2004072949A2 (en) | 2004-08-26 |
BRPI0406956B1 (pt) | 2018-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210294833A1 (en) | System and method for rich media annotation | |
US10019998B2 (en) | Detecting distorted audio signals based on audio fingerprinting | |
US20210193174A1 (en) | Real-time voice phishing detection | |
US20180047416A1 (en) | Indexing based on time-variant transforms of an audio signal's spectrogram | |
US20160371305A1 (en) | Method, device and apparatus for generating picture search library, and picture search method, device and apparatus | |
US20160283841A1 (en) | Convolutional neural networks | |
CN103038765A (zh) | 用于适配情境模型的方法和装置 | |
CN111951780B (zh) | 语音合成的多任务模型训练方法及相关设备 | |
CN113035231B (zh) | 关键词检测方法及装置 | |
US10878837B1 (en) | Acoustic neural network scene detection | |
CN111444382B (zh) | 一种音频处理方法、装置、计算机设备以及存储介质 | |
WO2010091554A1 (zh) | 一种基音周期检测方法和装置 | |
CN112562633B (zh) | 一种歌唱合成方法、装置、电子设备及存储介质 | |
RU2005127863A (ru) | Квантование основного тона для распределенного распознавания речи | |
CN110992963A (zh) | 网络通话方法、装置、计算机设备及存储介质 | |
CN113327610A (zh) | 一种语音唤醒方法、装置及设备 | |
CN113205820A (zh) | 一种用于声音事件检测的声音编码器的生成方法 | |
CN114155832A (zh) | 基于深度学习的语音识别方法、装置、设备及介质 | |
JP5348941B2 (ja) | 携帯端末装置の移動状態を推定する方法及びシステム | |
Kumar et al. | Performance evaluation of a ACF-AMDF based pitch detection scheme in real-time | |
CN113674723B (zh) | 一种音频处理方法、计算机设备及可读存储介质 | |
CN116580702A (zh) | 基于人工智能的语音识别方法、装置、计算机设备及介质 | |
RU2005127871A (ru) | Квантование классов для распределенного распознавания речи | |
CN113823298B (zh) | 语音数据处理方法、装置、计算机设备及存储介质 | |
US20190115044A1 (en) | Method and device for audio recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20190513 |
|
PC43 | Official registration of the transfer of the exclusive right without contract for inventions |
Effective date: 20190718 |
|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20190916 |