RU2005127863A - Квантование основного тона для распределенного распознавания речи - Google Patents

Квантование основного тона для распределенного распознавания речи Download PDF

Info

Publication number
RU2005127863A
RU2005127863A RU2005127863/09A RU2005127863A RU2005127863A RU 2005127863 A RU2005127863 A RU 2005127863A RU 2005127863/09 A RU2005127863/09 A RU 2005127863/09A RU 2005127863 A RU2005127863 A RU 2005127863A RU 2005127863 A RU2005127863 A RU 2005127863A
Authority
RU
Russia
Prior art keywords
frame
class
pitch
length
numbered
Prior art date
Application number
RU2005127863/09A
Other languages
English (en)
Other versions
RU2331932C2 (ru
Inventor
Тенкаси В. РАМАБАДРАН (US)
Тенкаси В. РАМАБАДРАН
Александр СОРИН (IL)
Александр СОРИН
Original Assignee
Моторола, Инк. (US)
Моторола, Инк.
Интернэшнл Бизнес Машинз Корпорейшн (US)
Интернэшнл Бизнес Машинз Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Моторола, Инк. (US), Моторола, Инк., Интернэшнл Бизнес Машинз Корпорейшн (US), Интернэшнл Бизнес Машинз Корпорейшн filed Critical Моторола, Инк. (US)
Publication of RU2005127863A publication Critical patent/RU2005127863A/ru
Application granted granted Critical
Publication of RU2331932C2 publication Critical patent/RU2331932C2/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/935Mixed voiced class; Transitions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Claims (24)

1. Способ в системе обработки информации для квантования информации об основном тоне звука, содержащий захват звука, с представлением пронумерованного кадра из множества пронумерованных кадров, вычисление класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса, если кадр представляет собой вокализированный класс, вычисление основного тона для кадра, если кадр представляет собой кадр с четным номером и вокализированный класс, вычисление ключевого слова первой длины посредством абсолютного квантования основного тона кадра, если кадр представляет собой кадр с четным номером и невокализированный класс, вычисление ключевого слова первой длины, указывающего кадр невокализированного класса, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и по меньшей мере один из трех кадров, непосредственно предшествующих этому кадру, является достоверным, вычисление ключевого слова второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон самого близкого предшествующего достоверного кадра, в котором первая длина больше, чем вторая длина, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и каждый из трех кадров, непосредственно предшествующих этому кадру, является недостоверным, вычисление ключевого слова второй длины посредством абсолютного квантования основного тона кадра, и если кадр представляет собой кадр с нечетным номером и невокализированный класс, вычисление ключевого слова второй длины, указывающего кадр невокализированного класса.
2. Способ по п.1, в котором кадр с четным номером является достоверным, если он представляет собой вокализированный класс.
3. Способ по п.2, в котором кадр с нечетным номером является достоверным, если он представляет собой вокализированный класс, а основной тон кадра квантуется абсолютно или квантуется дифференциально, ссылаясь на основной тон непосредственно предшествующего кадра.
4. Способ по п.1, в котором система обработки информации представляет собой любой из клиентского компьютера и беспроводного устройства типа мобильного телефона.
5. Способ по п.4, в котором звук относится к речи.
6. Способ по п.5, в котором кадр включает в себя от, приблизительно, 20 до, приблизительно, 30 мс звука, а последовательные кадры могут перекрывать друг друга в течение периода от, приблизительно, 10 до, приблизительно, 15 мс.
7. Способ по п.1, дополнительно содержащий передачу ключевого слова, которое было рассчитано, на сервер.
8. Система обработки информации для квантования информации об основном тоне звука, содержащая микрофон для захвата звука, с представлением пронумерованного кадра из множества пронумерованных кадров, и цифровой процессор сигналов, предназначенный для вычисления класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса, если кадр представляет собой вокализированный класс, вычисления основного тона для кадра, если кадр представляет собой кадр с четным номером и вокализированный класс, вычисления ключевого слова первой длины посредством абсолютного квантования основного тона кадра, если кадр представляет собой кадр с четным номером и невокализированный класс, вычисление ключевого слова первой длины, указывающего кадр невокализированного класса, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и по меньшей мере один из трех кадров, непосредственно предшествующих этому кадру, является достоверным, вычисления ключевого слова второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон ближайшего предшествующего достоверного кадра, в котором первая длина больше, чем вторая длина, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и каждый из трех кадров, непосредственно предшествующих этому кадру, является недостоверным, вычисления ключевого слова второй длины посредством абсолютного квантования основного тона кадра, и если кадр представляет собой кадр с нечетным номером и невокализированный класс, вычисления ключевого слова второй длины, указывающего кадр невокализированного класса.
9. Система обработки информации по п.8, в которой кадр с четным номером является достоверным, если он представляет собой вокализированный класс.
10. Система обработки информации по п.9, в которой кадр с нечетным номером является достоверным, если он представляет собой вокализированный класс, а основной тон кадра квантуется абсолютно или квантуется дифференциально, ссылаясь на основной тон непосредственно предшествующего кадра.
11. Система обработки информации по п.8, в которой система обработки информации представляет собой любой из клиентского компьютера и беспроводного устройства типа мобильного телефона.
12. Система обработки информации по п.11, в которой звук относится к речи.
13. Система обработки информации по п.12, в которой кадр включает в себя от, приблизительно, 20 до, приблизительно, 30 мс звука, а последовательные кадры могут перекрывать друг друга в течение периода от, приблизительно, 10 до, приблизительно, 15 мс.
14. Система обработки информации по п.8, дополнительно содержащая передатчик для передачи ключевого слова, которое было рассчитано, на сервер.
15. Система обработки информации для квантования информации об основном тоне звука, содержащая средство для захвата звука, с представлением пронумерованного кадра из множества пронумерованных кадров, средство для вычисления класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса, если кадр представляет собой вокализированный класс, средство для вычисления основного тона для кадра, если кадр представляет собой кадр с четным номером и вокализированный класс, средство для вычисления ключевого слова первой длины посредством абсолютного квантования основного тона кадра, если кадр представляет собой кадр с четным номером и невокализированный класс, средство для вычисления ключевого слова первой длины, указывающего кадр невокализированного класса, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и по меньшей мере один из трех кадров, непосредственно предшествующих кадру, является достоверным, средство для вычисления ключевого слова второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон ближайшего предшествующего достоверного кадра, в котором первая длина больше, чем вторая длина, если кадр представляет собой кадр с нечетным номером и вокализированный класс, и каждый из трех кадров, непосредственно предшествующих кадру, является недостоверным, средство для вычисления ключевого слова второй длины посредством абсолютного квантования основного тона кадра, и если кадр представляет собой кадр с нечетным номером и невокализированный класс, средство для вычисления ключевого слова второй длины, указывающего кадр невокализированного класса.
16. Система обработки информации по п.15, в которой кадр с четным номером является достоверным, если он представляет собой вокализированный класс.
17. Система обработки информации по п.16, в которой кадр с нечетным номером является достоверным, если он представляет собой вокализированный класс, а основной тон кадра квантуется абсолютно или квантуется дифференциально, ссылаясь на основной тон непосредственно предшествующего кадра.
18. Система обработки информации по п.15, в которой система обработки информации представляет собой любой из клиентского компьютера и беспроводного устройства типа мобильного телефона.
19. Система обработки информации по п.18, в которой звук относится к речи.
20. Система обработки информации по п.15, дополнительно содержащая передатчик для передачи ключевого слова, которое было рассчитано, на сервер.
21. Способ в системе обработки информации для квантования информации об основном тоне звука, содержащий захват звука, с представлением пронумерованного кадра из множества пронумерованных кадров, вычисление класса кадра, в котором класс представляет собой любой из вокализированного класса и невокализированного класса, если кадр представляет собой вокализированный класс, вычисление основного тона для кадра, если кадр представляет собой вокализированный класс, а номер n кадра является кратным предварительно определенному числу N > 0, вычисление ключевого слова первой длины посредством абсолютного квантования основного тона кадра, если кадр представляет собой невокализированный класс, а номер n кадра является кратным N, вычисление ключевого слова первой длины, указывающего кадр невокализированного класса, если кадр представляет собой невокализированный класс, а номер n кадра не является кратным N, вычисление ключевого слова второй длины, указывающего кадр невокализированного класса, в котором первая длина больше, чем вторая длина, если кадр представляет собой вокализированный класс, а номер n кадра не является кратным N, и основной тон кадра может быть квантован дифференциально, ссылаясь на квантованный основной тон предшествующего вокализированного кадра так, что полная длина зависимости кадра не превышает значение, заданное предварительно определенной функцией D(n) номера n кадра, вычисление ключевого слова второй длины посредством дифференциального квантования основного тона кадра, ссылаясь на квантованный основной тон предшествующего вокализированного кадра, в котором полная длина зависимости кадра, основной тон которого квантуется абсолютно, составляет 0, и полная длина зависимости кадра, основной тон которого квантуется дифференциально, составляет сумму полной длины зависимости кадра исходной точки и расстояния, измеренного в кадре, считая номера между этим кадром и кадром исходной точки, и если кадр представляет собой вокализированный класс, а номер n кадра не является кратным N, и основной тон кадра не может быть квантован дифференциально, ссылаясь на квантованный основной тон предшествующего вокализированного кадра, так что полная длина зависимости кадра не превышает значение, заданное предварительно определенной функцией D(n) номера кадра n, вычисление ключевого слова второй длины посредством абсолютного квантования основного тона кадра.
22. Способ по п.21, в котором дифференциальное квантование основного тона кадра выполняется с использованием самого близкого предшествующего кадра в качестве кадра исходной точки так, чтобы полная длина зависимости кадра не превышала значение, заданное предварительно определенной функцией D(n) номера n кадра.
23. Способ по п.21, в котором D(n) = kN + n модуль N, где k - предварительно определенное неотрицательное число.
24. Способ по п.23, в котором N=2 и k=1.
RU2005127863/09A 2003-02-07 2004-02-05 Квантование основного тона для распределенного распознавания речи RU2331932C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/360,581 2003-02-07
US10/360,581 US6915256B2 (en) 2003-02-07 2003-02-07 Pitch quantization for distributed speech recognition

Publications (2)

Publication Number Publication Date
RU2005127863A true RU2005127863A (ru) 2006-01-27
RU2331932C2 RU2331932C2 (ru) 2008-08-20

Family

ID=32867946

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2005127863/09A RU2331932C2 (ru) 2003-02-07 2004-02-05 Квантование основного тона для распределенного распознавания речи

Country Status (9)

Country Link
US (1) US6915256B2 (ru)
EP (1) EP1595244B1 (ru)
KR (1) KR100641673B1 (ru)
CN (1) CN1748244B (ru)
BR (1) BRPI0406956B1 (ru)
ES (1) ES2395717T3 (ru)
RU (1) RU2331932C2 (ru)
TW (1) TWI333640B (ru)
WO (1) WO2004072949A2 (ru)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961696B2 (en) * 2003-02-07 2005-11-01 Motorola, Inc. Class quantization for distributed speech recognition
US8249873B2 (en) 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US7783488B2 (en) * 2005-12-19 2010-08-24 Nuance Communications, Inc. Remote tracing and debugging of automatic speech recognition servers by speech reconstruction from cepstra and pitch information
TWI299133B (en) 2006-01-23 2008-07-21 Realtek Semiconductor Corp Webcasting system and audio regulating methods therefor
KR101317269B1 (ko) 2007-06-07 2013-10-14 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치
US9269366B2 (en) * 2009-08-03 2016-02-23 Broadcom Corporation Hybrid instantaneous/differential pitch period coding
EP4131258A1 (en) * 2010-07-20 2023-02-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio decoding method, audio encoder, audio encoding method and computer program
US8645128B1 (en) 2012-10-02 2014-02-04 Google Inc. Determining pitch dynamics of an audio signal
US9454976B2 (en) 2013-10-14 2016-09-27 Zanavox Efficient discrimination of voiced and unvoiced sounds

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0782359B2 (ja) * 1989-04-21 1995-09-06 三菱電機株式会社 音声符号化装置、音声復号化装置及び音声符号化・復号化装置
US5081681B1 (en) * 1989-11-30 1995-08-15 Digital Voice Systems Inc Method and apparatus for phase synthesis for speech processing
US6041297A (en) * 1997-03-10 2000-03-21 At&T Corp Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations
US6199037B1 (en) * 1997-12-04 2001-03-06 Digital Voice Systems, Inc. Joint quantization of speech subframe voicing metrics and fundamental frequencies
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6094629A (en) * 1998-07-13 2000-07-25 Lockheed Martin Corp. Speech coding system and method including spectral quantizer
US6377916B1 (en) * 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder

Also Published As

Publication number Publication date
TWI333640B (en) 2010-11-21
RU2331932C2 (ru) 2008-08-20
EP1595244A2 (en) 2005-11-16
US6915256B2 (en) 2005-07-05
US20040172243A1 (en) 2004-09-02
KR100641673B1 (ko) 2006-11-10
EP1595244B1 (en) 2012-11-14
EP1595244A4 (en) 2006-03-08
BRPI0406956A (pt) 2006-01-03
CN1748244A (zh) 2006-03-15
TW200506814A (en) 2005-02-16
CN1748244B (zh) 2010-09-29
KR20050097929A (ko) 2005-10-10
ES2395717T3 (es) 2013-02-14
WO2004072949A3 (en) 2004-12-09
WO2004072949A2 (en) 2004-08-26
BRPI0406956B1 (pt) 2018-02-27

Similar Documents

Publication Publication Date Title
US20210294833A1 (en) System and method for rich media annotation
US10019998B2 (en) Detecting distorted audio signals based on audio fingerprinting
US20210193174A1 (en) Real-time voice phishing detection
US20180047416A1 (en) Indexing based on time-variant transforms of an audio signal's spectrogram
US20160371305A1 (en) Method, device and apparatus for generating picture search library, and picture search method, device and apparatus
US20160283841A1 (en) Convolutional neural networks
CN103038765A (zh) 用于适配情境模型的方法和装置
CN111951780B (zh) 语音合成的多任务模型训练方法及相关设备
CN113035231B (zh) 关键词检测方法及装置
US10878837B1 (en) Acoustic neural network scene detection
CN111444382B (zh) 一种音频处理方法、装置、计算机设备以及存储介质
WO2010091554A1 (zh) 一种基音周期检测方法和装置
CN112562633B (zh) 一种歌唱合成方法、装置、电子设备及存储介质
RU2005127863A (ru) Квантование основного тона для распределенного распознавания речи
CN110992963A (zh) 网络通话方法、装置、计算机设备及存储介质
CN113327610A (zh) 一种语音唤醒方法、装置及设备
CN113205820A (zh) 一种用于声音事件检测的声音编码器的生成方法
CN114155832A (zh) 基于深度学习的语音识别方法、装置、设备及介质
JP5348941B2 (ja) 携帯端末装置の移動状態を推定する方法及びシステム
Kumar et al. Performance evaluation of a ACF-AMDF based pitch detection scheme in real-time
CN113674723B (zh) 一种音频处理方法、计算机设备及可读存储介质
CN116580702A (zh) 基于人工智能的语音识别方法、装置、计算机设备及介质
RU2005127871A (ru) Квантование классов для распределенного распознавания речи
CN113823298B (zh) 语音数据处理方法、装置、计算机设备及存储介质
US20190115044A1 (en) Method and device for audio recognition

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20190513

PC43 Official registration of the transfer of the exclusive right without contract for inventions

Effective date: 20190718

PC41 Official registration of the transfer of exclusive right

Effective date: 20190916