RU2016106637A - Решение относительно наличия/отсутствия вокализации для обработки речи - Google Patents

Решение относительно наличия/отсутствия вокализации для обработки речи Download PDF

Info

Publication number
RU2016106637A
RU2016106637A RU2016106637A RU2016106637A RU2016106637A RU 2016106637 A RU2016106637 A RU 2016106637A RU 2016106637 A RU2016106637 A RU 2016106637A RU 2016106637 A RU2016106637 A RU 2016106637A RU 2016106637 A RU2016106637 A RU 2016106637A
Authority
RU
Russia
Prior art keywords
parameter
vocalization
absence
smoothed
speech
Prior art date
Application number
RU2016106637A
Other languages
English (en)
Other versions
RU2636685C2 (ru
Inventor
Ян ГАО
Original Assignee
Хуавэй Текнолоджиз Ко., Лтд.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Хуавэй Текнолоджиз Ко., Лтд. filed Critical Хуавэй Текнолоджиз Ко., Лтд.
Publication of RU2016106637A publication Critical patent/RU2016106637A/ru
Application granted granted Critical
Publication of RU2636685C2 publication Critical patent/RU2636685C2/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)

Claims (29)

1. Способ обработки речи, причем способ содержит этапы, на которых:
определяют параметр наличия/отсутствия вокализации, отражающий характеристику невокализованной/вокализованной речи в текущем кадре речевого сигнала, содержащего множество кадров;
определяют сглаженный параметр наличия/отсутствия вокализации для включения информации параметра наличия/отсутствия вокализации в кадр, предшествующий текущему кадру речевого сигнала;
вычисляют разность между параметром наличия/отсутствия вокализации и сглаженным параметром наличия/отсутствия вокализации; и
определяют, содержит ли текущий кадр невокализованную речь или вокализованную речь, с использованием вычисленной разности в качестве параметра принятия решения.
2. Способ по п. 1, в котором параметр наличия/отсутствия вокализации является комбинированным параметром, отражающим, по меньшей мере, две характеристики невокализованной/вокализованной речи.
3. Способ по п. 2, в котором комбинированный параметр является произведением параметра периодичности и параметра спектрального наклона.
4. Способ по п. 1, в котором параметр наличия/отсутствия вокализации является параметром отсутствия вокализации (Punvoicing) отражающим характеристику невокализованной речи, причем сглаженный параметр наличия/отсутствия вокализации является сглаженным параметром отсутствия вокализации (Punvoicing_sm).
5. Способ по п. 4, в котором, когда разность между параметром отсутствия вокализации и сглаженным параметром отсутствия вокализации больше 0.1, определяют, что текущий кадр речевого сигнала является невокализованным сигналом, при этом, когда разность между параметром отсутствия вокализации и сглаженным параметром отсутствия вокализации меньше 0.05, определяют, что текущий кадр речевого сигнала не является невокализованной речью.
6. Способ по п. 5, в котором, когда разность между параметром отсутствия вокализации и сглаженным параметром отсутствия вокализации составляет от 0.05 до 0.1, определяют, что текущий кадр речевого сигнала имеет тот же тип речи, что и предыдущий кадр.
7. Способ по п. 4, в котором сглаженный параметр отсутствия вокализации вычисляется из параметра отсутствия вокализации следующим образом:
Figure 00000001
8. Способ по п. 1, в котором параметром наличия/отсутствия вокализации является параметр вокализации (Pvoicing), отражающий характеристику вокализованной речи, и при этом сглаженный параметр наличия/отсутствия вокализации является сглаженным параметром вокализации (Pvoicing_sm).
9. Способ по п. 8, в котором, когда разность между параметром вокализации и сглаженным параметром вокализации больше 0.1, определяют, что текущий кадр речевого сигнала является вокализованным сигналом, и при этом, когда разность между параметром вокализации и сглаженным параметром вокализации меньше 0.05, определяют, что текущий кадр речевого сигнала не является вокализованной речью.
10. Способ по п. 8, в котором сглаженный параметр вокализации вычисляется из параметра вокализации следующим образом:
Figure 00000002
11. Способ по п. 1, в котором кадр содержит подкадр.
12. Устройство обработки речи, содержащее:
процессор; и
компьютерно-считываемый носитель данных, хранящий программное обеспечение для исполнения процессором, причем программное обеспечение включает в себя инструкции для:
определения параметра наличия/отсутствия вокализации, отражающего характеристику невокализованной/вокализованной речи в текущем кадре речевого сигнала, содержащего множество кадров,
определения сглаженного параметра наличия/отсутствия вокализации для включения информации параметра наличия/отсутствия вокализации в кадр, предшествующий текущему кадру речевого сигнала,
вычисления разности между параметром наличия/отсутствия вокализации и сглаженным параметром наличия/отсутствия вокализации, и
определения, содержит ли текущий кадр невокализованную речь или вокализованную речь, с использованием вычисленной разности в качестве параметра принятия решения.
13. Устройство по п. 12, в котором параметр наличия/отсутствия вокализации является комбинированным параметром, отражающим произведение параметра периодичности и параметра спектрального наклона.
14. Устройство по п. 12, в котором, когда разность между параметром наличия/отсутствия вокализации и сглаженным параметром наличия/отсутствия вокализации больше 0.1, определение, что текущий кадр речевого сигнала является невокализованным/вокализованным сигналом, при этом, когда разность между параметром наличия/отсутствия вокализации и сглаженным параметром наличия/отсутствия вокализации меньше 0.05, осуществляется определение, что текущий кадр речевого сигнала не является невокализованной/вокализованной речью.
15. Устройство по п. 12, в котором параметр наличия/отсутствия вокализации является параметром отсутствия вокализации, отражающим характеристику невокализованной речи, и при этом сглаженный параметр наличия/отсутствия вокализации является сглаженным параметром отсутствия вокализации.
16. Устройство по п. 12, в котором параметр наличия/отсутствия вокализации является параметром вокализации, отражающим характеристику вокализованной речи, и при этом сглаженный параметр наличия/отсутствия вокализации является сглаженным параметром вокализации.
17. Устройство по п. 12, в котором кадр содержит подкадр.
RU2016106637A 2013-09-09 2014-09-05 Решение относительно наличия/отсутствия вокализации для обработки речи RU2636685C2 (ru)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361875198P 2013-09-09 2013-09-09
US61/875,198 2013-09-09
US14/476,547 2014-09-03
US14/476,547 US9570093B2 (en) 2013-09-09 2014-09-03 Unvoiced/voiced decision for speech processing
PCT/CN2014/086058 WO2015032351A1 (en) 2013-09-09 2014-09-05 Unvoiced/voiced decision for speech processing

Publications (2)

Publication Number Publication Date
RU2016106637A true RU2016106637A (ru) 2017-10-16
RU2636685C2 RU2636685C2 (ru) 2017-11-27

Family

ID=52626401

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016106637A RU2636685C2 (ru) 2013-09-09 2014-09-05 Решение относительно наличия/отсутствия вокализации для обработки речи

Country Status (16)

Country Link
US (4) US9570093B2 (ru)
EP (2) EP3352169B1 (ru)
JP (2) JP6291053B2 (ru)
KR (3) KR101892662B1 (ru)
CN (2) CN110097896B (ru)
AU (1) AU2014317525B2 (ru)
BR (1) BR112016004544B1 (ru)
CA (1) CA2918345C (ru)
ES (2) ES2908183T3 (ru)
HK (1) HK1216450A1 (ru)
MX (1) MX352154B (ru)
MY (1) MY185546A (ru)
RU (1) RU2636685C2 (ru)
SG (2) SG11201600074VA (ru)
WO (1) WO2015032351A1 (ru)
ZA (1) ZA201600234B (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2668407C1 (ru) * 2017-11-07 2018-09-28 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
US9972334B2 (en) 2015-09-10 2018-05-15 Qualcomm Incorporated Decoder audio classification
US20190139567A1 (en) * 2016-05-12 2019-05-09 Nuance Communications, Inc. Voice Activity Detection Feature Based on Modulation-Phase Differences
US10249305B2 (en) * 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
CN108447506A (zh) * 2018-03-06 2018-08-24 深圳市沃特沃德股份有限公司 语音处理方法和语音处理装置
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
CN109119094B (zh) * 2018-07-25 2023-04-28 苏州大学 一种利用声带建模反演的嗓音分类方法
EP4100949A1 (en) * 2020-02-04 2022-12-14 GN Hearing A/S A method of detecting speech and speech detector for low signal-to-noise ratios
CN112599140B (zh) * 2020-12-23 2024-06-18 北京百瑞互联技术股份有限公司 一种优化语音编码速率和运算量的方法、装置及存储介质
CN112885380B (zh) * 2021-01-26 2024-06-14 腾讯音乐娱乐科技(深圳)有限公司 一种清浊音检测方法、装置、设备及介质

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
JPH06110489A (ja) * 1992-09-24 1994-04-22 Nitsuko Corp 音声信号処理装置及びその方法
ATE343297T1 (de) * 1993-09-02 2006-11-15 Infineon Technologies Ag Verfahren zur automatischen sprachrichtungsumschaltung und schaltungsanordnung zur durchführung des verfahrens
JPH07212296A (ja) * 1994-01-17 1995-08-11 Japan Radio Co Ltd Vox制御通信装置
US5991725A (en) 1995-03-07 1999-11-23 Advanced Micro Devices, Inc. System and method for enhanced speech quality in voice storage and retrieval systems
DE69716266T2 (de) 1996-07-03 2003-06-12 British Telecomm Sprachaktivitätsdetektor
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6463407B2 (en) 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US6415029B1 (en) * 1999-05-24 2002-07-02 Motorola, Inc. Echo canceler and double-talk detector for use in a communications unit
JP3454214B2 (ja) * 1999-12-22 2003-10-06 三菱電機株式会社 パルス雑音除去装置およびこれを含む中波am音声放送受信機
JP3689616B2 (ja) * 2000-04-27 2005-08-31 シャープ株式会社 音声認識装置及び音声認識方法、音声認識システム、並びに、プログラム記録媒体
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US6615169B1 (en) 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
US7171357B2 (en) * 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
RU2331933C2 (ru) * 2002-10-11 2008-08-20 Нокиа Корпорейшн Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах
US7519530B2 (en) * 2003-01-09 2009-04-14 Nokia Corporation Audio signal processing
US7698141B2 (en) * 2003-02-28 2010-04-13 Palo Alto Research Center Incorporated Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications
US7469209B2 (en) * 2003-08-14 2008-12-23 Dilithium Networks Pty Ltd. Method and apparatus for frame classification and rate determination in voice transcoders for telecommunications
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
KR100744352B1 (ko) 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
JP2007149193A (ja) * 2005-11-25 2007-06-14 Toshiba Corp ディフェクト信号生成回路
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
JP2007292940A (ja) * 2006-04-24 2007-11-08 Toyota Motor Corp 音声識別装置及び音声識別方法
US8010352B2 (en) * 2006-06-21 2011-08-30 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
CA2665153C (en) * 2006-10-20 2015-05-19 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset
US7817286B2 (en) * 2006-12-22 2010-10-19 Hitachi Global Storage Technologies Netherlands B.V. Iteration method to improve the fly height measurement accuracy by optical interference method and theoretical pitch and roll effect
US7873114B2 (en) * 2007-03-29 2011-01-18 Motorola Mobility, Inc. Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
JP5618826B2 (ja) * 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
JP5395066B2 (ja) 2007-06-22 2014-01-22 ヴォイスエイジ・コーポレーション 音声区間検出および音声信号分類ための方法および装置
CN101221757B (zh) 2008-01-24 2012-02-29 中兴通讯股份有限公司 高频杂音处理方法及分析方法
CN101261836B (zh) * 2008-04-25 2011-03-30 清华大学 基于过渡帧判决及处理的激励信号自然度提高方法
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
US20110123121A1 (en) * 2009-10-13 2011-05-26 Sony Corporation Method and system for reducing blocking artefacts in compressed images and video signals
JP5575977B2 (ja) * 2010-04-22 2014-08-20 クゥアルコム・インコーポレイテッド ボイスアクティビティ検出
TWI403304B (zh) * 2010-08-27 2013-08-01 Ind Tech Res Inst 隨身語能偵知方法及其裝置
CN102655480B (zh) 2011-03-03 2015-12-02 腾讯科技(深圳)有限公司 相似邮件处理系统和方法
KR101352608B1 (ko) * 2011-12-07 2014-01-17 광주과학기술원 음성 신호의 대역폭 확장 방법 및 그 장치
US8909539B2 (en) 2011-12-07 2014-12-09 Gwangju Institute Of Science And Technology Method and device for extending bandwidth of speech signal
US20130151125A1 (en) * 2011-12-08 2013-06-13 Scott K. Mann Apparatus and Method for Controlling Emissions in an Internal Combustion Engine
KR101398189B1 (ko) * 2012-03-27 2014-05-22 광주과학기술원 음성수신장치 및 음성수신방법
CN102664003B (zh) * 2012-04-24 2013-12-04 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法
US8924209B2 (en) * 2012-09-12 2014-12-30 Zanavox Identifying spoken commands by templates of ordered voiced and unvoiced sound intervals
US9984706B2 (en) * 2013-08-01 2018-05-29 Verint Systems Ltd. Voice activity detection using a soft decision mechanism
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2668407C1 (ru) * 2017-11-07 2018-09-28 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи

Also Published As

Publication number Publication date
BR112016004544B1 (pt) 2022-07-12
BR112016004544A2 (ru) 2017-08-01
EP3352169A1 (en) 2018-07-25
CN110097896B (zh) 2021-08-13
RU2636685C2 (ru) 2017-11-27
US10347275B2 (en) 2019-07-09
KR20170102387A (ko) 2017-09-08
US10043539B2 (en) 2018-08-07
JP6291053B2 (ja) 2018-03-14
ZA201600234B (en) 2017-08-30
KR101774541B1 (ko) 2017-09-04
US20170110145A1 (en) 2017-04-20
EP3005364A1 (en) 2016-04-13
EP3352169B1 (en) 2021-12-08
EP3005364B1 (en) 2018-07-11
MX352154B (es) 2017-11-10
SG11201600074VA (en) 2016-02-26
MY185546A (en) 2021-05-19
KR20180095744A (ko) 2018-08-27
JP2016527570A (ja) 2016-09-08
ES2908183T3 (es) 2022-04-28
CN110097896A (zh) 2019-08-06
CN105359211B (zh) 2019-08-13
ES2687249T3 (es) 2018-10-24
CN105359211A (zh) 2016-02-24
KR102007972B1 (ko) 2019-08-06
JP2018077546A (ja) 2018-05-17
US20180322895A1 (en) 2018-11-08
US20200005812A1 (en) 2020-01-02
US9570093B2 (en) 2017-02-14
CA2918345C (en) 2021-11-23
US20150073783A1 (en) 2015-03-12
CA2918345A1 (en) 2015-03-12
AU2014317525B2 (en) 2017-05-04
WO2015032351A1 (en) 2015-03-12
KR101892662B1 (ko) 2018-08-28
EP3005364A4 (en) 2016-06-01
AU2014317525A1 (en) 2016-02-11
KR20160025029A (ko) 2016-03-07
HK1216450A1 (zh) 2016-11-11
MX2016002561A (es) 2016-06-17
JP6470857B2 (ja) 2019-02-13
SG10201701527SA (en) 2017-03-30
US11328739B2 (en) 2022-05-10

Similar Documents

Publication Publication Date Title
RU2016106637A (ru) Решение относительно наличия/отсутствия вокализации для обработки речи
RU2017122050A (ru) Аудиокодер и аудиодекодер с метаданными сведений о программе или структуры вложенных потоков
JP2017513046A5 (ru)
JP2016509711A5 (ru)
RU2019132422A (ru) Выбор процедуры маскирования потери пакета
US20160260426A1 (en) Speech recognition apparatus and method
JP2014522526A5 (ru)
JP2016508350A5 (ru)
JP2016522910A5 (ru)
RU2016133850A (ru) Определение задач в сообщениях
US9805712B2 (en) Method and device for recognizing voice
JP2011107715A5 (ru)
JP2016505938A5 (ru)
JP2018512927A5 (ru)
RU2016150428A (ru) Заполнение записей контактов пользователя
JP2016503216A5 (ru)
JP2015018238A5 (ru)
JP6414635B2 (ja) オーディオコーディング方法および装置
RU2017144518A (ru) Оптимизированный масштабный коэффициент для расширения диапазона частот в декодере сигналов звуковой частоты
JP2014099178A5 (ru)
JP2009193356A5 (ru)
RU2015111150A (ru) Способ и устройство для обнаружения голосовой активности
JP2017504106A5 (ru)
JP2019535039A5 (ru)
US9767829B2 (en) Speech signal processing apparatus and method for enhancing speech intelligibility