JPWO2016143125A1 - 音声区間検出装置および音声区間検出方法 - Google Patents
音声区間検出装置および音声区間検出方法 Download PDFInfo
- Publication number
- JPWO2016143125A1 JPWO2016143125A1 JP2017504528A JP2017504528A JPWO2016143125A1 JP WO2016143125 A1 JPWO2016143125 A1 JP WO2016143125A1 JP 2017504528 A JP2017504528 A JP 2017504528A JP 2017504528 A JP2017504528 A JP 2017504528A JP WO2016143125 A1 JPWO2016143125 A1 JP WO2016143125A1
- Authority
- JP
- Japan
- Prior art keywords
- speech
- time
- feature amount
- feature
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 113
- 238000004364 calculation method Methods 0.000 claims abstract description 58
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000003909 pattern recognition Methods 0.000 abstract description 18
- 238000000034 method Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 10
- 102100035353 Cyclin-dependent kinase 2-associated protein 1 Human genes 0.000 description 6
- 102100036848 C-C motif chemokine 20 Human genes 0.000 description 3
- 102100029860 Suppressor of tumorigenicity 20 protein Human genes 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012567 pattern recognition method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Abstract
Description
実施の形態1.
図1は、実施の形態1に係る音声区間検出装置10の構成を示すブロック図である。
音声区間検出装置10は、第1の特徴量算出部1、第2の特徴量算出部2、パターン認識モデル蓄積部3、音声区間検出部4および始終端補正部5で構成されている。
音声区間検出装置10の第1の特徴量算出部1、第2の特徴量算出部2、音声区間検出部4および始終端補正部5は、プロセッサ20がメモリ30に記憶されたプログラムを実行することにより、実現される。パターン認識モデル蓄積部3は、メモリ30を構成する。また、複数のプロセッサ20および複数のメモリ30が連携して上述した機能を実行するように構成してもよい。
図3Aおよび図3Bは、実施の形態1に係る音声区間検出装置10の動作を示すフローチャートである。
信号が入力されると(ステップST1)、第1の特徴量算出部1は、入力信号を設定した時間区間(以下、フレームと称する)に分割し、分割したフレームごとに入力信号の変換を行い第1の特徴量を算出する(ステップST2)。なお、フレームの分割では隣接するフレーム同士で時間区間が重複していてもよい。例えば、フレームの時間区間長を30ミリ秒とし、フレームを10ミリ秒ずつずらしながら入力信号を変換して第1の特徴量を算出する。第1の特徴量は上述のようにMFCCとする。即ち、ステップST2の処理では、第1の特徴量算出部1が10ミリ秒の間隔でMFCCの時系列を算出し、出力する。
S=Ls−Ln (1)
なお、上述した閾値Th_S、閾値Th_P1、閾値Th_T1および閾値Th_T2は、予め設定した0以上の定数である。
図4では、横軸が時間を示し、縦軸が音声GMMと騒音GMMとの対数尤度差Sの強度を示している。図4において、時刻Tb´はステップST9で算出された仮始端時刻Tb´であり、時刻Te´はステップST11で算出された仮終端時刻Te´である。区間Aは、仮始端時刻Tb´の時系列前方に位置するフレームb1の時刻Tb1から後方に位置するフレームb2の時刻Tb2までの区間を示しており、始終端補正部5が始端時刻補正のための探索を行う探索区間を示している。矢印Bは、始終端補正部5が区間Aを探索する際の探索方向を示しており、時間軸の順方向に探索することを示している。
具体例を示すと、例えば、仮始端時刻Tb´から25フレーム前方に時刻Tb1を設定し、仮始端時刻Tb´から10フレーム後方に時刻Tb2を設定し、仮終端時刻Te´から10フレーム前方に時刻Te1を設定し、仮始端時刻Te´から30フレーム後方に時刻Te2を設定する。なお、Tb2を仮始端時刻Tb´から0フレームに設定し、さらにTe1を仮終端時刻Te´から0フレームに設定し、第1の特徴量で検出された音声区間の前方への補正を行わないように構成することも可能である。
上述した実施の形態1では、始終端補正部5が高域強調差分パワーと閾値とを比較する際に、予め設定した閾値Th_P1を用いる構成を示したが、この実施の形態2では、高域強調差分パワーの比較対象となる閾値を高域強調差分パワーの標準偏差を用いて算出する構成を示す。
図5は、実施の形態2に係る音声区間検出装置10aの構成を示すブロック図である。
実施の形態2の音声区間検出装置10aは、実施の形態1で示した音声区間検出装置10に閾値算出部6を追加して設けている。
図6は、実施の形態2に係る音声区間検出装置10aの始終端補正部5aによる探索区間および閾値算出部6による閾値算出区間を示す図である。
なお、以下では、実施の形態1に係る音声区間検出装置10の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
式(2)において、mpは時刻Tb0から時刻Tb1の区間Eの高域差分パワーの平均値、piは時刻iにおける高域差分パワー、sqrt()は平方根をとる関数を示している。なお、フレーム数Tvは予め設定した定数であり、例えば50フレームとする。
Th_P2=α*sd+β (3)
式(3)において、αとβは予め定めた0以上の定数である。閾値算出部6が算出した始終端補正用閾値Th_P2は、始終端補正部5aに出力される。
図7Aおよび図7Bは、実施の形態2に係る音声区間検出装置10aの動作を示すフローチャートである。
なお、以下では実施の形態1に係る音声区間検出装置10と同一のステップには図3Aおよび図3Bで使用した符号と同一の符号を付し、説明を省略または簡略化する。
この実施の形態3では、第2の特徴量算出部2が算出した高域強調差分パワーの時系列に加えて、音声区間検出部4が検出した対数尤度差Sの時系列も考慮して始終端時刻を補正する構成を示す。
図8は、実施の形態3に係る音声区間検出装置10bの構成を示すブロック図である。
実施の形態3の音声区間検出装置10bは、実施の形態2で示した音声区間検出装置10aの構成と同一である。以下では、実施の形態2に係る音声区間検出装置10aの構成要素と同一または相当する部分には、実施の形態2で使用した符号と同一の符号を付して説明を省略または簡略化する。
図9Aおよび図9Bは、実施の形態3に係る音声区間検出装置10bの動作を示すフローチャートである。
なお、以下では実施の形態2に係る音声区間検出装置10aと同一のステップには図7Aおよび図7Bで使用した符号と同一の符号を付し、説明を省略または簡略化する。
ここで、上述した閾値Th_S2は予め定められた0以上の定数であって、且つ閾値Th_Sよりも小さい値であるものとする。
上述のように、閾値Th_S2を閾値Th_Sよりも小さい値に設定することにより、仮始端時刻Tb´および仮終端時刻Te´の検出時には検出することができなかった微弱な無声子音などの検出が容易となる。なお、高域強調差分パワーの時系列を用いず、対数尤度差Sの時系列のみを用いて、閾値Th_S2を閾値Th_Sよりも小さい値に設定して探索処理を行うと、騒音をご検出する可能性が大きくなるが、高域強調差分パワーの時系列と対数尤度差Sの時系列とを用いて両者の特徴量が共に閾値以上となった場合にのみ、仮始端時刻Tb´および仮終端時刻Te´を補正することにより、補正精度を向上させることができる。
Claims (5)
- 入力信号からスペクトル特徴を示す第1の特徴量を算出する第1の特徴量算出部と、
前記入力信号から前記第1の特徴量とは異なる音声の特徴量を示す第2の特徴量を算出する第2の特徴量算出部と、
前記入力信号に含まれる音声と騒音とを識別するための認識モデルを用いて、前記第1の特徴量算出部が算出した第1の特徴量に基づいて、前記入力信号に含まれる音声区間の開始点を示す始端時刻および終了点を示す終端時刻を検出する音声区間検出部と、
前記第2の特徴量算出部が算出した第2の特徴量と閾値との比較に基づいて、前記音声区間検出部が検出した始端時刻および終端時刻を補正する始終端補正部とを備えた音声区間検出装置。 - 前記音声区間検出部が検出した始端時刻から一定時間遡った区間において、前記第2の特徴量の標準偏差を算出し、当該第2の特徴量の標準偏差に基づいて、前記閾値を算出する閾値算出部を備えたことを特徴とする請求項1記載の音声区間検出装置。
- 前記音声区間検出部は、前記認識モデルを参照し、前記音声をモデル化した音声モデルと前記騒音をモデル化した騒音モデルとの尤度差を算出し、
前記始終端補正部は、前記第2の特徴量と閾値との比較に加えて、前記音声区間検出部が算出した前記尤度差と閾値との比較に基づいて、前記音声区間検出部が検出した始端時刻および終端時刻を補正することを特徴とする請求項1記載の音声区間検出装置。 - 前記第2の特徴量算出部は、前記入力信号に含まれる音声のうち無声子音の特徴を示す前記第2の特徴量を算出することを特徴とする請求項1記載の音声区間検出装置。
- 第1の特徴量算出部が、入力信号からスペクトル特徴を示す第1の特徴量を算出し、
第2の特徴量算出部が、前記入力信号から前記第1の特徴量とは異なる音声の特徴量を示す第2の特徴量を算出し、
音声区間検出部が、前記入力信号に含まれる音声と騒音とを識別するための認識モデルを用いて、前記第1の特徴量に基づいて、前記入力信号に含まれる音声区間の開始点を示す始端時刻および終了点を示す終端時刻を検出し、
始終端補正部が、前記第2の特徴量と閾値との比較に基づいて、前記始端時刻および終端時刻を補正する音声区間検出方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/057333 WO2016143125A1 (ja) | 2015-03-12 | 2015-03-12 | 音声区間検出装置および音声区間検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016143125A1 true JPWO2016143125A1 (ja) | 2017-06-01 |
JP6444490B2 JP6444490B2 (ja) | 2018-12-26 |
Family
ID=56878608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017504528A Active JP6444490B2 (ja) | 2015-03-12 | 2015-03-12 | 音声区間検出装置および音声区間検出方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6444490B2 (ja) |
TW (1) | TW201633291A (ja) |
WO (1) | WO2016143125A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6392950B1 (ja) * | 2017-08-03 | 2018-09-19 | ヤフー株式会社 | 検出装置、検出方法、および検出プログラム |
DE112018006885B4 (de) * | 2018-02-20 | 2021-11-04 | Mitsubishi Electric Corporation | Trainingsvorrichtung,sprachaktivitätsdetektor und verfahren zur erfassung einer sprachaktivität |
US11276390B2 (en) | 2018-03-22 | 2022-03-15 | Casio Computer Co., Ltd. | Audio interval detection apparatus, method, and recording medium to eliminate a specified interval that does not represent speech based on a divided phoneme |
CN108877778B (zh) * | 2018-06-13 | 2019-09-17 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法及设备 |
CN108877779B (zh) * | 2018-08-22 | 2020-03-20 | 百度在线网络技术(北京)有限公司 | 用于检测语音尾点的方法和装置 |
DE112021007013T5 (de) | 2021-04-07 | 2023-12-07 | Mitsubishi Electric Corporation | Informationsverarbeitungseinrichtung, ausgabeverfahren und ausgabeprogramm |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5710196A (en) * | 1980-06-20 | 1982-01-19 | Tokyo Shibaura Electric Co | Voice signal detector |
JPH03290700A (ja) * | 1990-04-09 | 1991-12-20 | Toshiba Corp | 有音検出装置 |
JP2007017620A (ja) * | 2005-07-06 | 2007-01-25 | Kyoto Univ | 発話区間検出装置、そのためのコンピュータプログラム及び記録媒体 |
JP2009210712A (ja) * | 2008-03-03 | 2009-09-17 | Yamaha Corp | 音処理装置およびプログラム |
WO2011070972A1 (ja) * | 2009-12-10 | 2011-06-16 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
JP2013508744A (ja) * | 2009-10-19 | 2013-03-07 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 音声区間検出器及び方法 |
WO2014035328A1 (en) * | 2012-08-31 | 2014-03-06 | Telefonaktiebolaget L M Ericsson (Publ) | Method and device for voice activity detection |
-
2015
- 2015-03-12 WO PCT/JP2015/057333 patent/WO2016143125A1/ja active Application Filing
- 2015-03-12 JP JP2017504528A patent/JP6444490B2/ja active Active
- 2015-06-16 TW TW104119363A patent/TW201633291A/zh unknown
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5710196A (en) * | 1980-06-20 | 1982-01-19 | Tokyo Shibaura Electric Co | Voice signal detector |
JPH03290700A (ja) * | 1990-04-09 | 1991-12-20 | Toshiba Corp | 有音検出装置 |
JP2007017620A (ja) * | 2005-07-06 | 2007-01-25 | Kyoto Univ | 発話区間検出装置、そのためのコンピュータプログラム及び記録媒体 |
JP2009210712A (ja) * | 2008-03-03 | 2009-09-17 | Yamaha Corp | 音処理装置およびプログラム |
JP2013508744A (ja) * | 2009-10-19 | 2013-03-07 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 音声区間検出器及び方法 |
WO2011070972A1 (ja) * | 2009-12-10 | 2011-06-16 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
WO2014035328A1 (en) * | 2012-08-31 | 2014-03-06 | Telefonaktiebolaget L M Ericsson (Publ) | Method and device for voice activity detection |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
Also Published As
Publication number | Publication date |
---|---|
TW201633291A (zh) | 2016-09-16 |
WO2016143125A1 (ja) | 2016-09-15 |
JP6444490B2 (ja) | 2018-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6444490B2 (ja) | 音声区間検出装置および音声区間検出方法 | |
US11276390B2 (en) | Audio interval detection apparatus, method, and recording medium to eliminate a specified interval that does not represent speech based on a divided phoneme | |
JP5229234B2 (ja) | 非音声区間検出方法及び非音声区間検出装置 | |
US7991614B2 (en) | Correction of matching results for speech recognition | |
US7693713B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
US20110077943A1 (en) | System for generating language model, method of generating language model, and program for language model generation | |
US8990086B2 (en) | Recognition confidence measuring by lexical distance between candidates | |
JP7143916B2 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
US9786295B2 (en) | Voice processing apparatus and voice processing method | |
US20190279644A1 (en) | Speech processing device, speech processing method, and recording medium | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
US11929058B2 (en) | Systems and methods for adapting human speaker embeddings in speech synthesis | |
JP2007292940A (ja) | 音声識別装置及び音声識別方法 | |
JP2004133477A (ja) | 音声認識方法、音声認識方法のためのコンピュータプログラム、及びそのコンピュータプログラムが記録された記憶媒体 | |
US20210398521A1 (en) | Method and device for providing voice recognition service | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
CN110875034B (zh) | 用于语音识别的模板训练方法、语音识别方法及其系统 | |
KR100755483B1 (ko) | 단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법 | |
JP5166195B2 (ja) | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 | |
Laszko | Using formant frequencies to word detection in recorded speech | |
US20240029713A1 (en) | Threshold generation method, threshold generation device, and computer program product | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP2017211513A (ja) | 音声認識装置、その方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180424 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6444490 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |