JPWO2007046267A1 - 音声判別システム、音声判別方法及び音声判別用プログラム - Google Patents
音声判別システム、音声判別方法及び音声判別用プログラム Download PDFInfo
- Publication number
- JPWO2007046267A1 JPWO2007046267A1 JP2007540929A JP2007540929A JPWO2007046267A1 JP WO2007046267 A1 JPWO2007046267 A1 JP WO2007046267A1 JP 2007540929 A JP2007540929 A JP 2007540929A JP 2007540929 A JP2007540929 A JP 2007540929A JP WO2007046267 A1 JPWO2007046267 A1 JP WO2007046267A1
- Authority
- JP
- Japan
- Prior art keywords
- speech
- acoustic signal
- score
- vowel
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephone Function (AREA)
Abstract
Description
・音声モデル記憶手段831に記憶された音声モデルに対する尤度、及び、
・非音声モデル記憶手段832に記憶された非音声モデルに対する尤度、
をそれぞれ計算する。
前記音声判別装置が、前記母音スコアの時間的な規則性を分析する工程と、
前記音声判別装置が、前記母音スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する工程と、
を含む。
前記音声判別装置が、前記サブワード境界スコアの時間的な規則性を分析する工程と、
前記音声判別装置が、前記サブワード境界スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する工程と、
を含む。
前記母音スコアの時間的な規則性を分析する時間規則性分析処理と、
前記母音スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する音声判別処理と、
をコンピュータに実行させるプログラムよりなる。
前記サブワード境界スコアの時間的な規則性を分析する時間規則性分析処理と、
前記サブワード境界スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する音声判別処理と、
をコンピュータに実行させるプログラムよりなる。
120 データ処理装置
121 特徴量抽出手段
122 時間規則性分析手段
123 音声判別手段
124 母音スコア計算手段
130 記憶装置
131 音声モデル記憶手段
410 音響信号入力手段
420 データ処理装置
421 特徴量抽出手段
422 時間規則性分析手段
423 音声判別手段
424 サブワード境界スコア計算手段
430 記憶装置
431 音声モデル記憶手段
710 入力装置
720 データ処理装置
730 記憶装置
731 音声モデル記憶部
740 出力装置
750 音声判別用プログラム
810 音響信号入力手段
821 特徴量抽出手段
822 尤度比計算手段
823 音声判別手段
824 音響スコア計算手段
831 音声モデル記憶手段
832 非音声モデル記憶手段
xは特徴量、
qは音素、
P(x|q)は音素qのモデルの尤度、
P(q|x)は音素qの事後確率
をそれぞれ表している。
S_allは音声モデル記憶手段131に記憶されている全ての音素の集合を表し、
S_vowelはS_allの中に含まれる母音の集合を表す。
周期性がない場合には、入力音響信号が非音声であると判別する(図2のステップA8)。
Claims (11)
- 音声の音響モデルを記憶した音声モデル記憶手段と、
前記音響モデルを参照することで、入力された音響信号の各時刻に対して、母音らしさを表す母音スコアを計算する母音スコア計算手段と、
前記母音スコアの時間的な規則性を分析する時間規則性分析手段と、
前記母音スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する音声判別手段と、
を備えたことを特徴とする音声判別システム。 - 音声の音響モデルを記憶した音声モデル記憶手段と、
前記音響モデルを参照することで入力された音響信号の各時刻に対して、サブワード境界らしさを表すサブワード境界スコアを計算するサブワード境界スコア計算手段と、
前記サブワード境界スコアの時間的な規則性を分析する時間規則性分析手段と、
前記サブワード境界スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する音声判別手段と、
を備えたことを特徴とする音声判別システム。 - データ処理装置が、音声モデル記憶手段に記憶された音響モデルを参照し、入力された音響信号の各時刻に対して、母音らしさを表す母音スコアを計算する工程と、
前記データ処理装置が、前記母音スコアの時間的な規則性を分析する工程と、
前記データ処理装置が、前記母音スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する工程と、
を含む、ことを特徴とする音声判別方法。 - データ処理装置が、音声モデル記憶手段に記憶された音響モデルを参照して、入力された音響信号の各時刻に対して、サブワード境界らしさを表すサブワード境界スコアを計算する工程と、
前記データ処理装置が、前記サブワード境界スコアの時間的な規則性を分析する工程と、
前記データ処理装置が、前記サブワード境界スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する工程と、
を含む、ことを特徴とする音声判別方法。 - 音声モデル記憶手段に記憶された音響モデルを参照することで、入力された音響信号の各時刻に対して、母音らしさを表す母音スコアを計算する母音スコア計算処理と、
前記母音スコアの時間的な規則性を分析する時間規則性分析処理と、
前記母音スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する音声判別処理と、
をコンピュータに実行させるプログラム。 - 音声モデル記憶手段に記憶された音響モデルを参照することで、入力された音響信号の各時刻に対して、サブワード境界らしさを表すサブワード境界スコアを計算するサブワード境界スコア計算処理と、
前記サブワード境界スコアの時間的な規則性を分析する時間規則性分析処理と、
前記サブワード境界スコアの時間的な規則性を用いて入力音響信号が音声であるか非音声であるかを判別する音声判別処理と、
をコンピュータに実行させるプログラム。 - 音響信号を入力する手段と、
入力音響信号に対して音声の言語的な特徴に基づく周期性を分析し、様々なサブワードが時間的な規則性を伴って次々に現れるという音声信号に特有の性質を有するか否かを判定し、前記入力音響信号が音声であるか非音声であるかを判別する手段と、
を備えたことを特徴とする音声判別装置。 - 前記入力音響信号が音声であるか非音声であるかを判別する手段は、前記入力音響信号より求めた、母音らしさを表す母音スコア、又は、サブワード境界らしさを表すサブワード境界スコアの時系列データに、時間的な規則性が存在するか否か判定し、時間的な規則性を有する場合に音声であるものと判別する、ことを特徴とする請求項7記載の音声判別装置。
- 母音や母音を含む音素の音響モデルを少なくとも記憶した記憶手段と、
音響信号を入力する音響信号入力手段と、
前記音響信号入力手段からの入力音響信号を分析し、特徴量の時系列を抽出する特徴量抽出手段と、
前記記憶手段に記憶された音響モデルを参照し、前記特徴量抽出手段により抽出された特徴量の時系列に対して、入力音響信号の母音らしさを表した尺度である母音スコアの時系列を計算する母音スコア計算手段と、
前記母音スコア計算手段によって得られた母音スコアの時系列に対して時間的な規則性を分析する時間規則性分析手段と、
前記母音スコアの時系列に時間的な規則性があるか否かを判定し、時間的な規則性がある場合には、前記入力音響信号が音声である可能性が高いと判別し、時間的な規則性がない場合には、入力音響信号が非音声であると判別する音声判別手段と、
を備えている、ことを特徴とする音声判別装置。 - 音声を構成するサブワード単位の音響モデルを記憶した記憶手段と、
音響信号を入力する音響信号入力手段と、
前記音響信号入力手段からの入力音響信号を分析し、特徴量の時系列を抽出する特徴量抽出手段と、
前記記憶手段に記憶された音響モデルを参照し、前記特徴量抽出手段により抽出された特徴量の時系列に対して、入力音響信号中においてサブワード単位の境界らしさを表した尺度であるサブワード境界スコアの時系列を計算するサブワード境界スコア計算手段と、
前記サブワード境界スコア計算手段によって得られたサブワード境界スコアの時系列に対して時間的な規則性を分析する時間規則性分析手段と、
前記サブワード境界スコアの時系列に時間的な規則性があるか否かを判定し、時間的な規則性がある場合には、前記入力音響信号が音声である可能性が高いと判別し、時間的な規則性がない場合には、入力音響信号が非音声であると判別する音声判別手段と、
を備えている、ことを特徴とする音声判別装置。 - 前記音声判別手段は、前記スコアの時系列に時間的な規則性、すなわち周期性が認められた場合には、前記周期が予め定められた所定の範囲内におさまっているか否か判定し、前記周期が前記所定の範囲内におさまっている場合には、入力音響信号は音声であると判別し、前記周期が前記所定の範囲内におさまっていない場合には、入力音響信号は非音声であると判別する、ことを特徴とする請求項9又は10記載の音声判別装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007540929A JP4911034B2 (ja) | 2005-10-20 | 2006-10-10 | 音声判別システム、音声判別方法及び音声判別用プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005305625 | 2005-10-20 | ||
JP2005305625 | 2005-10-20 | ||
PCT/JP2006/320199 WO2007046267A1 (ja) | 2005-10-20 | 2006-10-10 | 音声判別システム、音声判別方法及び音声判別用プログラム |
JP2007540929A JP4911034B2 (ja) | 2005-10-20 | 2006-10-10 | 音声判別システム、音声判別方法及び音声判別用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2007046267A1 true JPWO2007046267A1 (ja) | 2009-04-23 |
JP4911034B2 JP4911034B2 (ja) | 2012-04-04 |
Family
ID=37962363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007540929A Active JP4911034B2 (ja) | 2005-10-20 | 2006-10-10 | 音声判別システム、音声判別方法及び音声判別用プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US8175868B2 (ja) |
JP (1) | JP4911034B2 (ja) |
CN (3) | CN102222499B (ja) |
WO (1) | WO2007046267A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1851756B1 (en) * | 2005-02-17 | 2008-07-02 | Loquendo S.p.A. | Method and system for automatically providing linguistic formulations that are outside a recognition domain of an automatic speech recognition system |
JP4986028B2 (ja) * | 2007-01-19 | 2012-07-25 | Kddi株式会社 | 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体 |
JP5446874B2 (ja) * | 2007-11-27 | 2014-03-19 | 日本電気株式会社 | 音声検出システム、音声検出方法および音声検出プログラム |
US8077836B2 (en) | 2008-07-30 | 2011-12-13 | At&T Intellectual Property, I, L.P. | Transparent voice registration and verification method and system |
CN101359472B (zh) * | 2008-09-26 | 2011-07-20 | 炬力集成电路设计有限公司 | 一种人声判别的方法和装置 |
JP5157852B2 (ja) * | 2008-11-28 | 2013-03-06 | 富士通株式会社 | 音声信号処理評価プログラム、音声信号処理評価装置 |
JP4754651B2 (ja) * | 2009-12-22 | 2011-08-24 | アレクセイ・ビノグラドフ | 信号検出方法、信号検出装置、及び、信号検出プログラム |
JP5834449B2 (ja) * | 2010-04-22 | 2015-12-24 | 富士通株式会社 | 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法 |
WO2012020717A1 (ja) * | 2010-08-10 | 2012-02-16 | 日本電気株式会社 | 音声区間判定装置、音声区間判定方法および音声区間判定プログラム |
JP5777569B2 (ja) * | 2012-05-22 | 2015-09-09 | 日本電信電話株式会社 | 音響特徴量計算装置及び方法、特定状況モデルデータベース作成装置、特定要素音モデルデータベース作成装置、状況推定装置、発呼適否通知装置並びにプログラム |
WO2015059947A1 (ja) * | 2013-10-22 | 2015-04-30 | 日本電気株式会社 | 音声検出装置、音声検出方法及びプログラム |
CN107633843B (zh) * | 2017-09-08 | 2021-01-19 | 深圳大学 | 识别人国籍的方法及装置 |
CN107610691B (zh) * | 2017-09-08 | 2021-07-06 | 深圳大学 | 英语元音发声纠错方法及装置 |
JP6996185B2 (ja) | 2017-09-15 | 2022-01-17 | 富士通株式会社 | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム |
WO2019162990A1 (ja) * | 2018-02-20 | 2019-08-29 | 三菱電機株式会社 | 学習装置、音声区間検出装置および音声区間検出方法 |
WO2020003534A1 (en) * | 2018-06-29 | 2020-01-02 | Nec Corporation | Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium |
CN110097874A (zh) * | 2019-05-16 | 2019-08-06 | 上海流利说信息技术有限公司 | 一种发音纠正方法、装置、设备以及存储介质 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3679830A (en) * | 1970-05-11 | 1972-07-25 | Malcolm R Uffelman | Cohesive zone boundary detector |
US4920568A (en) | 1985-07-16 | 1990-04-24 | Sharp Kabushiki Kaisha | Method of distinguishing voice from noise |
JPS6217800A (ja) | 1985-07-16 | 1987-01-26 | シャープ株式会社 | 音声区間判定方式 |
JPS6350896A (ja) * | 1986-08-21 | 1988-03-03 | 沖電気工業株式会社 | 音声認識装置 |
JPH02195400A (ja) * | 1989-01-24 | 1990-08-01 | Canon Inc | 音声認識装置 |
JPH05173592A (ja) | 1991-12-25 | 1993-07-13 | Matsushita Electric Ind Co Ltd | 音声/非音声判別方法および判別装置 |
US5349645A (en) * | 1991-12-31 | 1994-09-20 | Matsushita Electric Industrial Co., Ltd. | Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches |
JP3277398B2 (ja) * | 1992-04-15 | 2002-04-22 | ソニー株式会社 | 有声音判別方法 |
JP2797861B2 (ja) | 1992-09-30 | 1998-09-17 | 松下電器産業株式会社 | 音声検出方法および音声検出装置 |
JPH06266387A (ja) | 1993-03-12 | 1994-09-22 | Nippon Hoso Kyokai <Nhk> | 音声認識方式 |
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
GB9419388D0 (en) * | 1994-09-26 | 1994-11-09 | Canon Kk | Speech analysis |
JP3627299B2 (ja) * | 1995-07-19 | 2005-03-09 | ソニー株式会社 | 音声認識方法及び装置 |
JP3105465B2 (ja) | 1997-03-14 | 2000-10-30 | 日本電信電話株式会社 | 音声区間検出方法 |
US6285979B1 (en) * | 1998-03-27 | 2001-09-04 | Avr Communications Ltd. | Phoneme analyzer |
US6226606B1 (en) * | 1998-11-24 | 2001-05-01 | Microsoft Corporation | Method and apparatus for pitch tracking |
JP3652961B2 (ja) | 2000-06-27 | 2005-05-25 | シャープ株式会社 | 音声処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体 |
JP3806344B2 (ja) | 2000-11-30 | 2006-08-09 | 松下電器産業株式会社 | 定常雑音区間検出装置及び定常雑音区間検出方法 |
WO2002045078A1 (en) | 2000-11-30 | 2002-06-06 | Matsushita Electric Industrial Co., Ltd. | Audio decoder and audio decoding method |
US20020184009A1 (en) * | 2001-05-31 | 2002-12-05 | Heikkinen Ari P. | Method and apparatus for improved voicing determination in speech signals containing high levels of jitter |
AU2003283892A1 (en) * | 2002-11-27 | 2004-06-18 | Visual Pronunciation Software Limited | A method, system and software for teaching pronunciation |
CN1303582C (zh) * | 2003-09-09 | 2007-03-07 | 摩托罗拉公司 | 自动语音归类方法 |
-
2006
- 2006-10-10 JP JP2007540929A patent/JP4911034B2/ja active Active
- 2006-10-10 CN CN2011101573717A patent/CN102222499B/zh active Active
- 2006-10-10 WO PCT/JP2006/320199 patent/WO2007046267A1/ja active Application Filing
- 2006-10-10 CN CN2006800388519A patent/CN101292283B/zh active Active
- 2006-10-10 US US12/090,043 patent/US8175868B2/en active Active
- 2006-10-10 CN CN201110157383XA patent/CN102222498B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
US8175868B2 (en) | 2012-05-08 |
CN101292283A (zh) | 2008-10-22 |
JP4911034B2 (ja) | 2012-04-04 |
CN102222498B (zh) | 2013-05-01 |
WO2007046267A1 (ja) | 2007-04-26 |
CN102222499B (zh) | 2012-11-07 |
CN101292283B (zh) | 2012-08-08 |
CN102222498A (zh) | 2011-10-19 |
CN102222499A (zh) | 2011-10-19 |
US20090138260A1 (en) | 2009-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
US7647224B2 (en) | Apparatus, method, and computer program product for speech recognition | |
JP3180655B2 (ja) | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 | |
Chang et al. | Large vocabulary Mandarin speech recognition with different approaches in modeling tones | |
US6553342B1 (en) | Tone based speech recognition | |
EP2048655A1 (en) | Context sensitive multi-stage speech recognition | |
EP1675102A2 (en) | Method for extracting feature vectors for speech recognition | |
JP4758919B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP4353202B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
Sultana et al. | A survey on Bengali speech-to-text recognition techniques | |
Hasija et al. | Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier | |
JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
Yavuz et al. | A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model. | |
JP2011180308A (ja) | 音声認識装置及び記録媒体 | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
JP4479191B2 (ja) | 音声認識装置、音声認識方法及び音声認識処理プログラム | |
JP4749990B2 (ja) | 音声認識装置 | |
JP2006010739A (ja) | 音声認識装置 | |
Shafie et al. | Sequential classification for articulation and Co-articulation classes of Al-Quran syllables pronunciations based on GMM-MLLR | |
JP5158877B2 (ja) | 音声認識方法および装置 | |
Takahashi et al. | Isolated word recognition using pitch pattern information | |
Sangwan | Feature Extraction for Speaker Recognition: A Systematic Study | |
Li et al. | A detection method of lip-smack in spontaneous speech | |
JP3917880B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
Roy et al. | Bangla Speech Denoising and Identification using Deep Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090924 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111220 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4911034 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150127 Year of fee payment: 3 |