JPWO2008001486A1 - 音声処理装置およびプログラム、並びに、音声処理方法 - Google Patents
音声処理装置およびプログラム、並びに、音声処理方法 Download PDFInfo
- Publication number
- JPWO2008001486A1 JPWO2008001486A1 JP2008522291A JP2008522291A JPWO2008001486A1 JP WO2008001486 A1 JPWO2008001486 A1 JP WO2008001486A1 JP 2008522291 A JP2008522291 A JP 2008522291A JP 2008522291 A JP2008522291 A JP 2008522291A JP WO2008001486 A1 JPWO2008001486 A1 JP WO2008001486A1
- Authority
- JP
- Japan
- Prior art keywords
- feature information
- recognition
- language
- speech
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 81
- 238000003672 processing method Methods 0.000 title claims description 12
- 238000012795 verification Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000008569 process Effects 0.000 claims abstract description 17
- 239000000284 extract Substances 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims 2
- 238000000605 extraction Methods 0.000 abstract description 29
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
入力された音声に対する音声認識処理の結果として得られた認識結果データから該データの特徴である認識素性情報を抽出するステップと、
予め登録された言語リソースから該言語リソースの特徴である言語素性情報を抽出するステップと、
抽出された認識素性情報および言語素性情報に基づく学習処理により検証モデルを求めるステップとを実行する。
図1に、本発明の実施の形態に係る音声処理装置の構成を示す。本実施形態の音声処理装置101は、入力された音声に対する音声認識処理の結果として得られた認識結果データ(学習用音声認識結果15)から該データの特徴である認識素性情報を抽出する手段(認識素性抽出部12)と、予め登録された言語リソース14から該言語リソース14の特徴である言語素性情報を抽出する手段(言語素性抽出部11)と、抽出された認識素性情報および言語素性情報に基づく学習処理により検証モデル16を求める手段(モデル学習部13)とを備える。
図3に、本発明の実施の形態の音声処理装置の構成を示す。本実施形態の音声処理装置102の構成は、図1の上記実施形態の音声処理装置101の構成に学習制御部31を付加したものである。
図5に、図1または図3の検証モデル16を用いて音声認識結果に検証に関する情報を付与する音声処理装置の一構成例を示す。音声処理装置103は、検証対象として新たに入力された認識結果データ(図5の音声認識部41の出力)を検証モデル16を用いて検証する手段を備え、具体的には、音声認識部41と、素性抽出部42と、検証処理部43と、情報統合部44と、を含む。
Claims (23)
- 入力された音声に対する音声認識処理の結果として得られた認識結果データから該データの特徴である認識素性情報を抽出する手段と、
予め登録された言語リソースから該言語リソースの特徴である言語素性情報を抽出する手段と、
抽出された認識素性情報および言語素性情報に基づく学習処理により検証モデルを求める手段とを備えることを特徴とする音声処理装置。 - 前記学習処理に使用すべき認識素性情報および言語素性情報の種別を選択する手段を備えることを特徴とする請求項1記載の音声処理装置。
- 前記選択する手段は、前記学習処理に使用すべき認識素性情報および言語素性情報の種別を当該認識結果データおよび言語リソースにおける出現頻度に基づき選択することを特徴とする請求項2記載の音声処理装置。
- 前記学習処理に使用すべき認識素性情報および言語素性情報に対し重み値を設定する手段を備えることを特徴とする請求項1乃至3のいずれか1項に記載の音声処理装置。
- 前記重み値を設定する手段は、前記重み値を前記認識素性情報および前記言語素性情報の種別に応じて設定することを特徴とする請求項4記載の音声処理装置。
- 前記重み値を設定する手段は、前記認識素性情報および前記言語素性情報のそれぞれに設定した重み値を用いて該認識素性情報および言語素性情報ごとに重み付け和を求め、求めた重み付け和を素性値とすることを特徴とする請求項4記載の音声処理装置。
- 検証対象として新たに入力された認識結果データを前記検証モデルを用いて検証する手段を備えることを特徴とする請求項1乃至6のいずれか1項に記載の音声処理装置。
- 前記言語素性情報を抽出する手段は、予め登録された言語リソースに対する使用履歴に基づき前記言語素性情報を抽出することを特徴とする請求項1乃至7のいずれか1項に記載の音声処理装置。
- 前記検証モデルを求める手段は、前記検証モデルとして識別モデルを求めることを特徴とする請求項1乃至8のいずれか1項に記載の音声処理装置。
- 前記検証モデルを求める手段は、前記識別モデルとして条件付確率場モデルを求めることを特徴とする請求項9記載の音声処理装置。
- 前記認識素性情報を抽出する手段は、前記認識素性情報として、当該認識結果データが表す表記および品詞ならびに読みに関する属性を抽出することを特徴とする請求項1乃至10のいずれか1項に記載の音声処理装置。
- コンピュータを請求項1乃至11記載の音声処理装置として機能させることを特徴とするプログラム。
- 音声処理装置が、
入力された音声に対する音声認識処理の結果として得られた認識結果データから該データの特徴である認識素性情報を抽出するステップと、
予め登録された言語リソースから該言語リソースの特徴である言語素性情報を抽出するステップと、
抽出された認識素性情報および言語素性情報に基づく学習処理により検証モデルを求めるステップとを実行することを特徴とする音声処理方法。 - 前記音声処理装置が、さらに、前記学習処理に使用すべき認識素性情報および言語素性情報の種別を選択するステップを実行することを特徴とする請求項13記載の音声処理方法。
- 前記音声処理装置が、前記種別を選択するステップにおいて、前記認識素性情報および言語素性情報の種別を当該認識結果データおよび言語リソースにおける出現頻度に基づき選択することを特徴とする請求項14記載の音声処理方法。
- 前記音声処理装置が、さらに、前記学習処理に使用すべき認識素性情報および言語素性情報に対し重み値を設定するステップを実行することを特徴とする請求項13乃至15のいずれか1項に記載の音声処理方法。
- 前記音声処理装置が、前記重み値を設定するステップにおいて、前記重み値を前記認識素性情報および前記言語素性情報の種別に応じて設定することを特徴とする請求項16記載の音声処理方法。
- 前記音声処理装置が、前記重み値を設定するステップにおいて、前記認識素性情報および前記言語素性情報のそれぞれに設定した重み値を用いて該認識素性情報および言語素性情報ごとに重み付け和を求め、求めた重み付け和をそれぞれの素性値とすることを特徴とする請求項16記載の音声処理方法。
- 前記音声処理装置が、さらに、検証対象として新たに入力された認識結果データを前記検証モデルを用いて検証するステップを実行することを特徴とする請求項13乃至18のいずれか1項に記載の音声処理方法。
- 前記音声処理装置が、前記言語素性情報を抽出する前記ステップにおいて、予め登録された言語リソースに対する使用履歴に基づき前記言語素性情報を抽出することを特徴とする請求項13乃至19のいずれか1項に記載の音声処理方法。
- 前記音声処理装置が、前記検証モデルを求める前記ステップにおいて、前記検証モデルとして識別モデルを求めることを特徴とする請求項13乃至20のいずれか1項に記載の音声処理方法。
- 前記音声処理装置が、前記検証モデルを求める前記ステップにおいて、前記識別モデルとして条件付確率場モデルを求めることを特徴とする請求項21記載の音声処理方法。
- 前記音声処理装置が、前記認識素性情報を抽出するステップにおいて、前記認識素性情報として、当該認識結果データが表す表記および品詞ならびに読みに関する属性を抽出することを特徴とする請求項13乃至22のいずれか1項に記載の音声処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008522291A JP5223673B2 (ja) | 2006-06-29 | 2007-06-18 | 音声処理装置およびプログラム、並びに、音声処理方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006179619 | 2006-06-29 | ||
JP2006179619 | 2006-06-29 | ||
JP2008522291A JP5223673B2 (ja) | 2006-06-29 | 2007-06-18 | 音声処理装置およびプログラム、並びに、音声処理方法 |
PCT/JP2007/000642 WO2008001486A1 (fr) | 2006-06-29 | 2007-06-18 | Dispositif et programme de traitement vocal, et procédé de traitement vocal |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2008001486A1 true JPWO2008001486A1 (ja) | 2009-11-26 |
JP5223673B2 JP5223673B2 (ja) | 2013-06-26 |
Family
ID=38845261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008522291A Active JP5223673B2 (ja) | 2006-06-29 | 2007-06-18 | 音声処理装置およびプログラム、並びに、音声処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8751226B2 (ja) |
JP (1) | JP5223673B2 (ja) |
WO (1) | WO2008001486A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5447382B2 (ja) * | 2008-08-27 | 2014-03-19 | 日本電気株式会社 | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム |
US20110093263A1 (en) * | 2009-10-20 | 2011-04-21 | Mowzoon Shahin M | Automated Video Captioning |
US8401852B2 (en) | 2009-11-30 | 2013-03-19 | Microsoft Corporation | Utilizing features generated from phonic units in speech recognition |
US20120330662A1 (en) * | 2010-01-29 | 2012-12-27 | Nec Corporation | Input supporting system, method and program |
CN102193936B (zh) * | 2010-03-09 | 2013-09-18 | 阿里巴巴集团控股有限公司 | 一种数据分类的方法及装置 |
CN102411583B (zh) * | 2010-09-20 | 2013-09-18 | 阿里巴巴集团控股有限公司 | 一种文本匹配方法及装置 |
US20140074475A1 (en) * | 2011-03-30 | 2014-03-13 | Nec Corporation | Speech recognition result shaping apparatus, speech recognition result shaping method, and non-transitory storage medium storing program |
US9164983B2 (en) | 2011-05-27 | 2015-10-20 | Robert Bosch Gmbh | Broad-coverage normalization system for social media language |
US8650031B1 (en) * | 2011-07-31 | 2014-02-11 | Nuance Communications, Inc. | Accuracy improvement of spoken queries transcription using co-occurrence information |
JP2013050605A (ja) * | 2011-08-31 | 2013-03-14 | Nippon Hoso Kyokai <Nhk> | 言語モデル切替装置およびそのプログラム |
JP5772585B2 (ja) * | 2011-12-28 | 2015-09-02 | トヨタ自動車株式会社 | 音声認識装置、方法、及びプログラム |
US9159319B1 (en) * | 2012-12-03 | 2015-10-13 | Amazon Technologies, Inc. | Keyword spotting with competitor models |
JP6183988B2 (ja) * | 2012-12-11 | 2017-08-23 | 日本放送協会 | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
GB2552722A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
CN109166570B (zh) * | 2018-07-24 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 一种语音切分的方法、装置、设备和计算机存储介质 |
US10380997B1 (en) | 2018-07-27 | 2019-08-13 | Deepgram, Inc. | Deep learning internal state index-based search and classification |
US11043214B1 (en) * | 2018-11-29 | 2021-06-22 | Amazon Technologies, Inc. | Speech recognition using dialog history |
US11714833B2 (en) * | 2020-09-10 | 2023-08-01 | Capital One Services, Llc | Mediums, methods, and systems for classifying columns of a data store based on character level labeling |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0883091A (ja) * | 1994-09-09 | 1996-03-26 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH10116094A (ja) * | 1996-10-01 | 1998-05-06 | Lucent Technol Inc | 音声認識方法および音声認識装置 |
JP2003263187A (ja) * | 2002-03-07 | 2003-09-19 | Mitsubishi Electric Corp | 言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体 |
JP2005084436A (ja) * | 2003-09-09 | 2005-03-31 | Advanced Telecommunication Research Institute International | 音声認識装置及びコンピュータプログラム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
US5835893A (en) * | 1996-02-15 | 1998-11-10 | Atr Interpreting Telecommunications Research Labs | Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity |
US6574597B1 (en) * | 1998-05-08 | 2003-06-03 | At&T Corp. | Fully expanded context-dependent networks for speech recognition |
US6622119B1 (en) * | 1999-10-30 | 2003-09-16 | International Business Machines Corporation | Adaptive command predictor and method for a natural language dialog system |
JP2001134285A (ja) | 1999-11-01 | 2001-05-18 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
US6442519B1 (en) * | 1999-11-10 | 2002-08-27 | International Business Machines Corp. | Speaker model adaptation via network of similar users |
JP2003131683A (ja) * | 2001-10-22 | 2003-05-09 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
US7379867B2 (en) * | 2003-06-03 | 2008-05-27 | Microsoft Corporation | Discriminative training of language models for text and speech classification |
US7418378B2 (en) * | 2003-12-22 | 2008-08-26 | Microsoft Corporation | Method and apparatus for training and deployment of a statistical model of syntactic attachment likelihood |
JP2005275348A (ja) | 2004-02-23 | 2005-10-06 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
JP4528076B2 (ja) | 2004-09-17 | 2010-08-18 | 日本放送協会 | 音声認識装置及び音声認識プログラム |
US7627473B2 (en) | 2004-10-15 | 2009-12-01 | Microsoft Corporation | Hidden conditional random field models for phonetic classification and speech recognition |
US7693713B2 (en) * | 2005-06-17 | 2010-04-06 | Microsoft Corporation | Speech models generated using competitive training, asymmetric training, and data boosting |
-
2007
- 2007-06-18 US US12/306,632 patent/US8751226B2/en active Active
- 2007-06-18 WO PCT/JP2007/000642 patent/WO2008001486A1/ja active Search and Examination
- 2007-06-18 JP JP2008522291A patent/JP5223673B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0883091A (ja) * | 1994-09-09 | 1996-03-26 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH10116094A (ja) * | 1996-10-01 | 1998-05-06 | Lucent Technol Inc | 音声認識方法および音声認識装置 |
JP2003263187A (ja) * | 2002-03-07 | 2003-09-19 | Mitsubishi Electric Corp | 言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体 |
JP2005084436A (ja) * | 2003-09-09 | 2005-03-31 | Advanced Telecommunication Research Institute International | 音声認識装置及びコンピュータプログラム |
Non-Patent Citations (1)
Title |
---|
坪井祐太他: ""言語処理における識別モデルの発展 - HMMからCRFまで"", 言語処理学会 第12回年次大会 チュートリアル資料(2006-03), JPN6012027760, pages 1 - 10, ISSN: 0002237795 * |
Also Published As
Publication number | Publication date |
---|---|
WO2008001486A1 (fr) | 2008-01-03 |
US8751226B2 (en) | 2014-06-10 |
JP5223673B2 (ja) | 2013-06-26 |
US20090204390A1 (en) | 2009-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5223673B2 (ja) | 音声処理装置およびプログラム、並びに、音声処理方法 | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
JP5229216B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
US8972260B2 (en) | Speech recognition using multiple language models | |
US7925505B2 (en) | Adaptation of language models and context free grammar in speech recognition | |
EP1696421B1 (en) | Learning in automatic speech recognition | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
WO2019017462A1 (ja) | 満足度推定モデル学習装置、満足度推定装置、満足度推定モデル学習方法、満足度推定方法、およびプログラム | |
EP3739583A1 (en) | Dialog device, dialog method, and dialog computer program | |
CN110930993A (zh) | 特定领域语言模型生成方法及语音数据标注系统 | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP2014077882A (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
US11615787B2 (en) | Dialogue system and method of controlling the same | |
JP4191021B2 (ja) | ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム | |
JP5288378B2 (ja) | 音響モデルの話者適応装置及びそのためのコンピュータプログラム | |
JP6086714B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP4674609B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP2007017548A (ja) | 音声認識結果の検証装置及びコンピュータプログラム | |
JP7216348B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
JP5812936B2 (ja) | アクセント句境界推定装置、アクセント句境界推定方法及びプログラム | |
JP6000153B2 (ja) | フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム | |
JP7173327B2 (ja) | 学習装置、音声認識装置、それらの方法、およびプログラム | |
CN114783413A (zh) | 重打分语言模型训练和语音识别方法、装置、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120605 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5223673 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |