JPWO2008069308A1 - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JPWO2008069308A1 JPWO2008069308A1 JP2008548349A JP2008548349A JPWO2008069308A1 JP WO2008069308 A1 JPWO2008069308 A1 JP WO2008069308A1 JP 2008548349 A JP2008548349 A JP 2008548349A JP 2008548349 A JP2008548349 A JP 2008548349A JP WO2008069308 A1 JPWO2008069308 A1 JP WO2008069308A1
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- speech recognition
- speech
- model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Abstract
Description
Takahiro Shinozaki, Sadaoki Furui、"HIDDEN MODE HMM USING BAYESIAN NETWORK FOR MODELING SPEAKING RATE FLUCTUATION"、Automatic Speech Recognition and Understanding (ASRU) workshop 2003、p.417-422 北著、「言語モデルと計算4:確率的言語モデル」、東京大学出版会、1999年、p.57-62 Steve Young et al.、"The HTK Book (for HTK Version 3.3)"、Cambrige University Engineering Department、April 2005、p.35-40, p.54-64, p.127-130
100A、100A_1、100A_2 モデル学習部
100B、100B_1、100B_2 音声認識部
101 音声データ
102 書き起こしテキストデータ
103 区間検出手段
104 データ選別手段
105 発声長別データ
106 モデル学習手段
107 発声長別モデル
201 発声長判定手段
202、401 モデル選択手段
203 認識手段
301 発声時刻判定手段
302 発声長・発声時刻別データ
303 発声長・発声時刻別モデル
Claims (19)
- 音響モデルおよび言語モデルを用いて音声認識処理を行う音声認識部と、
音声データにおける発声区間の長さを表す発声長別に前記音響モデルおよび言語モデルを学習するモデル学習部とを備えることを特徴とする音声認識装置。 - 前記モデル学習部は、
音声データにおける発声区間を検出し該発声区間を表す区間情報を生成する手段と、前記音声データと該音声データから書き起こされたテキストデータとにおける区間情報に対応するデータ部分を認識し該データ部分をその発声長に基づき分類する手段と、分類されたデータ部分を用いて音響モデルおよび言語モデルを学習する手段とを有することを特徴とする請求項1記載の音声認識装置。 - 前記音声認識部は、
音声認識処理の対象となる音声データの発声長を算出し該発声長に対応する分類を認識する手段と、認識した分類に対応する音響モデルおよび言語モデルを用いて前記音声データの音声認識処理を実行する手段とを有することを特徴とする請求項2記載の音声認識装置。 - 前記モデル学習部は、さらに、区間情報に対応するデータ部分から当該発声区間における所定の期間に対応する詳細データ部分を認識し該詳細データ部分を期間別に分類する手段を有し、
音響モデルおよび言語モデルを学習するとき、さらに、分類された詳細データ部分を用いて発声区間における所定の期間別に学習を実行することを特徴とする請求項3記載の音声認識装置。 - 前記音声認識部は、さらに、音声認識処理の対象となる音声データの発声長が表す発声区間における所定の期間を認識する手段を有し、
前記音声データの音声認識処理を実行するとき、さらに、認識した期間に対応する音響モデルおよび言語モデルを用いることを特徴とする請求項4記載の音声認識装置。 - 前記モデル学習部は、音声データにおいてパワーが閾値より大きな発声区間の長さを前記発声長として認識することを特徴とする請求項1乃至5のいずれか1項に記載の音声認識装置。
- 前記モデル学習部は、発声長を1秒未満と1秒から3秒未満と3秒以上とに分類することを特徴とする請求項1乃至6のいずれか1項に記載の音声認識装置。
- 前記モデル学習部は、発声区間における前記所定の期間を該発声区間の先頭からの時刻により認識することを特徴とする請求項4乃至7のいずれか1項に記載の音声認識装置。
- 前記モデル学習部は、発声区間における前記所定の期間として、発声区間の先頭から1秒間の期間と、発声区間の終尾の1秒間の期間と、前記両期間に挟まれた中央の期間とのうちの2つ以上の組み合わせを適用することを特徴とする請求項8記載の音声認識装置。
- コンピュータを請求項1乃至9のいずれか1項に記載の音声認識装置として機能させることを特徴とするプログラム。
- 音声認識装置が、音声データにおける発声区間の長さを表す発声長別に音響モデルおよび言語モデルを学習し、前記音響モデルおよび言語モデルを用いて音声認識処理を行うことを特徴とする音声認識方法。
- 前記音声認識装置が、
音響モデルおよび言語モデルを学習するとき、音声データにおける発声区間を検出し該発声区間を表す区間情報を生成し、前記音声データと該音声データから書き起こされたテキストデータとにおける区間情報に対応するデータ部分を認識し該データ部分をその発声長に基づき分類し、分類されたデータ部分を用いて音響モデルおよび言語モデルを学習することを特徴とする請求項11記載の音声認識方法。 - 前記音声認識装置が、
音声認識処理を行うとき、音声認識処理の対象となる音声データの発声長を算出し該発声長に対応する分類を認識し、認識した分類に対応する音響モデルおよび言語モデルを用いて前記音声データの音声認識処理を実行することを特徴とする請求項12記載の音声認識方法。 - 前記音声認識装置が、
音響モデルおよび言語モデルを学習するとき、さらに、区間情報に対応するデータ部分から当該発声区間における所定の期間に対応する詳細データ部分を認識し該詳細データ部分を期間別に分類し、
音響モデルおよび言語モデルを学習するとき、さらに、分類された詳細データ部分を用いて発声区間における所定の期間別に学習を実行することを特徴とする請求項13記載の音声認識方法。 - 前記音声認識装置が、音声認識処理を行うとき、さらに、音声認識処理の対象となる音声データの発声長が表す発声区間における所定の期間を認識し、
前記音声データの音声認識処理を実行するとき、さらに、認識した期間に対応する音響モデルおよび言語モデルを用いることを特徴とする請求項14記載の音声認識方法。 - 前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、音声データにおいてパワーが閾値より大きな発声区間の長さを前記発声長として認識することを特徴とする請求項11乃至15のいずれか1項に記載の音声認識方法。
- 前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、発声長を1秒未満と1秒から3秒未満と3秒以上とに分類することを特徴とする請求項11乃至16のいずれか1項に記載の音声認識方法。
- 前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、発声区間における前記所定の期間を該発声区間の先頭からの時刻により認識することを特徴とする請求項14乃至17のいずれか1項に記載の音声認識方法。
- 前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、発声区間における前記所定の期間として、発声区間の先頭から1秒間の期間と、発声区間の終尾の1秒間の期間と、前記両期間に挟まれた中央の期間とのうちの2つ以上の組み合わせを適用することを特徴とする請求項18記載の音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008548349A JP5240456B2 (ja) | 2006-12-08 | 2007-12-07 | 音声認識装置および音声認識方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006331871 | 2006-12-08 | ||
JP2006331871 | 2006-12-08 | ||
JP2008548349A JP5240456B2 (ja) | 2006-12-08 | 2007-12-07 | 音声認識装置および音声認識方法 |
PCT/JP2007/073674 WO2008069308A1 (ja) | 2006-12-08 | 2007-12-07 | 音声認識装置および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2008069308A1 true JPWO2008069308A1 (ja) | 2010-03-25 |
JP5240456B2 JP5240456B2 (ja) | 2013-07-17 |
Family
ID=39492183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008548349A Active JP5240456B2 (ja) | 2006-12-08 | 2007-12-07 | 音声認識装置および音声認識方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8706487B2 (ja) |
EP (1) | EP2096630A4 (ja) |
JP (1) | JP5240456B2 (ja) |
WO (1) | WO2008069308A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5235187B2 (ja) * | 2009-11-16 | 2013-07-10 | 日本電信電話株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
JP5810912B2 (ja) | 2011-12-28 | 2015-11-11 | 富士通株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
WO2014069122A1 (ja) * | 2012-10-31 | 2014-05-08 | 日本電気株式会社 | 表現分類装置、表現分類方法、不満検出装置及び不満検出方法 |
US9754607B2 (en) * | 2015-08-26 | 2017-09-05 | Apple Inc. | Acoustic scene interpretation systems and related methods |
US9799327B1 (en) * | 2016-02-26 | 2017-10-24 | Google Inc. | Speech recognition with attention-based recurrent neural networks |
EP3474276A4 (en) * | 2016-06-15 | 2019-07-31 | Sony Corporation | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
US10586529B2 (en) * | 2017-09-14 | 2020-03-10 | International Business Machines Corporation | Processing of speech signal |
JP6892426B2 (ja) * | 2018-10-19 | 2021-06-23 | ヤフー株式会社 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
JP7229847B2 (ja) * | 2019-05-13 | 2023-02-28 | 株式会社日立製作所 | 対話装置、対話方法、及び対話コンピュータプログラム |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6239900A (ja) | 1985-08-15 | 1987-02-20 | キヤノン株式会社 | 音声認識装置 |
US5774851A (en) * | 1985-08-15 | 1998-06-30 | Canon Kabushiki Kaisha | Speech recognition apparatus utilizing utterance length information |
JP2829014B2 (ja) | 1989-01-12 | 1998-11-25 | 株式会社東芝 | 音声認識装置及び方法 |
US5444817A (en) * | 1991-10-02 | 1995-08-22 | Matsushita Electric Industrial Co., Ltd. | Speech recognizing apparatus using the predicted duration of syllables |
US5583961A (en) * | 1993-03-25 | 1996-12-10 | British Telecommunications Public Limited Company | Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands |
US5893059A (en) * | 1997-04-17 | 1999-04-06 | Nynex Science And Technology, Inc. | Speech recoginition methods and apparatus |
US6014624A (en) * | 1997-04-18 | 2000-01-11 | Nynex Science And Technology, Inc. | Method and apparatus for transitioning from one voice recognition system to another |
JP3058125B2 (ja) | 1997-06-27 | 2000-07-04 | 日本電気株式会社 | 音声認識装置 |
JP2000099077A (ja) | 1998-09-28 | 2000-04-07 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
AU7938300A (en) * | 1999-10-06 | 2001-05-10 | Lernout And Hauspie Speech Products N.V. | Attribute-based word modeling |
EP1189202A1 (en) * | 2000-09-18 | 2002-03-20 | Sony International (Europe) GmbH | Duration models for speech recognition |
US20020087309A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented speech expectation-based probability method and system |
JP3893893B2 (ja) | 2001-03-30 | 2007-03-14 | セイコーエプソン株式会社 | ウエブページの音声検索方法、音声検索装置および音声検索プログラム |
JP4124416B2 (ja) | 2002-01-28 | 2008-07-23 | 独立行政法人情報通信研究機構 | 半自動型字幕番組制作システム |
JP2003330485A (ja) * | 2002-05-10 | 2003-11-19 | Tokai Rika Co Ltd | 音声認識装置、音声認識システム及び音声認識方法 |
JP2004126143A (ja) * | 2002-10-01 | 2004-04-22 | Mitsubishi Electric Corp | 音声認識装置および音声認識プログラム |
JP2006039120A (ja) * | 2004-07-26 | 2006-02-09 | Sony Corp | 対話装置および対話方法、並びにプログラムおよび記録媒体 |
US20060149544A1 (en) * | 2005-01-05 | 2006-07-06 | At&T Corp. | Error prediction in spoken dialog systems |
JP4571922B2 (ja) * | 2006-03-17 | 2010-10-27 | 日本電信電話株式会社 | 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体 |
JP4906379B2 (ja) * | 2006-03-22 | 2012-03-28 | 富士通株式会社 | 音声認識装置、音声認識方法、及びコンピュータプログラム |
-
2007
- 2007-12-07 JP JP2008548349A patent/JP5240456B2/ja active Active
- 2007-12-07 EP EP07850261A patent/EP2096630A4/en not_active Withdrawn
- 2007-12-07 US US12/518,075 patent/US8706487B2/en active Active
- 2007-12-07 WO PCT/JP2007/073674 patent/WO2008069308A1/ja active Search and Examination
Also Published As
Publication number | Publication date |
---|---|
US20100324897A1 (en) | 2010-12-23 |
EP2096630A4 (en) | 2012-03-14 |
EP2096630A1 (en) | 2009-09-02 |
WO2008069308A1 (ja) | 2008-06-12 |
US8706487B2 (en) | 2014-04-22 |
JP5240456B2 (ja) | 2013-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11270685B2 (en) | Speech based user recognition | |
JP5240456B2 (ja) | 音声認識装置および音声認識方法 | |
CN106463113B (zh) | 在语音辨识中预测发音 | |
US11410684B1 (en) | Text-to-speech (TTS) processing with transfer of vocal characteristics | |
US9767792B2 (en) | System and method for learning alternate pronunciations for speech recognition | |
EP1557822B1 (en) | Automatic speech recognition adaptation using user corrections | |
Ghai et al. | Literature review on automatic speech recognition | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
US6618702B1 (en) | Method of and device for phone-based speaker recognition | |
JPH09500223A (ja) | 多言語音声認識システム | |
US20040210437A1 (en) | Semi-discrete utterance recognizer for carefully articulated speech | |
Ghai et al. | Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
US11935523B2 (en) | Detection of correctness of pronunciation | |
JP5376341B2 (ja) | モデル適応装置、その方法及びそのプログラム | |
CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
Proença et al. | Mispronunciation Detection in Children's Reading of Sentences | |
Hirschberg et al. | Generalizing prosodic prediction of speech recognition errors | |
KR20230094826A (ko) | 음소 및 문맥 정보를 고려한 화자 임베딩 추출 방법 및 장치 | |
JP7098587B2 (ja) | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム | |
Shukla | Keywords Extraction and Sentiment Analysis using Automatic Speech Recognition | |
Pisarn et al. | An HMM-based method for Thai spelling speech recognition | |
JP6199994B2 (ja) | コンテキスト情報を使用した音声認識システムにおける誤警報低減 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20101021 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101021 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130306 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130319 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160412 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5240456 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |