JPWO2007114346A1 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JPWO2007114346A1 JPWO2007114346A1 JP2008508661A JP2008508661A JPWO2007114346A1 JP WO2007114346 A1 JPWO2007114346 A1 JP WO2007114346A1 JP 2008508661 A JP2008508661 A JP 2008508661A JP 2008508661 A JP2008508661 A JP 2008508661A JP WO2007114346 A1 JPWO2007114346 A1 JP WO2007114346A1
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- group
- unit
- recognition
- calculation unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 claims abstract description 67
- 238000004364 calculation method Methods 0.000 claims abstract description 59
- 230000010354 integration Effects 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000013500 data storage Methods 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 3
- 101100274346 Drosophila melanogaster mora gene Proteins 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000665848 Isca Species 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
11:音声入力部
12:音響処理部
12A:特徴量抽出部
12B:音響標準データ部
12C:候補算出部
13:音素グループ算出部
14:認識辞書データ格納部
15,25,35,45,55,65:統合部
15A:照合部
16:出力部
21:画像入力部
22:画像処理部
25A,25B,25C:識別器
53:口形素グループ算出部
最初に、本発明のコンセプトについて説明する。
本発明では、まず一以上の音素を一つの仮想的な集合である音素グループとし、音響処理で求まる音素から音素グループを算出する。音素をグルーピングする手法として、音響モデルレベルでのグルーピングと認識レベルでのグルーピングとを挙げることができる。
「a,i,u,e,o,a:,i:,u:,e:,o:,w:,{b,by,r,ry,y},{h,hy,k,ky,p,py,t,ch},d,dy,g,gy,z,j,{m,my,n,ny},N,{s,sh,ts},f,q」
音響モデル間距離から次の18の音素グループが得られる。
「{hy,ky},{s,j,b,h,f,q,z},{ts,ch,sh},{k,p,t},{g,d,dy},w,{o,o:},{a,a:},n,u,N,m,r,y,u:,{e,e:},{gy,py},{my,ny,i,ry,by,i:}」
なお、{ }で囲まれた音素が一つの音素グループを形成する。一方後者は、音響モデルは音素毎に構築し、認識結果に対して予め定められたグルーピング規則を適用する手法であり、有向性音素グルーピングやN−best音素グルーピングを挙げることができる。
そこで、音素グループを導入したことで生じる曖昧性を、非音声的な手法、例えば口唇画像や認識単語の絞り込みで解消する。以下、図面を参照して本発明を実施するための好ましい幾つかの形態を説明する。なお、同一又は実質的に同一の機能ブロックには同一の符号を付して説明の繰り返しを避けている。
図1は、第1の形態に係る音声認識装置10の構成を示す機能ブロック構成図である。第1の形態に係る音声認識装置10は、図1に示すように、話者からの音声を音声信号に変換する音声入力部11と、音声信号を音響処理して音素候補を求める音響処理部12と、音響処理部12で求めた音素候補から認識誤りデータに基づいて音素グループを算出する音素グループ算出部13と、単語と音素とを対応させて構築した認識辞書データを格納する認識辞書データ格納部14と、音素グループ算出部13で算出された音素グループから曖昧性解消情報としての認識辞書データに基づいて一つの候補に統合する統合部15と、音声認識装置10における認識結果として統合部15で統合した一つの候補を出力する出力部16とを備える。なお、音声入力部11の代わりに認識対象たる音声の信号を記録したメモリ部を備えても、出力部16の代わりに出力候補を逐次記録する別のメモリ部を備えても良い。
音声入力部11はマイクなどで構成され、入力された音声を音声信号に変換する。音響処理部12では、先ず音声信号をスペクトル解析し言語情報に対応する物理的な特徴、即ち特徴量を求め、次に予め音素毎に声の音響的な特徴を表現した音響モデルを参照しながら入力された音声信号の特徴量と認識候補とを照合し、入力された音声信号の特徴量と類似した認識候補、即ち音素候補を求める。
で定義される値に依存し、異なる。
話者が作成用単語(例えば「勢い」など)を発声し、音声入力部11及び音響処理部12を経ることで対応する音素候補を得る。この処理を多数の作成用単語で行い、正解音素が認識結果音素にどのように配分されて認識されるかをデータ集計する。ここで、話者が発生すべき一連の音素(上記例では“ikioi”)を一連の正解音素とし、音響処理部12での出力結果を一連の認識結果音素と定義する。時間軸上で認識結果音素が正解音素の発声区間に含まれている場合には正解音素と認識結果音素とを対応付けし、それ以外の場合には正解音素の発生開始時間をCt1、発生終了時間Ct2、k番目の認識結果の発生開始時間をRt1(k)、発声終了時間をRt2(k)とし、
d(k)={Rt1(k)−Ct1}2+{Rt2(k)−Ct2}2
による二乗誤差を単語に含まれる正解音素毎に繰り返して計算し、d(k)が最小となるkをSとし、S番目の認識結果を最尤候補とし、正解音素と一致するか否かを検討する。その際、正解音素と認識結果音素との間で音素発声区間のアライメントを採り、正解音素と認識結果音素とを対応付けする。アライメントの際、正解区間内に含まれる音素は抽出し、正解音素と対応が取れないものは削除する。
図5は、第2の形態に係る音声認識装置20の機能ブロック構成図である。
第2の形態に係る音声認識装置20は、図5に示すように、話者からの音声を音声信号に変換する音声入力部11と、音声信号を音響処理して音素候補を求める音響処理部12と、音響処理部12で求めた音素候補から認識誤りデータに基づいて音素グループを算出する音素グループ算出部13と、話者の口周りの映像を撮像する画像入力部21と、画像入力部21から入力された撮像データから口唇情報に加工する画像処理部22と、音素グループ算出部13で算出された音素グループから曖昧性解消情報として口唇情報に基づいて一つの候補に統合する統合部25と、音声認識装置20における認識結果として統合部25で統合した一つの候補を出力する出力部16とを備える。音声入力部11や画像入力部21の代わりに、認識対象たる音声の信号及びこの音声信号と対をなす話者の口唇画像を例えば時間データを付属情報として付けることで対応させて記録したメモリ部を備え、出力部16の代わりに出力候補を逐次記録する別のメモリ部を備えても良い。
第2の形態の変形例として第3の形態を説明する。
図8は第3の形態に係る音声認識装置30の機能ブロック構成図で、図9は統合部35での処理を模式的に示す図である。第3の形態に係る音声認識装置30は、図8に示すように、第2の形態に係る音声認識装置20に、図1に示す認識辞書データ格納部14を備え、統合部35の照合部15Aで認識辞書データ格納部14に格納されている認識辞書データと照合するよう構成されている。
第3の形態の変形例として第4の形態を説明する。
図10は第4の形態に係る音声認識装置40の機能ブロック構成図で、図11は統合部45での処理を模式的に示す図である。
図12は、第5の形態に係る音声認識装置50の機能ブロック構成図である。
第5の形態に係る音声認識装置50は、図5に示す第2の形態とは、口形素グループ作成部53を備える点で異なり、統合部55の機能の点でも異なっている。具体的には、口形素グループ作成部53には、予め口唇情報がどの口形素(viseme)グループに対応するかを示す口形素グループ算出テーブルを備え、画像処理部22からの口唇情報と口形素算出テーブルとから口形素グループを認定する。ここで、口形素とは視覚素とも呼ばれ、口唇の開き具合を視覚的には区別はできず、聴覚によって区別さえるような音韻をいう。例えば“bat”と“pat”の単語を構成する/b/と/p/や、例えば/a/と/a:/のように長音と短音が同一の口形素グループの要素となる。
第6の形態は、第5の形態において第1の形態における認識辞書データ格納部14を備える点で異なる。図14は第6の形態に係る音声認識装置60の機能ブロック構成の一部を示す図である。図12に示す音声入力部11、音響処理部12、画像入力部21及び画像処理部22は省略してある。
Claims (5)
- 音声信号を音響処理して音素候補を求める音響処理部と、上記音響処理部で求めた音素候補から認識誤りデータに基づいて音素グループを算出する音素グループ算出部と、上記音素グループ算出部で算出された音素グループから曖昧性解消情報に基づいて一つの候補に統合する統合部と、を備えることを特徴とする、音声認識装置。
- 前記音素グループ算出部は、認識誤りの有向性を有する認識誤りデータに基づいて音素グループを算出することを特徴とする、請求の範囲1に記載の音声認識装置。
- 前記曖昧性解消情報は、単語と音素とを対応させて構築した認識辞書データであることを特徴とする、請求の範囲1に記載の音声認識装置。
- 前記曖昧性解消情報は、前記音響処理部で音響処理される音声信号と対をなす話者の口唇情報であることを特徴とする、請求の範囲1に記載の音声認識装置。
- さらに、前記音響処理部で音響処理される音声信号と対をなす話者の口唇情報から口形素グループを算出する口形素グループ算出部を備え、
前記統合部は、上記口形素グループ算出部で算出された口形素グループを前記曖昧性解消情報とし、上記音素グループ算出部で算出された音素グループの中から一意の候補を絞り込むことを特徴とする、請求の範囲1に記載の音声認識装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US78723106P | 2006-03-30 | 2006-03-30 | |
US60/787,231 | 2006-03-30 | ||
PCT/JP2007/057127 WO2007114346A1 (ja) | 2006-03-30 | 2007-03-30 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2007114346A1 true JPWO2007114346A1 (ja) | 2009-08-20 |
JP5257680B2 JP5257680B2 (ja) | 2013-08-07 |
Family
ID=38563614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008508661A Expired - Fee Related JP5257680B2 (ja) | 2006-03-30 | 2007-03-30 | 音声認識装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5257680B2 (ja) |
WO (1) | WO2007114346A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8635066B2 (en) | 2010-04-14 | 2014-01-21 | T-Mobile Usa, Inc. | Camera-assisted noise cancellation and speech recognition |
US10741182B2 (en) | 2014-02-18 | 2020-08-11 | Lenovo (Singapore) Pte. Ltd. | Voice input correction using non-audio based input |
US9870500B2 (en) | 2014-06-11 | 2018-01-16 | At&T Intellectual Property I, L.P. | Sensor enhanced speech recognition |
CN106875941B (zh) * | 2017-04-01 | 2020-02-18 | 彭楚奥 | 一种服务机器人的语音语义识别方法 |
WO2021024869A1 (ja) * | 2019-08-02 | 2021-02-11 | 日本電気株式会社 | 音声処理装置、音声処理方法、および記録媒体 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0640274B2 (ja) * | 1989-03-13 | 1994-05-25 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声認識装置 |
JPH0682275B2 (ja) * | 1989-09-11 | 1994-10-19 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声認識装置 |
JPH07306692A (ja) * | 1994-05-13 | 1995-11-21 | Matsushita Electric Ind Co Ltd | 音声認識装置及び音声入力装置 |
JPH0883092A (ja) * | 1994-09-14 | 1996-03-26 | Nippon Telegr & Teleph Corp <Ntt> | 情報入力装置及び情報入力方法 |
JPH09160589A (ja) * | 1995-12-06 | 1997-06-20 | Matsushita Electric Ind Co Ltd | 利用者照合装置 |
JP3710205B2 (ja) * | 1996-06-05 | 2005-10-26 | 沖電気工業株式会社 | 音声認識装置 |
JP3798530B2 (ja) * | 1997-09-05 | 2006-07-19 | 松下電器産業株式会社 | 音声認識装置及び音声認識方法 |
JPH11149296A (ja) * | 1997-09-10 | 1999-06-02 | Oki Electric Ind Co Ltd | 単語認識装置 |
JP2001051693A (ja) * | 1999-08-12 | 2001-02-23 | Fuji Xerox Co Ltd | 発話認識装置、発話認識方法、および発話認識方法を記録したコンピュータ・プログラム記録媒体 |
-
2007
- 2007-03-30 WO PCT/JP2007/057127 patent/WO2007114346A1/ja active Application Filing
- 2007-03-30 JP JP2008508661A patent/JP5257680B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP5257680B2 (ja) | 2013-08-07 |
WO2007114346A1 (ja) | 2007-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US9640175B2 (en) | Pronunciation learning from user correction | |
US10339920B2 (en) | Predicting pronunciation in speech recognition | |
US9646605B2 (en) | False alarm reduction in speech recognition systems using contextual information | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
JP6154155B2 (ja) | プロミネンスを使用した音声対話システム | |
JP2016065924A (ja) | 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体 | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
JP5257680B2 (ja) | 音声認識装置 | |
Alharbi et al. | Automatic recognition of children’s read speech for stuttering application | |
CN115312030A (zh) | 虚拟角色的显示控制方法、装置及电子设备 | |
JP2001343992A (ja) | 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2010197644A (ja) | 音声認識システム | |
Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
Manjunath et al. | Articulatory and excitation source features for speech recognition in read, extempore and conversation modes | |
JP2745562B2 (ja) | ノイズ適応形音声認識装置 | |
JP2009116075A (ja) | 音声認識装置 | |
JP5703747B2 (ja) | 音声認識装置,および音声認識プログラム | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
US11043212B2 (en) | Speech signal processing and evaluation | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
JP2011180308A (ja) | 音声認識装置及び記録媒体 | |
JP3440840B2 (ja) | 音声認識方法及びその装置 | |
JP2005283646A (ja) | 音声認識率推定装置 | |
JP2002372988A (ja) | 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091127 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130410 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160502 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5257680 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |