JPS63165900A - 会話音声認識方式 - Google Patents

会話音声認識方式

Info

Publication number
JPS63165900A
JPS63165900A JP61312466A JP31246686A JPS63165900A JP S63165900 A JPS63165900 A JP S63165900A JP 61312466 A JP61312466 A JP 61312466A JP 31246686 A JP31246686 A JP 31246686A JP S63165900 A JPS63165900 A JP S63165900A
Authority
JP
Japan
Prior art keywords
speech
word
section
recognition
prominence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61312466A
Other languages
English (en)
Inventor
広田 敦子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP61312466A priority Critical patent/JPS63165900A/ja
Publication of JPS63165900A publication Critical patent/JPS63165900A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は、音声認識において特に会話音声の認識に関
するものである。
(従来の技術) 従来より、連続発声された入力音声を音響分析し、特徴
パラメータを得た後、該特徴パラメータと予め求めてお
いた標準単語音声の特徴パラメータとを比較し、結果と
して得られた複数個の音声候補より選択した1個の候補
列を出力し、特に選択手段に発声速度関連情報により基
準値との比較から候補を選択するように構成した連続音
声認識方式が提案されている。
第2図はこの従来の連続音声認識方式の一構成例を示す
ブロック図である。第2図において10は入力端子、2
0は音響分析部、30は候補抽出部、40は標準音声格
納部、50は候補選択部、BOは出力端子である。
このような従来の音声認識の分野では離散発声での単語
単位の入力や擬似的な連続発声の入力が主流である。こ
れらの認識装置をユーザーが利用する際、その殆どは装
置が認識し易いような発声、すなわちユーザー側にとっ
ては通常の発声とは異なった不自然な発声を強いられ、
その上装置側に登録されていない言葉に対しては、他の
カテゴリとのコンフユージヨンを生じたり、意味が同じ
単語であっても言い方が登録語と異なれば認識は正常に
行われなかった。
ところで、コンピュータやその他いろいろな装置の高度
化が進むにつれ1人間とコンピュータとの自然な対話機
能が重要になる。それには人間にとって極めて自然な情
報交換の手段である音声の利用が必須となり、使用頻度
の高い会話音声の理解が可能な認識装置が必要となって
くる。
(発明が解決しようとする問題点) しかしながら、これまでの手法を会話音声の認識にその
まま流用しようとすると、以下の2つの問題が生ずる。
先ず第1に、文分割の問題である0通常の会話文では複
数の文が入力されるほか、頭の中で思考しながら発声さ
れるため、構文上意味のない「あの−」や「え−と」な
どの感動詞が多く、これらは単語とつらなって発声され
るので区切られていない、このため分割が困難となる。
そして第2に曖昧文の問題である。会話は言い間違い等
で文法的に整っていない場合が多く、また文脈に大きく
依存する場合が多い、また会話音声中では特に文末や語
尾の発声が不明瞭になる場合が多く、音韻認識は困難で
あり、格文法の中心である名詞が文末近くに現れる場合
には問題となる。
この発明は1以上述べた文分割の問題と、曖昧文のI7
i題を除去し、効率的な会話音声の認識を提供すること
を目的とする。
(問題点を解決するための手段) この発明は、会話音声認識において音響処理部にて得ら
れた韻律情報を用い、音声中のプロミネンスを検出する
プロミネンス部と、検出されたプロミネンスを重要単語
候補区間として、当該候補区間に対してキーワード辞書
及び構文補助辞書とのワードスポツティングを行うワー
ドスポツティング部とを有し、特に会話中の重要単語が
氏名である場合には、正確な認識結果を得るためにアク
セント情報を用いて韻律マツチングを行うことにより認
識を精度良く行う韻律マツチング部を設けることにより
、会話音声の認識を効率的に行うようにしたものである
(作用) このように、この発明の会話音声認識方式によれば、プ
ロミネンス検出部により重要単語候補区間を抽出し、ワ
ードスポツティング部においてこの重要単語候補区間に
ついてのみ登録済みのキーワードを抽出し、そして韻律
マツチング部において、抽出されたキーワードから拍数
及びアクセントに基づいて最適単語候補を得る構成とな
っているので、効率的な会話音声の認識が可能となる。
(実施例) 以下1図面を参照してこの発明の会話音声認識方式の実
施例につき説明する。
先ず、会話音声認識方式の概要を説明する。
概要説明 第1図は、この発明の実施例を示すブロック図であって
、100は入力音声端子である。入力音声端子100よ
り入力された音声は音響処理部101においてA/D変
換後、フレーム周期毎に特徴パラメータ系列及び韻律情
報が分析、抽出される。パラメータ系列は音声区間検出
部102へ転送されるとともに、音韻情報格納部104
へ韻律情報の要素となるピッチバタン、基本周波数、振
幅などの情報が転送されて格納される。音節識別部10
3では音節識別部103内の単音節辞書を用いて音声区
間検出部102で定められた音声区間内の音節識別を行
い、その結果をワードスポツティング部10Bへ送る。
一方、プロミネンス検出部105では、音声区間検出部
102より転送された音声の始端及び終端情報と、韻律
情報格納部104より転送された韻律情報とをもって音
声区間中から特に強調して発声されている重要単語らし
い部分、すなわちプロミネンス(卓立源:A)を検出し
、検出された重要単語候補区間をワードスポツティング
部106へ送る。
このワードスポツティング部10Bでは、音節識別部1
03より送られた音声区間、すなわち始端から終端に至
るまでの音節識別結果、及びプロミネンス検出部105
にて得た重要単語候補区間によりプロミネンス検出部1
05で検出された重要単語候補区間の中で、キーワード
辞書107に予め格納されている認識対象語、すなわち
キーワードのマツチングを行うとともに、構文補助辞書
!θBを用い、キーワード以外の感動詞、依頼語等の識
別を行い、その結果を認識判定部111へ送る。
さらに、キーワードの認識確度を高める手段として1人
の姓がキーワードとして登録されている場合については
、音節識別部103の出力結果をもとに韻律マツチング
部109において音節数及びアクセント辞書11Gを参
照し、アクセント型とのマツチングを行う、そして、そ
の結果を認識判定部111へ送る。
そしてこの認識判定部111では、ワードスポツティン
グ部toe 、 韻律マツチング部109から転送され
た各々の認識結果を受け、最適な結果を認識結果として
出力する。
動作説明 以下、この発明の会話音声認識方式の動作をより具体的
に説明する。
く音響処理部〉 入力端子100から入力された音声信号は、従来周知の
技術を用いて、音響処理部101において特徴を表わす
ベクトル系列、及び特徴パラメータ系列V (p 、 
i)に変換される。このV (p 、 i)は入力され
た音声に対してフレーム周期と呼ばれる時間間隔で音声
の特徴パラメータ系列(5入カバタン)(但し、p=1
.2.3・・参、P及びi=1.2.3・・・P)であ
る、この特徴パラメータ系列V (p 、 f)は、一
般的には中心周波数であるP個のバンドパスフィルタ群
によって抽出された帯域内周波数成分をフレーム周期毎
に標本化することによって得ている。A/D変換後。
71/−ム周期毎に特徴パラメータ系列及び韻律情報が
分析、抽出される。パラメータ系列は音声区間検出部1
02へ転送されるとともに、韻律情報格納部107へ韻
律情報の要素となるピッチバタン、基本周波数及び振幅
などの情報が転送され、格納される。
く音声区間検出部〉 音声区間検出部102では、従来周知の技術を用いて、
特徴パラメータ系列V (p 、 t)に基づき、音声
区間すなわち音声の始端及び経端を検出する。この検出
アルゴリズムとして特徴パラメータV (p 、 i)
から求まる音声パワーを用いてパワーが予め定めた閾値
以上となった時点を音声の始端、閾値未満となった時点
を音声の終端とするアルゴリズム等があるが、いづれか
適切なアルゴリズムを用いればよい。
音声区間検出部102にて得た始端及び終端の情報は、
音節識別部103及びプロミネンス検出部105へ送ら
れ、それぞれ別途に処理が行われる。
く音節識別部〉 音m識別部103では、音声区間検出部】02で得た始
端及び終端の範囲について音節識別部103内に保持さ
れている単音節辞書との照合により音節の識別を行う、
連続音声の認識では一般的に音声の最も小さい単位であ
る音韻の識別結果を用いることが多いが、会話音声では
曖昧文などが多くなるため、不確実な部分が多くなる。
そして、後述する拍数情報との融合性を考えると、音節
を中心とする方式が適当であると考え、ここでは竹節を
単位とした識別を用いることとした。音節識別の手法は
既知の技術として様々なものが提案されているが、例え
ば日本音響学会音声研究会資料、資料番号S 85−8
2(1985−12) r音節をベースとする日本語音
声認識」に開示されている技術等を用いればよい、そし
て、音節識別部103にて得た音節識別結果は、ワード
スポツティング部106へ送られる。
くプロミネンス検出部〉 プロミネンス検出部108では、音声区間検出部102
から転送される始端及び終端の範囲について韻律情報格
納部104より転送された韻律の要素である基本周波数
、振幅及びピッチバタンなとの情報を用いることにより
、プロミネンス、すなわち文中の特に注意の向けられて
いる主要語、すなわちキーワードの候補区間を検出する
さて、これまで韻律規則の研究は規則合成等の音声合成
を目的とするものが多く、規則による自然な合成音が得
られるようになってきている。このことは韻律情報が音
声を大きく左右するものであることを示し、音声認識で
も有効な情報であると考えられる8例えば1人間同志が
会話を行う場合、重要単語は丁寧に発声されている。相
手に情報を伝達するための核となる単語は、基本周波数
が高くなり1発声速度も7〜8音tM/秒である。
特に意識的な強調の場合、付属する格助詞に特有のピッ
チが観測される。
このように、必要な情報はそうでないものと区別をする
ために、語順を入れ替えたり、或は声の高さや強さなど
の韻律的要素を変化させることによって表現されるため
1重要となる単語の検出に非常に利用価値が高い。
このような文中の特に注意の向けられている主要語をは
っきりと聞き取らせるための発声法をプロミネンス(卓
立強調)というが、プロミネンス検出部105にて韻律
情報格納部104から出力されるパワーとピッチバタン
周波数の時間的変化バタン(以降、パワーパタン、ピッ
チパタンと称す)を用いて入力された連続音声中の韻律
境界を出力する。韻律境界の検出法は、既知の技術とし
て随所で提案されているが1例えば昭和54年日本音響
学会音声研究会資料379−55(1979−12)の
「韻律情報を利用した日本語算術文の音声認識システム
」に記載されている技術を用いればよい。
以下、その−例を第3図の動作の流れ図に従って簡単に
説明する。
先ず、音声入力を音響処理して韻律情報格納部104に
格納されている韻律情報のうちパワーバタンを抽出しく
331)、これを3ポイントメジアム法(3−pain
t madiam method)により平滑化する(
S32)、次に、この平滑化されたパワーパタンの無音
区間を検出する(S33)、無音区間を検出しなかった
場合にはそのまま結果出力とする。無音区間を検出した
場合には、韻律境界候補点を検出した後(334)、韻
律境界を検出しく S 35)、その結果を出力する。
一方、ピッチバタンについては、韻律情報からピッチパ
タンを抽出した後(531)、対数化(53B)及びノ
イズ除去を行った後、高速処理に適合させるためダウン
サンプリングを行い(537)、然る後パワーバタンの
場合と同様に平滑化を行う(53B)、平滑化されたピ
ッチバタン波形の「山」と「谷」の先端を特徴点として
検出する(33θ)1次に、特徴点のうち「谷」の先端
にあたる部分を韻律境界候補点として検出しく S 3
4)た後、韻律境界の検出を行い(535)。
結果を出力する。尚、上述したプロミネンス検出部の動
作の流れは単なる好適例であって、これに限定されるも
のではない。
以上のように、プロミネンス検出部105にて得た重要
単語が発声されている可能性の高い区間、すなわちキー
ワード候補区間はワードスポツティング部108及び韻
律マツチング部109へ送られることになる。
くワードスポツティング部〉 ワードスポツティング部10Bでは、音節識別部103
及びプロミネンス検出部105から送られてきた音節識
別結果とキーワード候補区間情報により連続音声中から
予め登録されていてこれらに対応するキーワードを抽出
する。
第4図(A)及び(B)はこのキーワード抽出技術を用
いて認識する際に対象となる車形の例を示す図である。
ここでは新幹線の座席の電話予約を想定した時の認識装
置(システム)側とユーザーの会話である。このような
会話では「もしもし?」、「あの・・Φ」、「え−と」
などの感動詞はもとより、依r4語、「ハイ」、「イイ
エ」等の指定語、否定語も人によって言い方が様々であ
る。けれども目的が限定された会話では感動詞。
依頼語を除けばほぼ一定のシーケンスで発声される。さ
らに、新しい情報のない部分の発声は雑である。r〜を
お願いします、」という部分は定型句であり、双方にと
って重要な単語は含んでいないため、発声も丁寧ではな
く1発声速度も早く、約15音WJ/秒である。
このワードスポツティング部10Bでは、キーワード候
補区間についてキーワード辞書107及び構文補助辞書
108に格納されている登録済のキーワードとのマツチ
ングを行うことになる。第5図にキーワード辞書の格納
内容の一例を示す、前述したように、この実施例では電
話をかけて自分の氏名を名乗り、座席を予約するという
設定である。従って、キーワード辞書107にはキーワ
ードlとして氏名、キーワード2として地名等々の所要
の情報が予め格納されている。
第6図に構文補助辞書を示す、構文補助辞書108には
発声時に考えられる否定、肯定、依頼語、感動詞及び接
続詞を予め登録して保持している。第7図はワードスポ
ツティング部10Bの動作の流れ図である。音節識別結
果及びキーワード候補区間情報が入って来た場合には(
571)、キーワード辞書107の読出しを行い(37
2)、これらキーワードと、候補区間とのマツチングを
行い(373)、キーワードl及びキーワード2の出現
順序関係を考慮した上で順序が正しく、最適な距離とな
ったものを出力する。この時、構文補助辞書108を読
出して(S74)、直接意味を持たない単語、すなわち
キーワード以外の部分のマツチングを行う(375)、
よって、正しい順序で最適距離か判定して(S7B)、
それを出力する(S??)。
第8図(A)〜(C)は発声時に考えられる単語のシー
ケンスを示したものであり、第8図(A)は「え−と、
山田ですが上野から仙台までをお願いします、」、第8
図(B)は「あの、山中だけど静岡から京都」の例であ
る。そして第8図(C)はキーワードを、接続詞、感動
詞等とのシーケンス関係を示す、第8図(C)に示すよ
うに、キーワード2から依頼語に遷移する際の接続詞は
、ここに記述される「へ」、「に」。
「を」、「で」の4つに限定される。そして、これらの
接続詞以降に続く依頼語は定型句であり。
重要な単語は含まれていないということから、認識時に
は特に「へ」、「に」、「を」、「で」という接続詞に
重みを置くような方法を取る。すなわち、音声の始端か
ら終端の中で4つのいずれかの接続詞が検出されれば、
接続詞以降の不必要な情報までも詳細にマツチングする
必要がなく、従って、余分な演算をすることがなくなる
という利点がある。
また、この実施例においてはプロミネンス検出部105
にて、キーワード区間候補が抽出しであるので、複雑な
演算を要するワードスポツティング操作の処理量を大幅
に低減することが出来る。
このようにしてワードスポツティング部106において
得られた結果は認識判定部111へ送られる。
ところで、上述した実施例に限らず、認識対象としてよ
く挙げられるものに人の姓名がある。相手を呼び出す場
合、或は自分を名乗る場合には、姓は相手に伝えたい重
要な部分であるため、認識も、より精度良く行わなけれ
ばならない、そこで、この実施例では名字についてはさ
らに認識の確度を高めるためにアクセントと拍数の情報
を用いてマツチングを行う機能を付与している。
第9図は姓に関しての種類、拍数及びアクセント型を表
わす図である。このように姓は癒合語、結合品、接合語
及び転成語の4種類に分類される0日本の上位50氏名
は癒合語に全て含まれており、この実施例ではこの癒合
語についてルール化している。
さて、この実施例では第5図のキーワード1が姓になっ
ているため、ワードスポツティング部10Bで最適距離
となったキーワードlの認識結果候補については、その
結果を認識判定部111へ送るとともに、姓がキーワー
ドとなっているキーワード1については、韻律マツチン
グ部109へ送られる。
く韻律マツチング部〉 第10図は韻律マツチング部の動作の流れ図を示し、こ
れを参照して説明する。
n律マツチング部109では、認識結果を受信した後(
5101)、キーワードlかどうか判定する(S102
)、次に、キーワード1の音節数がいくつめるかの判断
を行う(S102)、音節数は、すなわち拍数である。
音節識別部103で得ている結果によりキーワードlの
音節数がわかるので、それらをキーワードlの拍数とす
る(S103)、そして同時にプロミネンス検出部10
5からのアクセント情報を受け(SlO−4)、このア
クセント情報が平板型か、頭高型か、中高型かの判断を
する。
アクセントの位置は高低変化により明確ば判断すること
が可能である。
入力側のアクセント型及び拍数の検出の後、第11図に
示すような音節数及びアクセント型辞書11Gの読出し
を行って(5105)マツチングを行い(S10B)、
その結果得られた単語候補を認識判定部111へ返す。
く認識判定部〉 認識判定部111においては、ワードスポツティング部
108及び韻律マツチング部109から送られた単語候
補は、その始端、終端及び単語候補の確からしさを1組
にして記憶しておく、このように途中結果を記述してお
く方法を単語ラティスと呼んでいる。これら単語ラティ
スの統合処理を行うために、ある中詰AとBが隣接する
場合に状態eiが状JTiejへ遷移する可能性を付与
したもの、すなわち接続評価値e (i 、 j)に基
づいて始端からスタートし終端に至るような全ての単語
系列を評価し、最も評価値の高い単語系列、すなわち最
適単語系列を認識結果として出力する。
最適単語系列の動作アルゴリズムを述べる。ここで以下
の記号を定義する。
DD(i):iフレームまでの最適単語系列のバタン間
距離の累積値 X (i): DD (i)を与える最適単語系列の単
語数 N (i):DD (i)を与える第X (i )桁目
の単語名 BB (i):DD (i)を与える第X (i )桁
目の単語の始端フレーム番号 工s :音声の始端であると判定されたフレーム IE :音声の終端であると判定されたフレーム 入力バタンの長さ工は下記の式(1)により求められる
I=It  −Is  +1 e * ・(1)累積値
DD (IE )を与える最適単語系列が認識結果とな
るわけであるが、累積値DD (IE )は動的計画法
を用いると次の漸化式を解けばよい。
1’1TIn DD(i)=  n [DD(m−1)÷0n(tlJ
n月−−−(2)但し、m=Bn  (i + Jn 
)ここでり。(tlJn)はiフレームを終端とした各
標準パタンnとのバタン間距離であり、B o(ir 
J n ) ハマッチンク開始フレーム番号である。
X H)=X (m)+ 1・・・ (3)N   (
i)   =n  @  φ ・  ・ 拳 拳  ・
 ・  (4)BB(i)=m@ ・ 拳 ・ ・ ・
 ・ (5)ここでnは式(2)の最小値を与える単語
名であ△ す、mはm=nである場合のmの値である。
式(2)〜(5)を1≦i≦Jについて順に計算してい
けば、 DD (It )が求まる。
■音声区間の始端のための初期設定処理DD (0)=
X (0)=BB (0)=0■i=1.2Φ・・Iに
ついて式(2)〜(5)を実行する。
■N (i)、BB (i)をバックトレースすること
により最適単語系列を求める。すなわちX (I)桁目
を与える単語N (I)の始端BB(I)を用い、X(
I)−1桁目(7)l 語N (BB (I)−1)と
その始端BB (BB(I)−1)を求める。
同様の処理を1桁目まで行うことにより結果を得る。
以上のような処理により得られた最適な単語列を認識結
果として出力端子112へ出力する。
この発明は上述した実施例にのみ限定されるものではな
く、多くの変更又は変形を行い得ること明らかである0
例えば、プロミネンス検出部。
ワードスポツティング部及び韻律マツチング部の機能ブ
ロック及びその動作の流れは設計に応じて任意に変える
ことが出来る。
(発明の効果) 上述した説明からも明らかなように、この発明によれば
会話中の音声に生ずる独特の特徴、すなわち入力された
音声の発声内容を理解するための構文情報と、音声の発
声時における韻律情報という2つの特徴を用いている。
先ず、韻律情報であるプロミネンスにより重要単語候補
区間を抽出するので、複雑な演算を要するワードスポツ
ティング操作の処理を大幅に低減することが出来る。ま
た、最適単語系列を決定する際に、「へ」、「に」、「
を」、「で」という4つの接続詞を検出すれば、以降続
く不要な情報までも詳細にマツチングする必要がなく、
従って、余分な演算を削減出来る。
さらに、人の姓がキーワードとなっている場合は、拍数
とアクセント規則辞書を用いて韻律マー2チングを行う
ことによって、より確度の高い候補を得ることが可能で
あり、従って、会話音声認識時の演算量の削減と認識率
の向上が期待出来るのである。
【図面の簡単な説明】
第1図はこの発明の会話音声認識方式の一実施例を示す
ブロック図。 第2図は従来の連続音声認識方式の一例を示すブロック
図。 第3図はプロミネンス検出の動作の流れ図、第4図は認
識車形例を示す図、 第5図はキーワード辞書の一例を示す図。 第6図は構文補助辞書の一例を示す図、・第7図はワー
ドスポツティング部の動作の流れ図、 第8図(A)〜(C)は認識単語の出現順序の説明図。 第9図は姓の種類、拍数、アクセント型を表わす図、 第1θ図は韻律マツチング部の動作の流れ図。 第11図は拍数、アクセント辞書の一例を示す図である
。 100・・・音声入力、    101・・・音響処理
部102・・・音声区間検出部、103・・・音節識別
部104・・・韻律情報格納部 105・・・プロミネンス検出部 】06・・・ワードスポツティング部 107・・・キーワード辞書、108・・・構文補助辞
書109・・・韻律マツチング部 110・・・音節数、アクセント辞書 111・・・認識判定部、  112・・・出力端子。 特許出願人     沖電気工業株式会社−乍( 薊R唄占 <61ド ア0ロ三不ンスI9−鯨の1力1手のヅte−図第3図 第4図 キーワード辞書 第5図

Claims (1)

    【特許請求の範囲】
  1. (1)連続発声された入力音声を音響分析し、特徴パラ
    メータを得た後、該特徴パラメータと予め求めておいた
    標準単語音声の特徴パラメータとを比較し、複数個の音
    声候補より選択した1個の候補列を出力する連続音声認
    識方式において、 音響処理部から送られた韻律情報によりプロミネンスを
    検出するプロミネンス検出部と、 プロミネンス情報で得た重要単語候補区間をもとにワー
    ドスポッティングするワードスポッティング部と、 人の姓については特に音節数、アクセント辞書を用いて
    認識確度を向上させる韻律マッチング部を有することを
    特徴とする会話音声認識方式。
JP61312466A 1986-12-27 1986-12-27 会話音声認識方式 Pending JPS63165900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61312466A JPS63165900A (ja) 1986-12-27 1986-12-27 会話音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61312466A JPS63165900A (ja) 1986-12-27 1986-12-27 会話音声認識方式

Publications (1)

Publication Number Publication Date
JPS63165900A true JPS63165900A (ja) 1988-07-09

Family

ID=18029536

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61312466A Pending JPS63165900A (ja) 1986-12-27 1986-12-27 会話音声認識方式

Country Status (1)

Country Link
JP (1) JPS63165900A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03228100A (ja) * 1990-02-01 1991-10-09 Canon Inc 音声認識装置
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
WO2009025356A1 (ja) * 2007-08-22 2009-02-26 Nec Corporation 音声認識装置および音声認識方法
WO2009136440A1 (ja) * 2008-05-09 2009-11-12 富士通株式会社 音声認識辞書作成支援装置,処理プログラム,および処理方法
JP2010079235A (ja) * 2008-09-28 2010-04-08 Avaya Inc 個人(オーディ)情報を含まないメディア・ストリームを保存する方法
US9129611B2 (en) 2011-12-28 2015-09-08 Fuji Xerox Co., Ltd. Voice analyzer and voice analysis system
US9153244B2 (en) 2011-12-26 2015-10-06 Fuji Xerox Co., Ltd. Voice analyzer

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03228100A (ja) * 1990-02-01 1991-10-09 Canon Inc 音声認識装置
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
JP5282737B2 (ja) * 2007-08-22 2013-09-04 日本電気株式会社 音声認識装置および音声認識方法
WO2009025356A1 (ja) * 2007-08-22 2009-02-26 Nec Corporation 音声認識装置および音声認識方法
WO2009136440A1 (ja) * 2008-05-09 2009-11-12 富士通株式会社 音声認識辞書作成支援装置,処理プログラム,および処理方法
GB2471811A (en) * 2008-05-09 2011-01-12 Fujitsu Ltd Speech recognition dictionary creating support device, processing program, and processing method
JPWO2009136440A1 (ja) * 2008-05-09 2011-09-01 富士通株式会社 音声認識辞書作成支援装置,処理プログラム,および処理方法
GB2471811B (en) * 2008-05-09 2012-05-16 Fujitsu Ltd Speech recognition dictionary creating support device,computer readable medium storing processing program, and processing method
US8423354B2 (en) 2008-05-09 2013-04-16 Fujitsu Limited Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method
JP5454469B2 (ja) * 2008-05-09 2014-03-26 富士通株式会社 音声認識辞書作成支援装置,処理プログラム,および処理方法
JP2010079235A (ja) * 2008-09-28 2010-04-08 Avaya Inc 個人(オーディ)情報を含まないメディア・ストリームを保存する方法
US9153244B2 (en) 2011-12-26 2015-10-06 Fuji Xerox Co., Ltd. Voice analyzer
US9129611B2 (en) 2011-12-28 2015-09-08 Fuji Xerox Co., Ltd. Voice analyzer and voice analysis system

Similar Documents

Publication Publication Date Title
JP2963142B2 (ja) 信号処理方法
JP4914295B2 (ja) 力み音声検出装置
JPH09500223A (ja) 多言語音声認識システム
JP2006215499A (ja) 音声処理装置
JPH05265483A (ja) 複数の出力を与える音声認識法
JPS6383799A (ja) 連続音声認識方式
EP1298645A1 (en) Method for detecting emotions in speech, involving linguistic correlation information
Kanabur et al. An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition
Boite et al. A new approach towards keyword spotting.
JPS63165900A (ja) 会話音声認識方式
Zhang et al. Anchoring hypothesis and its application to tone recognition of Chinese continuous speech
KR101560833B1 (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
Hasija et al. Recognition of Children Punjabi Speech using Tonal Non-Tonal Classifier
Tunalı A speaker dependent, large vocabulary, isolated word speech recognition system for turkish
JP2753255B2 (ja) 音声による対話型情報検索装置
JP2000075894A (ja) 音声認識方法及び装置、音声対話システム、記録媒体
Chang et al. Chinese dialect identification using segmental and prosodic features
JP2980382B2 (ja) 話者適応音声認識方法および装置
Salvi Developing acoustic models for automatic speech recognition
JP3110025B2 (ja) 発声変形検出装置
Mallik et al. Speech to text conversion for visually impaired person using µ law companding
JP3808732B2 (ja) 音声認識方法及びそのシステム
Medhi et al. Different acoustic feature parameters ZCR, STE, LPC and MFCC analysis of Assamese vowel phonemes
KR100304788B1 (ko) 연속 음성 인식을 이용한 전화번호 안내 방법
Hagmüller Recognition of regional variants of German using prosodic features