JPWO2009139230A1 - 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体 - Google Patents

言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体 Download PDF

Info

Publication number
JPWO2009139230A1
JPWO2009139230A1 JP2010511918A JP2010511918A JPWO2009139230A1 JP WO2009139230 A1 JPWO2009139230 A1 JP WO2009139230A1 JP 2010511918 A JP2010511918 A JP 2010511918A JP 2010511918 A JP2010511918 A JP 2010511918A JP WO2009139230 A1 JPWO2009139230 A1 JP WO2009139230A1
Authority
JP
Japan
Prior art keywords
language model
model score
phoneme
word
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010511918A
Other languages
English (en)
Other versions
JP5447373B2 (ja
Inventor
岡部 浩司
浩司 岡部
亮輔 磯谷
亮輔 磯谷
潔 山端
潔 山端
健 花沢
健 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010511918A priority Critical patent/JP5447373B2/ja
Publication of JPWO2009139230A1 publication Critical patent/JPWO2009139230A1/ja
Application granted granted Critical
Publication of JP5447373B2 publication Critical patent/JP5447373B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Abstract

言語モデルスコア先読み値を使ってフレーム同期ビームサーチを行う音声認識装置において、仮説数の増大を抑えつつ、正解仮説の枝刈りを防止する。言語モデルスコア先読み値付与装置108は、単語の音素列を定義する単語辞書203と、単語の出現し易さのスコアを与える言語モデル202と、平滑化言語モデルスコア先読み値計算手段201とを備える。平滑化言語モデルスコア先読み値計算手段201は、単語について単語辞書203で定義された音素列と言語モデル202で定義された言語モデルスコアとから、言語モデルスコア先読み値が単語の語頭に集中しないように、単語中の各音素での言語モデルスコア先読み値を求める。

Description

本発明は、言語モデルスコア先読み値を使ってフレーム同期ビームサーチを行う音声認識装置、そのような音声認識装置に好適な言語モデルスコア先読み値付与装置に関する。
大語彙連続音声認識装置などの高性能な音声認識装置では、音響モデル、単語辞書および言語モデルの3つの知識源から予測される様々な仮説(認識候補)と、未知の入力音声との間の音響的類似度および言語的類似度を音響モデルスコアおよび言語モデルスコアとして算出し、最も確からしい仮説を認識結果として出力する。また、保持する仮説の数を制限して演算量やメモリ容量を削減するために、各時刻における音響モデルスコアおよび言語モデルスコアを総合的に判断して、スコアの良くない仮説は見込みがないものとして枝刈り、つまり以降の仮説展開を行わないようにする、フレーム同期ビームサーチ法(以下、単にビームサーチ法と記す)と呼ばれる手法を採用している。
この種の音声認識装置の一例を図6に示す。図6において、音声認識対象となる音声波形は音声入力手段301により入力され、音響分析手段302に伝達される。音響分析手段302は、フレーム単位で音響特徴量を計算し、距離計算手段303に出力する。距離計算手段303は、入力された音響特徴量と音響モデル304中の各モデルとの距離を計算し、その距離に応じた音響モデルスコアを探索手段305に出力する。探索手段305は、探索する全ての仮説について、言語モデルスコア先読み値付与装置308から取得した言語モデル402による言語モデルスコアと前記音響モデルスコアとを加算した累積スコアを求め、累積スコアの悪い仮説の枝刈りを行う。残った仮説について処理を続け、最良の認識結果を認識結果出力手段309から出力する。
単語辞書403の一部分の一例を図7に示す。この例の単語辞書403は木構造辞書である。また図7には、言語モデル402で与えられる各単語の言語モデルスコアが付記されている。例えば、単語「握手」(読み:"akusyu")は音素列「a-k-u-sy-u」を持ち、言語モデルスコアは80である。また、単語「赤い」(読み:"akai")は音素列「a-k-a-i」を持ち、言語モデルスコアは50である。本例では、言語モデルスコアの値が小さい程、良いスコアを示している。
このような木構造辞書を用いた場合、単語間遷移の際に、それまでの仮説に木構造の根の部分を接続することになるが、その時点では接続する単語が特定されないため言語モデルスコアを累積スコアに加算することはできない。若し、何れかの単語終端に至った時点ではじめて言語モデルスコアを累積スコアに加算するならば、単語間遷移前後の仮説で大きくスコアが変動してしまう。このため、正解仮説のスコアが大きく変動しても枝刈りされないようにビーム幅を大きくとる必要があり、効率的なビームサーチができない。
そこで、なるべく早く言語モデルスコアを加算するために、言語モデルスコア先読み値付与装置308は、木構造辞書の各枝以下に対応する単語の言語モデルスコアの最良値をその枝における楽観的な言語モデルスコアとして取得する最良言語モデルスコア取得手段401を備えている。
すなわち、最良言語モデルスコア取得手段401は、単語辞書403および言語モデル402を用い、(1)式に示されるように、単語履歴hを持つ音素sの仮説の言語モデルスコア先読み値πh(s)について、辞書中の前記音素sから辿れる単語の集合W(s)に属する単語wの中で言語モデルスコア-log{p(w|h)}の最良値を取得する。そして、探索手段305における探索の過程で仮説が音素sへと遷移した際に、(2)式で示される前音素s~の言語モデルスコア先読み値と現音素sの言語モデルスコア先読み値との差分値δh(s)が仮説の累積スコアに加算される。
πh(s)=min w∈W(s){-log p(w|h)} …(1)
δh(s)=πh(s)−πh(s~) …(2)
以上の動作によって付与される言語モデルスコア先読み値の例を図8に示す。終端音素の右の数値が各単語の言語モデルスコアを表し、各枝の数値がその枝に持たせる言語モデルスコア先読み差分値を表す。この例では、それまでの仮説に木構造の根の部分を接続した時点で、50という言語モデルスコアを累積スコアに加算することができ、単語終端に至った時点ではじめて言語モデルスコアを累積スコアに加算する場合に比べて、効率の良いビームサーチを行うことが可能となる。
以上のような最良言語モデルスコア取得手段401は非特許文献1に記載されている。なお、非特許文献1には、ユニグラム言語モデルスコアの先読みと、バイグラム言語モデルスコアの先読みとの2通りの方法が記載されている。ユニグラム言語モデルスコアの先読みは、言語モデルスコア先読み差分値としてユニグラム言語モデルスコアによるものを使用し、仮説が木構造辞書の単語終端に到達して単語が確定した時に、それまで使用していたユニグラム言語モデルスコアを捨て、確定したバイグラム言語モデルスコアを加算する。単語終端に到達したときに行われるこのような処理を単語末処理と呼ぶ。他方、バイグラム言語モデルスコアの先読みは、先読みの段階からバイグラム言語モデルスコアを使用する方法である。図6に示した探索手段305は、本来の探索を行う本探索手段306に加えて単語末処理手段307を備えており、ユニグラム言語モデルスコアの先読み方法を使用する例に相当する。
上述した最良言語モデルスコア取得手段401による言語モデルスコアの先読みでは、木構造辞書の各枝以下に対応する単語の言語モデルスコアの最良値をその枝における言語モデルスコアとするため、各枝以下に対応する単語の言語モデルスコアが何れも悪い場合には、それらの単語に早い時点で悪い言語スコアのほとんどが加算されてしまい、正解仮説であっても早期に枝刈りされてしまう場合があった。以下、具体例を挙げて説明する。
図9は認識対象語に「お菓子」(読み:"okasi")を含み、「お菓子」以外には音素"o","k"の連鎖から始まる単語を含まず、単語辞書403に木構造辞書を用いた場合の、単語辞書と言語モデルスコア先読み値の例である。この場合、最良言語モデルスコア取得手段401は、"o"へとつながる枝に言語モデルスコア先読み値「50」を付与し、また、"k"以降の音素で枝分かれを持つ音素がないため、"k"へとつながる枝に言語モデルスコア先読み値「90」(差分値では「40」)を付与する。一般に音声認識では、前後のコンテキストを考慮したトライフォン(3つ組音素)が認識単位として用いられる。このため「お菓子」の仮説に対しては、「o-k-a-s-i」という音素列における語頭の音素"o"の時点で、右コンテキストの"k"も考慮されて、「90」という悪い言語モデルスコアが全て加算されることになる。したがって、"k"以降の音素の一致を調べれば音響モデルスコアが良くなって「お菓子」が正解仮説となる場合であっても、早い段階で大きな言語モデルスコア先読み値が加算されるために枝刈りされやすくなり、認識誤りを生じることになる。
また、図10は認識対象語に「キャンセル」(読み:"kyanseru")を含み、音素"ky","a"の連鎖から始まる認識対象語は複数あるものの、言語モデルスコアがいずれも「100」と悪く、単語辞書403に木構造辞書を用いた場合の、単語辞書と言語モデルスコア先読み値の例である。この場合、最良言語モデルスコア取得手段401は、"ky"へとつながる枝に言語モデルスコア先読み値「50」を付与し、また、"a"へとつながる枝に言語モデルスコア先読み値「100」(差分値では「50」)を付与する。このように音素"ky","a"の連鎖から始まる単語の仮説に対しては、語頭の音素"ky"の時点で「100」という悪い言語モデルスコアが全て加算されることになる。このため、"a"以降の音素の一致を調べれば音響モデルスコアが良くなって正解仮説となる場合であっても、早い段階で大きな言語モデルスコア先読み値が加算されるために枝刈りされやすくなり、認識誤りを生じることになる。
以上の例は木構造辞書の場合であるが、単語辞書403に線形辞書を用いる場合にも同様の問題が生じる。図11は認識対象語に「ベルト」(読み:"beruto")を含み、単語辞書403に線形辞書を用いた場合の、単語辞書と言語モデルスコア先読み値の例である。線形辞書の場合、全ての単語の単語先頭から、その単語の言語モデルスコアを言語モデルスコア先読み値として与えることが可能である。しかし、例のように、「ベルト」の言語モデルスコアが「100」と悪い場合、それまでの仮説に単語の先頭部分を接続した時点で、言語モデルスコアの全てが累積スコアに加算されるため、枝刈りされやすくなる。
正解仮説が枝刈りをされないようにする方法の一つは、ビーム幅を広げることである。しかし、ビーム幅を広げてしまうと、仮説数が増大し計算量が増えるという別の問題が発生する。
本発明の目的は、仮説数の増大を抑えつつ、正解仮説の枝刈りを防ぐことのできる言語モデルスコア先読み値付与装置および方法ならびにプログラム記録媒体を提供することにある。
本発明の言語モデルスコア先読み値付与装置は、単語の音素列を定義する単語辞書と、単語の出現し易さのスコアを与える言語モデルと、単語について前記単語辞書で定義された音素列と前記言語モデルで定義されたスコアとから、言語モデルスコア先読み値が単語の語頭に集中しないように単語中の各音素での言語モデルスコア先読み値を求める平滑化言語モデルスコア先読み値計算手段とを備える。
本発明によれば、仮説数の増大を抑えつつ、正解仮説の枝刈りを防ぐことができる。その理由は、言語モデルスコア先読み値が単語の語頭に集中しないように単語中の各音素での言語モデルスコア先読み値を求めるためである。
本発明の第1の実施の形態の構成を示すブロック図である。 本発明の第1の実施の形態の動作を示すフローチャートである。 平滑化言語モデルスコア先読み値計算手段の実施例1の動作説明図である。 平滑化言語モデルスコア先読み値計算手段の実施例2の動作説明図である。 平滑化言語モデルスコア先読み値計算手段の実施例3の動作説明図である。 本発明に関連する音声認識装置の構成を示すブロック図である。 木構造辞書の一例を示す図である。 最良言語モデルスコア取得手段を用いて与えられる言語モデルスコア先読み値の一例を示す図である。 最良言語モデルスコア取得手段を用いて与えられる言語モデルスコア先読み値の他の例を示す図である。 最良言語モデルスコア取得手段を用いて与えられる言語モデルスコア先読み値の他の例を示す図である。 線形辞書の一例と言語モデルスコア先読み値の例を示す図である。
符号の説明
101 音声入力手段
102 音響分析手段
103 距離計算手段
104 音響モデル
105 探索手段
106 本探索手段
107 単語末処理手段
108 言語モデルスコア先読み値付与装置
109 認識結果出力手段
201 平滑化言語モデルスコア先読み値計算手段
202 言語モデル
203 単語辞書
301 音声入力手段
302 音響分析手段
303 距離計算手段
304 音響モデル
305 探索手段
306 本探索手段
307 単語末処理手段
308 言語モデルスコア先読み値付与装置
309 認識結果出力手段
401 最良言語モデルスコア取得手段
402 言語モデル
403 単語辞書
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
[第1の実施の形態]
図1を参照すると、本発明の第1の実施の形態に係る音声認識装置は、音声入力手段101と、音響分析手段102と、距離計算手段103と、音響モデル104と、探索手段105と、言語モデルスコア先読み値付与装置108と、認識結果出力手段109とから構成されている。また、探索手段105は、本探索手段106と、単語末処理手段107とから構成される。さらに、言語モデルスコア先読み値付与装置108は、平滑化言語モデルスコア先読み値計算手段201と、言語モデル202と、単語辞書203とから構成される。これらはそれぞれ以下のような機能を有する。
音響モデル104は、音素または音素列に対してその音響特徴量を与えるモデルである。単語辞書203は、単語の音素列を定義した辞書であり、本実施の形態は木構造辞書を用いる。木構造辞書は、単語とその音素列との対応を記録した辞書であって、共通の先頭音素列を単語間で共有化することでツリー化した辞書である。言語モデル202は、単語または単語列に対してその出現し易さのスコアを与えるモデルである。本実施の形態では、言語モデル202は、ユニグラム言語モデルとバイグラム言語モデルとを含む。
平滑化言語モデルスコア先読み値計算手段201は、単語について単語辞書203で定義された音素列と言語モデル202で定義された言語モデルスコア(本実施の形態の場合はユニグラム言語モデルスコア)とから、言語モデルスコア先読み値が単語の語頭に集中しないように単語中の各音素での言語モデルスコア先読み値を求める手段である。具体的には、単語中の各音素での言語モデルスコア先読み値を当該音素の当該単語中の出現順序に基づいて求めることにより、単語の先頭音素またはそれに近い音素での言語モデルスコア先読み値がその単語の言語モデルスコアにほぼ等しくならないようにする。なお、全ての単語について、言語モデルスコア先読み値がその単語の語頭に集中しないようにする必要は必ずしもなく、他の単語に比べて言語モデルスコアが相対的に悪い単語の全て或いは一部の単語について、言語モデルスコア先読み値の語頭への集中がなければ良い。
音声入力手段101は、音声認識対象となる音声波形を入力する手段である。音響分析手段102は、各フレーム毎に入力音声波形から音響的特徴量を計算する手段である。距離計算手段103は、入力音声波形の音響的特徴量と音響モデルとの距離に応じた音響モデルスコアを各フレーム毎に計算する手段である。
探索手段105は、単語辞書203中の単語を組み合わせて得られる候補単語列(仮説)のうち、音響モデル104を用いて音響モデルスコアとして計算される各単語の発音が入力音声波形を出力する確率値と、言語モデル202を用いて言語モデルスコアとして計算される単語連鎖の確率値との累積スコアが最も大きい単語列を探索し、出力する手段である。この探索手段105は、単語末処理を行う単語末処理手段107と、それ以外の探索処理を行う本探索手段106とで構成されている。
認識結果出力手段109は探索手段105の出力する認識結果を出力する手段である。
次に図1及び図2のフローチャートを参照して、本実施の形態の全体の動作について詳細に説明する。
まず、ステップS1において、音声入力手段101を用いて音声波形を入力する。
次に、ステップS2において、音響分析手段102が前記音声波形を入力とし、ケプストラムなどの音響特徴量を計算し、出力する。
次に、ステップS3において、距離計算手段103が前記音響特徴量を入力とし、音響モデル104の各モデルとの距離を計算し、音響モデルスコアを出力する。
次に、ステップS4において、平滑化言語モデルスコア先読み値計算手段201が、探索する全ての仮説において言語モデルスコア先読み値を計算する。
次に、ステップS5において、本探索手段106において、各仮説毎に、その累積スコアに音響モデルスコアと言語モデルスコア先読み値とが加算され、累積スコアが更新される。
次に、ステップS6において、仮説が単語末かどうかを判断し、仮説が単語末であればステップS7において、単語末処理手段107により、加算されているユニグラム言語モデルによる言語モデルスコア先読み値を、言語モデル203から得られるバイグラム言語モデルスコアに補正する。
次に、ステップS8において、累積スコアの悪い仮説の枝刈りを行う。例えば、尤度閾値に満たない仮説を捨てる方法や、上位一定個数の仮説を残し、他を捨てる方法などによって枝刈りを行う。
次に、ステップS9において、音声入力が終了したかどうかを判断し、入力がまだ続いているならばステップS1に戻り、新しい入力に対し同様の処理を行う。入力が終了した場合はステップS10へと進む。
最後に、ステップS10において、認識結果出力手段109が、探索手段105から結果を受け取り、最良の認識結果を出力する。最良の認識結果だけでなく、上位幾つかの認識結果を出力するようにしても良い。
次に、本実施の形態の効果について説明する。
本実施の形態によれば、正解仮説の枝刈りを防ぐことができ、それによって認識誤り率を低減することができる。その理由は、言語モデルスコア先読み値が単語の語頭に集中しないようにしているため、言語モデルスコア先読み値の単語の語頭への集中に起因する正解仮説の早期枝刈りが防止されるためである。
また本発明によれば、ビーム幅を広げる場合に比べて仮説数の増大を抑えることができる。その理由は、言語モデルスコア先読み値が単語の語頭に集中しないようにしたことによる計算量の増加は、言語モデルスコア先読み値が語頭に集中して枝刈りされていた仮説の計算量のみであって、その量はごく僅かであるのに対し、ビーム幅を広げる方法では、音響モデルスコアが悪い仮説や、単語末でスコアの悪い単語も枝刈りされずに探索空間に残り、仮説の計算量の増加がより大きくなるからである。
次に、平滑化言語モデルスコア先読み値計算手段201の実施例について詳細に説明する。
[平滑化言語モデルスコア先読み値計算手段201の実施例1]
本実施例1の平滑化言語モデルスコア先読み値計算手段201は、単語中の各音素での言語モデルスコア先読み値を、単語先頭から当該音素までの音素数に基づいて求める。具体的には、平滑化言語モデルスコア先読み値を式(3)、(4)のように定義して計算を行う。
π'h(s)=min w∈W(s){-log p(w|h)} …(3)
πh(s)=π'h(s) if π'h(s)<=T(d(s)) or s∈E
=T(d(s)) otherwise …(4)
(3)式は、(1)式と同様、言語モデルスコアの最良値π'h(s)を取得する。(4)式では、先頭からn番目の音素であるかによって閾値T(n)を定め、音素sが先頭からd(s)番目の音素である場合、π'h(s)がT(d(s))を超えている場合は言語モデルスコア先読み値を閾値T(d(s))の値までしか加算しない。ここで、nが小さいほどT(n)も小さいように閾値は定められている。これによって、語頭に言語モデルスコア先読み値が集中することを避けることができる。なお、Eは単語の最終音素の集合である。
図3に木構造辞書を用いて本実施例を動作させた場合の言語モデルスコア先読み値の具体例を示す。
まず、単語先頭からの音素数ごとに言語モデル先読み値の閾値T(d)を決める。例では第1音素から第4音素まで順に、「45」、「70」、「90」、「100」と閾値を決めている。閾値T(d)は、事前に決定しておいて、平滑化言語モデルスコア先読み値計算手段201または単語辞書203や言語モデル202に設定しておいても良いし、平滑化言語モデルスコア先読み値を計算する際に、平滑化言語モデルスコア先読み値計算手段201が決定しても良い。
次に第1音素の最良言語スコアが、第1音素閾値を超える場合、第1音素につながる枝に持たせる言語モデルスコア先読み差分値は第1音素閾値とし、第1音素閾値を超えた超過値は次音素につながる枝に持ち越す。例では、第1音素"a"の最良言語スコアは「50」であり、第1音素閾値の「45」を「5」超えるため、第1音素"a"につながる枝の言語モデルスコア先読み差分値は第1音素閾値の「45」とし、閾値超過値の「5」を次音素につながる枝へ持ち越す。さらに、次音素につながる枝についても同様の処理を繰り返し、単語末音素の場合は、当該音素の閾値を超えても最良言語スコアが言語モデルスコア先読み値となるように言語モデルスコア先読み差分値を持たせる。例では、第2音素"k"の最良言語スコアは「90」であり、第2音素閾値の「70」を「20」超えるため、第2音素閾値の「70」が第2音素"k"の言語モデルスコア先読み値となり、この値から、第1音素"a"までに加算された言語モデルスコア先読み値の「45」を差し引いた「25」を第2音素"k"につながる枝に持たせる言語モデル先読み差分値とし、閾値超過値の「20」を次音素につながる枝に持ち越す。以上により、閾値を超える過大な言語モデル先読み値が加算されることがなくなる。
[平滑化言語モデルスコア先読み値計算手段201の実施例2]
本実施例2の平滑化言語モデルスコア先読み値計算手段201は、単語中の各音素での言語モデルスコア先読み値を、当該音素から辿れる単語の音素数に基づいて求める。具体的には、平滑化言語モデルスコア先読み値を式(5)、(6)のように定義して計算を行う。
δh(s)=min w∈W(s) [ {-log p(w|h)−πh(s~)} / {N(w)−d(s)+1}] …(5)
πh(s)=πh(s~)+δh(s) …(6)
N(w)は単語wの音素数である。d(s)は、実施例1と同様に音素sが先頭からd(s)番目の音素であることを表す。
本実施例2では、言語モデルスコアを単語の音素数で等分したものを言語モデル先読み差分値として用いる。式(5)の分子は言語モデルスコアから前音素s~以前に加算された言語モデルスコア先読み値を引いた値であり、分母は単語wにおける音素s以降の音素数である。したがって、言語モデルスコアを音素数で等分し、sから辿れる単語wの中での最小値を言語モデルスコア先読み差分値δh(s)として音素sにつながる枝に持たせる。言語モデルスコア先読み値πh(s)は式(6)により前音素s~の言語モデルスコア先読み値に差分値を加算することで求めることができる。
図4に木構造辞書を用いて本実施例を動作させた場合の言語モデルスコア先読み値の具体例を示す。
図4の例の第1音素では、辿れる単語は4つである。"a-k-u-sy-u"は5音素であり、言語モデルスコアが「50」であるので、等分すると枝1つ当たり「10」となる。また、"a-k-a-i"では、4音素であり、言語モデルスコアが「60」であるので、等分すると枝1つ当たり「15」となる。このように全ての単語について計算すると、最小値は"a-k-u-sy-u"の言語モデルスコアを等分した「10」であるので、第1音素の"a"につながる枝には「10」の言語モデルスコア先読み差分値を持たせる。次に"a-s-o-b-i"の、音素"s"以降を見てみると、"a"で加算されていない言語モデルスコアは、言語モデルスコアの「90」から音素"a"の言語モデルスコア先読み差分値の「10」を引いた「80」であり、"s"以降の音素数は4つである。したがってこれを等分すると枝1つ当たり「20」となる。これを次音素にも繰り返し行い、言語モデルスコア先読み値を決定する。
以上により、言語モデルスコア先読み値が単語の先頭から終端まで分配されることで、言語モデル先読み値が平滑化され、単語先頭において過大な言語モデル先読み値が加算されることがなくなる。
[平滑化言語モデルスコア先読み値計算手段201の実施例3]
本実施例3の平滑化言語モデルスコア先読み値計算手段201は、単語中の各音素での言語モデルスコア先読み値を、当該音素が含まれる枝分かれを持たない音素列の音素数に基づいて求める。具体的には、平滑化言語モデルスコア先読み値を式(7)のように定義して計算を行う。
δh(s)={πh(s)−πh(s~)}/m(s) if s~∈B
=δh(s~) otherwise …(7)
Bは木構造辞書中の枝分かれのある音素の集合である。m(s)は、s以降最初に出現する木構造における枝分かれを持つ音素の先頭からの音素数と、前音素s~の先頭からの音素数との差である。s以降に木構造に枝分かれがない場合は単語末の音素の先頭からの音素数と前音素s~の先頭からの音素数との差とする。
まず、従来同様(1)式によって言語モデルスコアの最良値πh(s)を求める。本実施例では、枝分かれのない枝が存在する場合、最良値の差分値をそのまま持たせるのではなく、枝分かれのない枝の数であるm(s)で等分することで、言語モデルスコア先読み値の平滑化を行う。
図5に木構造辞書を用いて本実施例を動作させた場合の言語モデルスコア先読み値の具体例を示す。
図5の最下部の"a-s-o-b-i"では、従来手法では"a"と"s"をつなぐ枝"a-s"に「40」の言語モデルスコア先読み差分値を持たせる。本実施例では"s"、"o"、"b"はいずれも枝を1本しか持っておらず、枝分かれがないため、枝"a-s"に持たせていた言語モデルスコア先読み差分値をこれらの枝にも分配する。音素"s"以降に枝分かれはないため、単語末音素の先頭からの音素数を用いる。単語末音素"i"は先頭から5番目の音素であり、s~は1番目の音素である"a"であるからm(s)はその差である「4」である。したがって、"a-s"、"s-o"、"o-b"、"b-i"の4つの枝それぞれに枝"a-s"の言語モデルスコア先読み差分値「40」を等分配し、それぞれの枝に「10」ずつの言語モデルスコア先読み差分値を持たせる。
同様に"k-u-sy-u"と""a-r-i"の部分も言語モデルスコア先読み差分値を分配する。以上により、言語モデルスコア先読み値が平滑化され、語頭において過大な言語モデル先読み値が加算されることがなくなる。
[その他の実施の形態]
以上の実施の形態では、先読みをユニグラム言語モデルで行い、単語末処理でバイグラム言語モデルに置き換えたが、先読みをバイグラム言語モデルで行い、単語末処理でトライグラム言語モデルに置き換える等、先読みで使用する言語モデル、単語末処理で置き換える言語モデルは種々変更可能である。また、単語末処理を行わず、先読みの時点からバイグラム言語モデルやトライグラム言語モデルを使用する実施の形態も考えられる。
さらに、以上の実施の形態および実施例1〜3は単語辞書203が木構造辞書である例を示したが、単語辞書203が線形辞書である場合でも同様の手法を用いることが可能である。
また、以上の実施の形態では、平滑化言語モデルスコア先読み値をその都度計算するようにしたが、平滑化言語モデルスコア先読み値を事前に計算しておいて、例えば単語辞書203や言語モデル202に記憶させておき、探索の過程で、平滑化言語モデルスコア先読み値計算手段201が、記憶されている平滑化言語モデルスコア先読み値の中から該当する値を検索して取得するという構成も考えられる。
また、平滑化言語モデルスコア先読み値計算手段201、音声入力手段101、音響分析手段102、距離計算手段103、探索手段105、認識結果出力手段109は、ハードウェア的に実現することは勿論、コンピュータとプログラムとで実現することができる。プログラムは、磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御することにより、そのコンピュータを前記各手段として機能させ、前述した処理を行わせる。
以上、実施の形態(及び実施例)を参照して本番発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2008年5月16日に出願された日本出願特願2008−129937を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、音声認識を用いる自動通訳や情報検索、音声対話システムなど、音声認識システム全般に適用することができる。

Claims (27)

  1. 単語の音素列を定義する単語辞書と、単語の出現し易さのスコアを与える言語モデルと、単語について前記単語辞書で定義された音素列と前記言語モデルで定義されたスコアとから、言語モデルスコア先読み値が単語の語頭に集中しないように単語中の各音素での言語モデルスコア先読み値を求める平滑化言語モデルスコア先読み値計算手段とを備えることを特徴とする言語モデルスコア先読み値付与装置。
  2. 前記平滑化言語モデルスコア先読み値計算手段は、単語中の各音素での言語モデルスコア先読み値を、当該音素の当該単語中の出現順序に基づいて求めることを特徴とする請求項1に記載の言語モデルスコア先読み値付与装置。
  3. 前記平滑化言語モデルスコア先読み値計算手段は、単語中の各音素での言語モデルスコア先読み値を、単語先頭から当該音素までの音素数に基づいて求めることを特徴とする請求項2に記載の言語モデルスコア先読み値付与装置。
  4. 前記平滑化言語モデルスコア先読み値計算手段は、単語先頭から音素までの音素数に基づいて設定された言語モデルスコア先読み値の閾値以内の言語モデルスコア先読み値を求めることを特徴とする請求項3に記載の言語モデルスコア先読み値付与装置。
  5. 前記平滑化言語モデルスコア先読み値計算手段は、単語中の各音素での言語モデルスコア先読み値を、当該音素から辿れる単語の音素数に基づいて求めることを特徴とする請求項2に記載の言語モデルスコア先読み値付与装置。
  6. 前記平滑化言語モデルスコア先読み値計算手段は、当該音素から辿れる単語の音素数に基づいて、言語モデルスコア先読み差分値が当該音素から辿れる音素に等分されるように言語モデルスコア先読み値を求めることを特徴とする請求項5に記載の言語モデルスコア先読み値付与装置。
  7. 前記平滑化言語モデルスコア先読み値計算手段は、単語中の各音素での言語モデルスコア先読み値を、当該音素が含まれる枝分かれを持たない音素列の音素数に基づいて求めることを特徴とする請求項2に記載の言語モデルスコア先読み値付与装置。
  8. 前記平滑化言語モデルスコア先読み値計算手段は、当該音素が含まれる枝分かれを持たない音素列の音素数に基づいて、言語モデルスコア先読み差分値が枝分かれを持たない音素に等分されるように言語モデル先読み値を求めることを特徴とする請求項7に記載の言語モデルスコア先読み値付与装置。
  9. 言語モデルスコア先読み値を使ってフレーム同期ビームサーチを行う音声認識装置において、請求項1乃至8の何れか1項に記載の言語モデルスコア先読み値付与装置を備えたことを特徴とする音声認識装置。
  10. 単語について単語辞書で定義された音素列と言語モデルで定義されたスコアとから、言語モデルスコア先読み値が単語の語頭に集中しないように単語中の各音素での言語モデルスコア先読み値を求めることを特徴とする言語モデルスコア先読み値付与方法。
  11. 単語中の各音素での言語モデルスコア先読み値を、当該音素の当該単語中の出現順序に基づいて求めることを特徴とする請求項10に記載の言語モデルスコア先読み値付与方法。
  12. 単語中の各音素での言語モデルスコア先読み値を、単語先頭から当該音素までの音素数に基づいて求めることを特徴とする請求項11に記載の言語モデルスコア先読み値付与方法。
  13. 単語先頭から音素までの音素数に基づいて設定された言語モデルスコア先読み値の閾値以内の言語モデルスコア先読み値を求めることを特徴とする請求項12に記載の言語モデルスコア先読み値付与方法。
  14. 単語中の各音素での言語モデルスコア先読み値を、当該音素から辿れる単語の音素数に基づいて求めることを特徴とする請求項11に記載の言語モデルスコア先読み値付与方法。
  15. 当該音素から辿れる単語の音素数に基づいて、言語モデルスコア先読み差分値が当該音素から辿れる音素に等分されるように言語モデルスコア先読み値を求めることを特徴とする請求項14に記載の言語モデルスコア先読み値付与方法。
  16. 単語中の各音素での言語モデルスコア先読み値を、当該音素が含まれる枝分かれを持たない音素列の音素数に基づいて求めることを特徴とする請求項11に記載の言語モデルスコア先読み値付与方法。
  17. 当該音素が含まれる枝分かれを持たない音素列の音素数に基づいて、言語モデルスコア先読み差分値が枝分かれを持たない音素に等分されるように言語モデル先読み値を求めることを特徴とする請求項16に記載の言語モデルスコア先読み値付与方法。
  18. 請求項10乃至17の何れか1項に記載の言語モデルスコア先読み値付与方法により求められる言語モデルスコア先読み値を使ってフレーム同期ビームサーチを行う音声認識方法。
  19. 単語の音素列を定義する単語辞書と単語の出現し易さのスコアを与える言語モデルとを記憶する記憶手段を備えたコンピュータに、単語について前記単語辞書で定義された音素列と前記言語モデルで定義されたスコアとから、言語モデルスコア先読み値が単語の語頭に集中しないように単語中の各音素での言語モデルスコア先読み値を求めるステップを実行させるための言語モデルスコア先読み値付与プログラムを前記コンピュータに読み取り可能に記録するプログラム記録媒体。
  20. 前記ステップでは、単語中の各音素での言語モデルスコア先読み値を、当該音素の当該単語中の出現順序に基づいて求めることを特徴とする請求項19に記載のプログラム記録媒体。
  21. 前記ステップでは、単語中の各音素での言語モデルスコア先読み値を、単語先頭から当該音素までの音素数に基づいて求めることを特徴とする請求項20に記載のプログラム記録媒体。
  22. 前記ステップでは、単語先頭から音素までの音素数に基づいて設定された言語モデルスコア先読み値の閾値以内の言語モデルスコア先読み値を求めることを特徴とする請求項21に記載のプログラム記録媒体。
  23. 前記ステップでは、単語中の各音素での言語モデルスコア先読み値を、当該音素から辿れる単語の音素数に基づいて求めることを特徴とする請求項20に記載のプログラム記録媒体。
  24. 前記ステップでは、当該音素から辿れる単語の音素数に基づいて、言語モデルスコア先読み差分値が当該音素から辿れる音素に等分されるように言語モデルスコア先読み値を求めることを特徴とする請求項23に記載のプログラム記録媒体。
  25. 前記ステップでは、単語中の各音素での言語モデルスコア先読み値を、当該音素が含まれる枝分かれを持たない音素列の音素数に基づいて求めることを特徴とする請求項20に記載のプログラム記録媒体。
  26. 前記ステップでは、当該音素が含まれる枝分かれを持たない音素列の音素数に基づいて、言語モデルスコア先読み差分値が枝分かれを持たない音素に等分されるように言語モデル先読み値を求めることを特徴とする請求項25に記載のプログラム記録媒体。
  27. 請求項19乃至26の何れか1項に記載のプログラム記録媒体に記録された言語モデルスコア先読み値付与プログラムにより求められる言語モデルスコア先読み値を使って、前記コンピュータに、フレーム同期ビームサーチを行う音声認識ステップを実行させるための音声認識プログラムをコンピュータに読み取り可能に記録するプログラム記録媒体。
JP2010511918A 2008-05-16 2009-03-27 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体 Expired - Fee Related JP5447373B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010511918A JP5447373B2 (ja) 2008-05-16 2009-03-27 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008129937 2008-05-16
JP2008129937 2008-05-16
JP2010511918A JP5447373B2 (ja) 2008-05-16 2009-03-27 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体
PCT/JP2009/056324 WO2009139230A1 (ja) 2008-05-16 2009-03-27 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体

Publications (2)

Publication Number Publication Date
JPWO2009139230A1 true JPWO2009139230A1 (ja) 2011-09-15
JP5447373B2 JP5447373B2 (ja) 2014-03-19

Family

ID=41318603

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010511918A Expired - Fee Related JP5447373B2 (ja) 2008-05-16 2009-03-27 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体

Country Status (4)

Country Link
US (1) US8682668B2 (ja)
JP (1) JP5447373B2 (ja)
CN (1) CN102027534B (ja)
WO (1) WO2009139230A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9683862B2 (en) * 2015-08-24 2017-06-20 International Business Machines Corporation Internationalization during navigation
TWI731921B (zh) * 2017-01-20 2021-07-01 香港商阿里巴巴集團服務有限公司 語音識別方法及裝置
CN108733739B (zh) * 2017-04-25 2021-09-07 上海寒武纪信息科技有限公司 支持集束搜索的运算装置和方法
CN108959421B (zh) * 2018-06-08 2021-04-13 腾讯科技(深圳)有限公司 候选回复评价装置和问询回复设备及其方法、存储介质
KR102177741B1 (ko) * 2018-10-26 2020-11-11 아주대학교산학협력단 순환신경망 및 분기예측에 기반한 통신 메시지 해석 장치 및 그 방법
CN112242144A (zh) * 2019-07-17 2021-01-19 百度在线网络技术(北京)有限公司 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4130631A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
DE4130633A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
JP2905674B2 (ja) 1993-10-04 1999-06-14 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者連続音声認識方法
DE4412745A1 (de) * 1994-04-14 1996-11-07 Philips Patentverwaltung Verfahren zum Ermitteln einer Folge von Wörtern und Anordnung zur Durchführung des Verfahrens
JP3454959B2 (ja) * 1995-03-15 2003-10-06 株式会社東芝 携帯電話装置
US5799065A (en) * 1996-05-06 1998-08-25 Matsushita Electric Industrial Co., Ltd. Call routing device employing continuous speech
US5822730A (en) * 1996-08-22 1998-10-13 Dragon Systems, Inc. Lexical tree pre-filtering in speech recognition
DE19639844A1 (de) * 1996-09-27 1998-04-02 Philips Patentverwaltung Verfahren zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
JP3061114B2 (ja) * 1996-11-25 2000-07-10 日本電気株式会社 音声認識装置
JP3027543B2 (ja) 1996-12-11 2000-04-04 株式会社エイ・ティ・アール音声翻訳通信研究所 連続音声認識装置
US6285786B1 (en) * 1998-04-30 2001-09-04 Motorola, Inc. Text recognizer and method using non-cumulative character scoring in a forward search
JP2938865B1 (ja) 1998-08-27 1999-08-25 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
JP3252815B2 (ja) * 1998-12-04 2002-02-04 日本電気株式会社 連続音声認識装置及び方法
US6928404B1 (en) * 1999-03-17 2005-08-09 International Business Machines Corporation System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies
US6963837B1 (en) * 1999-10-06 2005-11-08 Multimodal Technologies, Inc. Attribute-based word modeling
US6871341B1 (en) * 2000-03-24 2005-03-22 Intel Corporation Adaptive scheduling of function cells in dynamic reconfigurable logic
JP4105841B2 (ja) * 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
AU2000276400A1 (en) * 2000-09-30 2002-04-15 Intel Corporation Search method based on single triphone tree for large vocabulary continuous speech recognizer
US7043422B2 (en) * 2000-10-13 2006-05-09 Microsoft Corporation Method and apparatus for distribution-based language model adaptation
JP2002215187A (ja) * 2001-01-23 2002-07-31 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置
JP3813491B2 (ja) * 2001-10-30 2006-08-23 日本放送協会 連続音声認識装置およびそのプログラム
GB2384901B (en) * 2002-02-04 2004-04-21 Zentian Ltd Speech recognition circuit using parallel processors
US7181398B2 (en) * 2002-03-27 2007-02-20 Hewlett-Packard Development Company, L.P. Vocabulary independent speech recognition system and method using subword units
US7930181B1 (en) * 2002-09-18 2011-04-19 At&T Intellectual Property Ii, L.P. Low latency real-time speech transcription
JP2004191705A (ja) 2002-12-12 2004-07-08 Renesas Technology Corp 音声認識装置
US7031915B2 (en) * 2003-01-23 2006-04-18 Aurilab Llc Assisted speech recognition by dual search acceleration technique
US20040158468A1 (en) * 2003-02-12 2004-08-12 Aurilab, Llc Speech recognition with soft pruning
US7725319B2 (en) * 2003-07-07 2010-05-25 Dialogic Corporation Phoneme lattice construction and its application to speech recognition and keyword spotting
EP1654727A4 (en) * 2003-07-23 2007-12-26 Nexidia Inc INTERROGATIONS FOR THE DETECTION OF WORDS
JP4583772B2 (ja) 2004-02-05 2010-11-17 日本電気株式会社 音声認識システム、音声認識方法および音声認識用プログラム
JP4541781B2 (ja) * 2004-06-29 2010-09-08 キヤノン株式会社 音声認識装置および方法
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
JP4822829B2 (ja) * 2005-12-14 2011-11-24 キヤノン株式会社 音声認識装置および方法
US7734460B2 (en) * 2005-12-20 2010-06-08 Microsoft Corporation Time asynchronous decoding for long-span trajectory model
US7774197B1 (en) * 2006-09-27 2010-08-10 Raytheon Bbn Technologies Corp. Modular approach to building large language models

Also Published As

Publication number Publication date
CN102027534B (zh) 2013-07-31
US8682668B2 (en) 2014-03-25
US20110191100A1 (en) 2011-08-04
WO2009139230A1 (ja) 2009-11-19
JP5447373B2 (ja) 2014-03-19
CN102027534A (zh) 2011-04-20

Similar Documents

Publication Publication Date Title
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
JP5739718B2 (ja) 対話装置
US9697827B1 (en) Error reduction in speech processing
JP4465564B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
Alleva et al. An improved search algorithm using incremental knowledge for continuous speech recognition
KR100651957B1 (ko) 음성 인식에서 무음을 사용한 시스템
JP4757936B2 (ja) パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
EP2685452A1 (en) Method of recognizing speech and electronic device thereof
US20170263242A1 (en) Information processing device, information processing method, computer program product, and recognition system
US20160180839A1 (en) Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
JP5447373B2 (ja) 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体
WO2001065541A1 (fr) Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement
US20100100379A1 (en) Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method
US9672820B2 (en) Simultaneous speech processing apparatus and method
CN108074562B (zh) 语音识别装置、语音识别方法以及存储介质
JP5276610B2 (ja) 言語モデル生成装置、そのプログラムおよび音声認識システム
JPWO2009081895A1 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
JP6690484B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP5309343B2 (ja) パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
JP2013182261A (ja) 適応化装置、音声認識装置、およびそのプログラム
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
US20040148163A1 (en) System and method for utilizing an anchor to reduce memory requirements for speech recognition
WO2013125203A1 (ja) 音声認識装置、音声認識方法およびコンピュータプログラム
Tabibian et al. Improved dynamic match phone lattice search for Persian spoken term detection system in online and offline applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131216

R150 Certificate of patent or registration of utility model

Ref document number: 5447373

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees