JPWO2009008055A1

JPWO2009008055A1 - 音声認識装置、音声認識方法、および、音声認識プログラム

Info

Publication number: JPWO2009008055A1
Application number: JP2009522448A
Authority: JP
Inventors: 原田　将治; 将治原田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-07-09
Filing date: 2007-07-09
Publication date: 2010-09-02
Anticipated expiration: 2027-07-09
Also published as: CN101689364B; CN101689364A; US20100088098A1; US8738378B2; JP4973731B2; WO2009008055A1

Abstract

音声認識装置（１）は、音声分析部（１１）により変換された特徴量と、単語モデル生成部（１６）により生成された単語モデルとの各時刻における類似度を算出する音声照合部（１７）を備える。音声照合部（１７）は、単語モデル生成部（１６）により生成された単語モデルのうち、各時刻における類似度の中で最小の類似度あるいは各時刻における類似度から得られる全体類似度が第２閾値条件を満たし、かつ、発話音声の発声区間のうち、第１閾値条件に対応付けられた音素または音素列に対応する区間内の各時刻における類似度が第１閾値条件を満たす単語モデルを抽出し、抽出した単語モデルに対応する認識単語を認識結果として出力する。

Description

本発明は、変換規則に従って、認識単語の読みを音素列に変換し、変換した音素列に基づいて、標準パターン列である単語モデルを生成することによって、人間の発話音声を認識する音声認識装置、音声認識方法、および、音声認識プログラムに関する。

一般に、音声認識装置は、認識単語記憶部に格納された認識単語の読みを音素列に変換し、変換した音素列から標準パターン列である単語モデルを生成することによって、人間の発話音声を認識する機能を有している。具体的には、音声認識装置は、読みと音素との変換規則または読みと音素列との変換規則に従って、認識単語の読みを音素列に変換する。音声認識装置は、変換した音声列から標準パターン列である単語モデルを生成する。音声認識装置は、入力された発話音声と生成された単語モデルとの各時刻における類似度を算出する。音声認識装置は、生成された単語モデルのうち、各時刻における類似度が閾値以上の単語モデルを抽出する。音声認識装置は、抽出した単語モデルに対応する認識単語を認識結果として出力する（例えば、特開昭６２−１１６９９９号公報、特開昭６３−５３９５号公報、特開平０１−３０２２９５号公報、または、特開平０８−２４８９７９号公報参照）。

ところで、人間は、一般に、発話音声の全ての音素を明りょうに発声するものではない。つまり、人間の発話音声には、曖昧な音素が含まれている。特に、人間が早口で発声すると、人間の発話音声には、曖昧な音素が含まれ易くなる。このため、人間が認識単語を発声した場合であっても、音声認識装置は、人間の発声を認識することができない場合があるという問題があった。

一例として、音声認識装置の認識単語記憶部には、認識単語の読み「とよとみ」が格納されていたものとする。この場合、音声認識装置は、変換規則に従って、認識単語の読み「とよとみ」を音素列「ｔｏｙｏｔｏｍｉ」に変換する。なお、変換規則は、「と⇔ｔｏ」、「よ⇔ｙｏ」、「み⇔ｍｉ」である。音声認識装置は、変換した音素列「ｔｏｙｏｔｏｍｉ」から標準パターン列である「ｔｏｙｏｔｏｍｉ」の単語モデルを生成する。ここで、人間が認識単語「とよとみ」を発声した場合、発声した「とよとみ」における「よ」が曖昧な発声であったため、音声認識装置では、「とよとみ」における「よ」（音素：ｙｏ）が、音素「ｙ」が省略された「お」（音素：ｏ）であると判定し、この結果、発話音声が「とおとみ」であると判定したものとする。音声認識装置は、発話音声「とおとみ」における「お」と、単語モデル「ｔｏｙｏｔｏｍｉ」における「ｙｏ」との各時刻における類似度が閾値以下になった場合、発話音声「とおとみ」を認識することができない。

このような問題を解決するため、従来の音声認識装置では、認識単語の読みから予め曖昧になり易い音素を含む音素列を変換規則に追加することが行われている。上記の例では、変換規則として、「と⇔ｔｏ」、「よ⇔ｙｏ」、「み⇔ｍｉ」に加えて、「とよ⇔ｔｏｏ」を追加する。これにより、音声認識装置は、認識単語の読み「とよとみ」を音素列「ｔｏｙｏｔｏｍｉ」および音素列「ｔｏｏｔｏｍｉ」に変換する。音声認識装置は、変換した音素列「ｔｏｙｏｔｏｍｉ」から標準パターン列である「ｔｏｙｏｔｏｍｉ」の単語モデル、および、変換した音素列「ｔｏｏｔｏｍｉ」から標準パターン列である「ｔｏｏｔｏｍｉ」の単語モデルを生成する。それゆえ、音声認識装置は、発話音声が「とおとみ」であると判定した場合であっても、発話音声「とおとみ」と単語モデル「ｔｏｏｔｏｍｉ」との各時刻における類似度が閾値以上となるので、発話音声「とおとみ」を「とよとみ」として認識することが可能となる。

しかしながら、上記従来の音声認識装置では、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声は認識することが可能となるが、人間が認識単語以外の単語を発声した場合であっても、この単語を認識単語として誤認識することがあった。すなわち、上記従来の音声認識装置では、認識単語の読みから予め曖昧になり易い音素を含む音素列を変換規則に追加しているからである。

具体的には、上記従来の音声認識装置では、人間が認識単語「とよとみ」を発声した場合における曖昧な音素が含まれた発話音声「とおとみ」は認識することが可能となる。しかし、上記従来の音声認識装置では、人間が認識単語「とよとみ」以外の単語「ともとみ」を発声した場合、発話音声「ともとみ」と単語モデル「ｔｏｏｔｏｍｉ」との各時刻における類似度が閾値以上となることがあり、この場合、発話音声「ともとみ」を「とよとみ」として誤認識してしまう。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を認識しつつ、人間が認識単語以外の単語を発声した場合、この単語を認識単語として誤認識することを防止することが可能な音声認識装置、音声認識方法、および、音声認識プログラムを提供することにある。

上記目的を達成するために本発明における音声認識装置は、入力された発話音声を特徴量に変換する音声分析部と、認識単語の読みを格納した認識単語記憶部と、読みと音素との変換規則または読みと音素列との変換規則を格納した変換規則記憶部と、前記変換規則記憶部に格納されている変換規則に従って、前記認識単語記憶部に格納されている認識単語の読みを音素列に変換する音素列変換部と、音素がどのような特徴量になりやすいかをモデル化した標準パターンを格納した音素モデル記憶部と、前記音素列変換部により変換された音素列に基づいて、前記音素モデル記憶部に格納されている標準パターンを抽出し、抽出した標準パターンを連結することによって、標準パターン列である単語モデルを生成する単語モデル生成部と、前記音声分析部により変換された特徴量と、前記単語モデル生成部により生成された単語モデルとの各時刻における類似度を算出する音声照合部とを備え、前記変換規則記憶部は、前記変換規則のうち少なくとも１つの変換規則の音素または音素列に対応付けられた第１閾値条件をさらに格納し、前記音声照合部は、前記単語モデル生成部により生成された単語モデルのうち、前記各時刻における類似度の中で最小の類似度あるいは前記各時刻における類似度から得られる全体類似度が第２閾値条件を満たし、かつ、前記発話音声の発声区間のうち、前記第１閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が当該第１閾値条件を満たす単語モデルを抽出し、抽出した単語モデルに対応する認識単語を認識結果として出力する。

人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を認識できるように前記第１閾値条件を設定し、かつ、人間が認識単語以外の単語を発声した場合、この単語を棄却できるように前記第１閾値条件を設定することで、本発明の音声認識装置は、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を認識しつつ、人間が認識単語以外の単語を発声した場合、この単語を認識単語として誤認識することを防止することが可能となる。例えば、音声照合部は、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声の特徴量と、生成された単語モデルとの各時刻における類似度を算出したものとする。この場合、音声照合部は、生成された単語モデルのうち、各時刻における類似度の中で最小の類似度あるいは各時刻における類似度から得られる全体類似度が第２閾値条件を満たし、かつ、発話音声の発声区間のうち、第１閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が当該第１閾値条件を満たす単語モデルを抽出する。これにより、音声照合部は、抽出した単語モデルに対応する認識単語を認識結果として出力することが可能となる。一方、例えば、音声照合部は、人間が認識単語以外の単語を発声した場合におけるこの単語の特徴量と、生成された単語モデルとの各時刻における類似度を算出したものとする。この場合、発話音声の発声区間のうち、第１閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が当該第１閾値条件を満たす単語モデルは存在しない。このため、音声照合部は、単語モデルを抽出しない。これにより、人間が認識単語以外の単語を発声した場合、音声照合部は、この単語を棄却することが可能となる。

上記本発明における音声認識装置においては、前記変換規則記憶部は、前記第１閾値条件が示す条件毎に複数備えられており、前記音素列変換部は、前記認識単語記憶部に格納されている認識単語の読みの数に基づいて、複数の変換規則記憶部から認識単語の読みを音素列に変換するために使用する変換規則記憶部を選択し、選択した変換規則記憶部に格納されている変換規則に従って、前記認識単語記憶部に格納されている認識単語の読みを音素列に変換する態様とするのが好ましい。

上記構成によれば、音素列変換部は、認識単語の読みの数に基づいて、複数の変換規則記憶部から認識単語の読みを音素列に変換するために使用する変換規則記憶部を選択する。例えば、認識単語の読みの数が１０００以上のように多ければ、音素列変換部は、条件が低い第１閾値条件が格納された変換規則記憶部のみを選択する。つまり、条件が低い第１閾値条件が格納された変換規則記憶部には、通常、人間が認識単語を発声した場合における曖昧になり易い音素を含む音素列の変換規則が格納されているからである。なお、条件が高い第１閾値条件が格納された変換規則記憶部には、通常、人間が認識単語を発声した場合における稀に曖昧となる音素を含む音素列の変換規則が格納されている。一方、例えば、認識単語の読みの数が１０００未満のように少なければ、音素列変換部は、全ての変換規則記憶部を選択する。音素列変換部は、選択した変換規則記憶部に格納されている変換規則に従って、認識単語の読みを音素列に変換する。これにより、例えば、認識単語の読みの数が多ければ、音素列変換部は、最低限の変換規則記憶部を使用して認識単語の読みを音素列に変換することが可能となる。それゆえ、音声照合部による照合速度の低下を抑えることができる。一方、例えば、認識単語の読みの数が少なければ、音素列変換部は、全ての変換規則記憶部を使用して認識単語の読みを音素列に変換することが可能となる。それゆえ、音声照合部は、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を確実に認識することができる。

上記本発明における音声認識装置においては、前記音声照合部により出力された認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則の使用頻度を算出する使用頻度算出部と、前記使用頻度算出部により算出された変換規則の使用頻度が境界条件より大きい場合、当該変換規則の音素または音素列に対応付けられた第１閾値条件が低くなるように、当該第１閾値条件を更新し、前記使用頻度算出部により算出された変換規則の使用頻度が境界条件より小さい場合、当該変換規則の音素または音素列に対応付けられた第１閾値条件が高くなるように、当該第１閾値条件を更新する第１閾値条件更新部とをさらに備える態様とするのが好ましい。

上記構成によれば、使用頻度算出部は、認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則の使用頻度を算出する。第１閾値条件更新部は、変換規則の使用頻度が境界条件より大きい場合、この変換規則の音素または音素列に対応付けられた第１閾値条件が低くなるように、この第１閾値条件を更新する。つまり、変換規則の使用頻度が高い場合、この変換規則は単語モデルを生成するために頻繁に使用されているので、第１閾値条件更新部は、第１閾値条件が低くなるように第１閾値条件を更新することが可能となる。これにより、音声認識装置の認識率が向上する。一方、第１閾値条件更新部は、変換規則の使用頻度が境界条件より小さい場合、この変換規則の音素または音素列に対応付けられた第１閾値条件が高くなるように、この第１閾値条件を更新する。つまり、変換規則の使用頻度が低い場合、この変換規則は単語モデルを生成するために頻繁に使用されていないので、第１閾値条件更新部は、第１閾値条件が高くなるように第１閾値条件を更新することが可能となる。これにより、音声認識装置の認識率が低下する。

上記本発明における音声認識装置においては、前記音声照合部により出力された認識結果が誤っているか否かをユーザから受け付ける入力部と、前記入力部が前記音声照合部により出力された認識結果が誤っていることをユーザから受け付けた場合、当該認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則の使用頻度を算出する使用頻度算出部と、前記使用頻度算出部により算出された変換規則の使用頻度が境界条件より大きい場合、当該変換規則の音素または音素列に対応付けられた第１閾値条件が高くなるように、当該第１閾値条件を更新し、前記使用頻度算出部により算出された変換規則の使用頻度が境界条件より小さい場合、当該変換規則の音素または音素列に対応付けられた第１閾値条件が低くなるように、当該第１閾値条件を更新する第１閾値条件更新部とをさらに備える態様とするのが好ましい。

上記構成によれば、入力部は、音声照合部により出力された認識結果が誤っているか否かをユーザから受け付ける。使用頻度算出部は、入力部が音声照合部により出力された認識結果が誤っていることをユーザから受け付けた場合、この認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則の使用頻度を算出する。第１閾値条件更新部は、変換規則の使用頻度が境界条件より大きい場合、この変換規則の音素または音素列に対応付けられた第１閾値条件が高くなるように、この第１閾値条件を更新する。つまり、変換規則の使用頻度が高い場合、この変換規則は認識単語が誤っている場合における単語モデルを生成するために頻繁に使用されているので、第１閾値条件更新部は、第１閾値条件が高くなるように第１閾値条件を更新することが可能となる。これにより、音声認識装置の認識率が低下する。一方、第１閾値条件更新部は、変換規則の使用頻度が境界条件より小さい場合、この変換規則の音素または音素列に対応付けられた第１閾値条件が低くなるように、第１閾値条件を更新する。つまり、変換規則の使用頻度が低い場合、この変換規則は認識単語が誤っている場合における単語モデルを生成するために頻繁に使用されていないので、第１閾値条件更新部は、第１閾値条件が低くなるように第１閾値条件を更新することが可能となる。これにより、音声認識装置の認識率が向上する。

上記本発明における音声認識装置においては、前記変換規則記憶部は、前記変換規則の音素または音素列に対応付けられた継続時間をさらに格納し、前記音声照合部は、前記発話音声の発声区間のうち、前記継続時間に対応付けられた音素または音素列に対応する区間における発声時間が、前記継続時間以上であるか否かを判定し、前記区間における発声時間が前記継続時間以上であると判定した場合、抽出した単語モデルを棄却し、前記区間における発声時間が前記継続時間未満であると判定した場合、抽出した単語モデルに対応する認識単語を認識結果として出力する態様とするのが好ましい。

上記構成によれば、音声照合部は、発話音声の発声区間のうち、継続時間に対応付けられた音素または音素列に対応する区間における発声時間が、継続時間以上であると判定した場合、抽出した単語モデルを棄却する。つまり、前記区間における発声時間が継続時間以上である場合、人間がゆっくりと発声している場合であるので、音声照合部は、単語モデルを抽出した場合であっても、抽出した単語モデルを棄却する。これにより、音声認識装置による誤認識を防止することが可能となる。一方、音声照合部は、発話音声の発声区間のうち、継続時間に対応付けられた音素または音素列に対応する区間における発声時間が、継続時間未満であると判定した場合、抽出した単語モデルに対応する認識単語を認識結果として出力する。つまり、前記区間における発声時間が継続時間未満である場合、人間が早口で発声している場合であるので、音声照合部は、抽出した単語モデルを認識結果として出力する。これにより、音声認識装置は、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を認識することが可能となる。

上記目的を達成するために本発明における音声認識方法は、コンピュータが備える音声分析部が、入力された発話音声を特徴量に変換する音声分析工程と、前記コンピュータが備える音素列変換部が、読みと音素との変換規則または読みと音素列との変換規則を格納した変換規則記憶部に格納されている変換規則に従って、認識単語の読みを格納した認識単語記憶部に格納されている認識単語の読みを音素列に変換する音素列変換工程と、前記コンピュータが備える単語モデル生成部が、前記音素列変換工程により変換された音素列に基づいて、音素がどのような特徴量になりやすいかをモデル化した標準パターンを格納した音素モデル記憶部に格納されている標準パターンを抽出し、抽出した標準パターンを連結することによって、標準パターン列である単語モデルを生成する単語モデル生成工程と、前記コンピュータが備える音声照合部が、前記音声分析工程により変換された特徴量と、前記単語モデル生成工程により生成された単語モデルとの各時刻における類似度を算出する音声照合工程とを含み、前記変換規則記憶部は、前記変換規則のうち少なくとも１つの変換規則の音素または音素列に対応付けられた第１閾値条件をさらに格納し、前記音声照合工程は、前記単語モデル生成工程により生成された単語モデルのうち、前記各時刻における類似度の中で最小の類似度あるいは前記各時刻における類似度から得られる全体類似度が第２閾値条件を満たし、かつ、前記発話音声の発声区間のうち、前記第１閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が当該第１閾値条件を満たす単語モデルを抽出し、抽出した単語モデルに対応する認識単語を認識結果として出力する。

上記目的を達成するために本発明における音声認識プログラムは、入力された発話音声を特徴量に変換する音声分析処理と、読みと音素との変換規則または読みと音素列との変換規則を格納した変換規則記憶部に格納されている変換規則に従って、認識単語の読みを格納した認識単語記憶部に格納されている認識単語の読みを音素列に変換する音素列変換処理と、前記音素列変換処理により変換された音素列に基づいて、音素がどのような特徴量になりやすいかをモデル化した標準パターンを格納した音素モデル記憶部に格納されている標準パターンを抽出し、抽出した標準パターンを連結することによって、標準パターン列である単語モデルを生成する単語モデル生成処理と、前記音声分析処理により変換された特徴量と、前記単語モデル生成処理により生成された単語モデルとの各時刻における類似度を算出する音声照合処理とをコンピュータに実行させ、前記変換規則記憶部は、前記変換規則のうち少なくとも１つの変換規則の音素または音素列に対応付けられた第１閾値条件をさらに格納し、前記音声照合処理は、前記単語モデル生成処理により生成された単語モデルのうち、前記各時刻における類似度の中で最小の類似度あるいは前記各時刻における類似度から得られる全体類似度が第２閾値条件を満たし、かつ、前記発話音声の発声区間のうち、前記第１閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が当該第１閾値条件を満たす単語モデルを抽出し、抽出した単語モデルに対応する認識単語を認識結果として出力する処理を前記コンピュータに実行させる。

なお、本発明における音声認識方法、および、音声認識プログラムは、上記の音声認識装置と同様の効果を得る。

以上のように、本発明の音声認識装置、音声認識方法、および、音声認識プログラムは、人間が認識単語を発声した場合における曖昧な発話音声は認識しつつ、人間が認識単語以外の単語を発声した場合、その単語を認識単語として誤認識することを防止することが可能であるという効果を奏する。

図１は、本発明の第１の実施形態に係る音声認識装置の概略構成を示すブロック図である。図２は、上記音声認識装置における認識単語記憶部のデータの内容の一例を示す図である。図３は、上記音声認識装置における変換規則記憶部のデータの内容の一例を示す図である。図４は、上記音声認識装置における変換規則記憶部のデータの内容の他の例を示す図である。図５は、上記音声認識装置における音素モデル記憶部のデータの内容の一例を示す図である。図６は、特徴量「とおとみ」と単語モデル「ｔｏｏｔｏｍｉ」との各時刻における類似度を概略的に示した図である。図７は、特徴量「ともとみ」と単語モデル「ｔｏｏｔｏｍｉ」との各時刻における類似度を概略的に示した図である。図８は、上記音声認識装置の動作の一例を示すフローチャートである。図９は、本発明の第２の実施形態に係る音声認識装置の概略構成を示すブロック図である。図１０は、上記音声認識装置における変換規則記憶部のデータの内容の一例をそれぞれ示す図である。図１１は、本発明の第３の実施形態に係る音声認識装置の概略構成を示すブロック図である。図１２は、上記音声認識装置における変換規則記憶部のデータの内容の一例を示す図である。図１３は、上記音声認識装置における第１閾値条件更新部により更新された後の、上記変換規則記憶部に格納されるデータの内容の一例を示す図である。図１４は、上記音声認識装置における第１閾値条件更新部により更新された後の、上記変換規則記憶部に格納されるデータの内容の一例を示す図である。図１５は、上記音声認識装置の動作の一例を示すフローチャートである。図１６は、本発明の第４の実施形態に係る音声認識装置の概略構成を示すブロック図である。図１７は、上記音声認識装置における変換規則記憶部のデータの内容の一例を示す図である。図１８は、上記音声認識装置における第１閾値条件更新部により更新された後の、上記変換規則記憶部に格納されるデータの内容の一例を示す図である。図１９は、上記音声認識装置における第１閾値条件更新部により更新された後の、上記変換規則記憶部に格納されるデータの内容の一例を示す図である。図２０は、上記音声認識装置の動作の一例を示すフローチャートである。図２１は、本発明の第５の実施形態に係る音声認識装置の概略構成を示すブロック図である。図２２は、上記音声認識装置における変換規則記憶部のデータの内容の一例を示す図である。図２３は、音素列「ｔ」「ｏ」「ｏ」の標準パターン列に対応する発話音声の発声区間Ｖの一例を示した図である。図２４は、上記音声認識装置の動作の一例を示すフローチャートである。

以下、本発明のより具体的な実施形態について図面を参照しながら詳細に説明する。

[実施の形態１]
図１は、本実施形態に係る音声認識装置１の概略構成を示すブロック図である。図１に示す音声認識装置１は、例えば、音声対話アプリケーションなどの上位プログラムからユーザの発話音声が渡され、その認識結果を上位プログラムへ返す音声認識エンジンとして使用される。また、音声認識装置１は、例えば、パーソナルコンピュータ、サーバマシンなどの汎用コンピュータによって構成される。なお、音声認識装置１は、例えば、車載情報端末、携帯電話、家電製品などの電子機器に組み込まれたコンピュータによって構成されていてもよい。

すなわち、本実施形態に係る音声認識装置１は、音声分析部１１、認識単語記憶部１２、変換規則記憶部１３、音素列変換部１４、音素モデル記憶部１５、単語モデル生成部１６、および、音声照合部１７を備えている。

音声分析部１１は、入力された発話音声をフレーム毎の特徴量に変換する。特徴量には、ＭＦＣＣ、ＬＰＣケプストラムやパワー、それらの一次や二次の回帰係数の他、それらの値を主成分分析や判別分析により次元圧縮したものなどの多次元ベクトルが使用されることが多いが、ここでは特に限定しない。変換された特徴量は、各フレームに固有の情報（フレーム固有情報）と共に、内部のメモリに記録される。なお、フレーム固有情報は、例えば、各フレームが先頭から何番目のフレームであるかを示すフレーム番号や、各フレームの開始時点、終了時点、パワーなどを表すデータである。

認識単語記憶部１２は、複数の認識単語の読みを格納する。図２は、認識単語記憶部１２に格納されるデータの内容の一例を示す図である。図２に示すように、認識単語記憶部１２には、認識単語の読みが格納されている。例えば、音声認識装置１のユーザが、単語の読みデータを記録した記録媒体を音声認識装置１に読み取らせることによって、認識単語記憶部１２には、上記の認識単語の読みが格納される。

変換規則記憶部１３は、読みと音素との変換規則、および、読みと音素列との変換規則の少なくとも１つを格納する。また、変換規則記憶部１３は、変換規則のうち少なくとも１つの変換規則の音素または音素列に対応付けられた第１閾値条件を格納する。図３は、変換規則記憶部１３に格納されるデータの内容の一例を示す図である。図３に示すように、変換規則記憶部１３には、変換規則、および、第１閾値条件が格納されている。図３に示す例では、変換規則記憶部１３には、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の音素列「ｔ」「ｏ」「ｏ」に対応して第１閾値条件「７０」が格納されている。また、変換規則記憶部１３には、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」以外の変換規則の音素または音素列に対応して第１閾値条件「なし」（図中、「−」）が格納されている。つまり、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」以外の変換規則の音素または音素列には、第１閾値条件が設定されていない。なお、第１閾値条件は、音声照合部１７が認識単語を認識結果として出力するための条件を示す。

ここで、本実施形態においては、変換規則記憶部１３に格納されている変換規則および第１閾値条件は、音声認識装置１の管理者（例えば、音声認識装置１を製造するメーカーの人間）により予め設定されている。本実施形態においては、音声認識装置１の管理者は、経験則に基づいて変換規則記憶部１３に第１閾値条件を設定しているが、例えば、音素の照合精度に基づいて変換規則記憶部１３に第１閾値条件を設定してもよい。具体的には、まず、音声認識装置１の管理者は、音素毎に音素の照合精度を予め調査しておく。なお、音素の照合精度は、音声認識装置１において音素が正しく認識できる度合であって、統計的なデータとなる。例えば、音素「ｍ」と音素「ｎ」とは人間の発音がよく似ているので、音声認識装置１において、音素「ｍ」が音素「ｎ」に誤認識し易く、また、音素「ｎ」が音素「ｍ」に誤認識し易い。それゆえ、一般に、音素「ｍ」および音素「ｎ」の照合精度は低くなる。一方、これとは逆に、音素「ａ」は人間が明りょうに発声できる音素であるので、音声認識装置１において、音素「ａ」が誤認識される可能性は低い。それゆえ、一般に、音素「ａ」の照合精度は高くなる。

音声認識装置１の管理者は、第１閾値条件を設定しようとする変換規則の音素列における各音素の照合精度の平均値を算出する。例えば、第１閾値条件を設定しようとする変換規則が「とよ」⇔「ｔ」「ｏ」「ｏ」であった場合、音声認識装置１の管理者は、音素「ｔ」の照合精度、および、音素「ｏ」の照合精度に基づいて、音素列「ｔ」「ｏ」「ｏ」における各音素の照合精度の平均値を算出する。音声認識装置１の管理者は、算出した照合精度の平均値に基づいて、設定すべき第１閾値条件を決定する。例えば、音声認識装置１の管理者は、照合精度の平均値が大きい場合、閾値が低い第１閾値条件を変換規則記憶部１３に設定する。また、音声認識装置１の管理者は、照合精度の平均値が小さい場合、閾値が高い第１閾値条件を変換規則記憶部１３に設定する。

また、図３に示す例では、変換規則記憶部１３には、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の音素列「ｔ」「ｏ」「ｏ」に対応して第１閾値条件「７０」が格納されている例について説明したが、これに限定されない。例えば、変換規則記憶部１３には、図４に示すように、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の音素列「ｔ」「ｏ」「ｏ」における各音素に対応して第１閾値条件がそれぞれ格納されていてもよい。図４に示す例では、変換規則記憶部１３には、音素列「ｔ」「ｏ」「ｏ」における１番目の音素「ｔ」に対応して第１閾値条件「５０」が格納されている。また、変換規則記憶部１３には、音素列「ｔ」「ｏ」「ｏ」における２番目の音素「ｏ」に対応して第１閾値条件「５０」が格納されている。さらに、変換規則記憶部１３には、音素列「ｔ」「ｏ」「ｏ」における３番目の音素「ｏ」に対応して第１閾値条件「７０」が格納されている。

音素列変換部１４は、変換規則記憶部１３に格納されている変換規則に従って、認識単語記憶部１２に格納されている認識単語の読みを音素列に変換する。ここで、音素列変換部１４は、実際には、変換規則に従って、認識単語記憶部１２に格納されている全ての認識単語の読みを音素列に変換する。しかし、本実施形態においては、説明の簡略化のために、音素列変換部１４は、「と」⇔「ｔ」「ｏ」、「よ」⇔「ｙ」「ｏ」、「み」⇔「ｍ」「ｉ」の変換規則に従って、認識単語の読み「とよとみ」を音素列「ｔｏｙｏｔｏｍｉ」に変換したものとする。また、音素列変換部１４は、「とよ」⇔「ｔ」「ｏ」「ｏ」、「と」⇔「ｔ」「ｏ」、「み」⇔「ｍ」「ｉ」の変換規則に従って、認識単語の読み「とよとみ」を音素列「ｔｏｏｔｏｍｉ」に変換したものとする。

音素モデル記憶部１５は、どの音素がどのような特徴量になりやすいかをモデル化した標準パターンを格納する。図５は、音素モデル記憶部１５に格納されるデータの内容の一例を示す図である。図５に示すように、音素モデル記憶部１５には、音素の標準パターンが格納されている。なお、音素の標準パターンには、例えば、ＨＭＭ（Hidden Markov Model）、音素テンプレート（代表点）などが用いられる。

単語モデル生成部１６は、音素列変換部１４により変換された音素列に基づいて、音素モデル記憶部１５に格納されている音素の標準パターンを抽出する。本実施形態においては、単語モデル生成部１６は、音素列変換部１４により変換された音素列「ｔｏｙｏｔｏｍｉ」および音素列「ｔｏｏｔｏｍｉ」に基づいて、音素「ｔ」の標準パターン、音素「ｏ」の標準パターン、音素「ｙ」の標準パターン、音素「ｍ」の標準パターン、および、音素「ｉ」の標準パターンを抽出する。単語モデル生成部１６は、抽出した音素の標準パターンを音素列「ｔｏｙｏｔｏｍｉ」に従って連結することによって、「ｔｏｙｏｔｏｍｉ」の単語モデルを生成する。また、単語モデル生成部１６は、抽出した音素の標準パターンを音素列「ｔｏｏｔｏｍｉ」に従って連結することによって、「ｔｏｏｔｏｍｉ」の単語モデルを生成する。つまり、単語モデルは、標準パターン列からなる。生成された単語モデルは、内部のメモリに記録される。

音声照合部１７は、音声分析部１１により変換された特徴量と、単語モデル生成部１６により生成された単語モデルとを照合する。照合の結果、音声照合部１７は、音声分析部１１により変換された特徴量と、単語モデル生成部１６により生成された単語モデルとの各時刻における類似度を算出する。音声照合部１７は、単語モデル生成部１６により生成された単語モデルのうち、下記の（１）〜（３）の全てを満たす単語モデルを抽出する。音声照合部１７は、抽出した単語モデルに対応する認識単語を認識結果として出力する。なお、下記の（１）における閾値Ｔ₁は、内部のメモリに予め記録されている。本実施形態においては、閾値Ｔ₁は「６０」であるものとする。また、下記の（２）における閾値Ｔ₂も、内部のメモリに予め記録されている。本実施形態においては、閾値Ｔ₂は「５０」であるものとする。
（１）各時刻における類似度の平均値が閾値Ｔ₁以上
（２）各時刻における類似度の中で最小の類似度が閾値Ｔ₂以上
（３）発話音声の発声区間のうち、第１閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が、第１閾値条件が示す閾値Ｃ以上

以下では、ユーザが認識単語「とよとみ」を発声した場合、発声した「とよとみ」における「よ」が曖昧な発声であったため、音声認識装置１では、「とよとみ」における「よ」（音素：ｙｏ）が、音素「ｙ」が省略された「お」（音素：ｏ）であると判定し、この結果、発話音声が「とおとみ」であると判定した場合について説明する。具体的には、音声照合部１７が、音声分析部１１により変換された特徴量「とおとみ」と、単語モデル生成部１６により生成された単語モデル「ｔｏｏｔｏｍｉ」との間で行う照合処理について、図６を参照しながら説明する。なお、図６は、特徴量「とおとみ」と単語モデル「ｔｏｏｔｏｍｉ」との各時刻における類似度を時系列データＳ₁として概略的に示した図である。

音声照合部１７は、まず、各時刻における類似度の平均値（全体類似度）を算出する。本実施形態においては、各時刻における類似度の平均値は「８５」であるものとする。このため、音声照合部１７は、算出した類似度の平均値が、閾値Ｔ₁以上であると判定する。なお、音声照合部１７は、各時刻における類似度の平均値を算出する代わりに、各時刻における類似度の総和を算出するようにしてもよい。つまり、各時刻における類似度の平均値または各時刻における類似度の総和が、本発明の全体類似度の一実施形態となる。また、音声照合部１７は、各時刻における類似度の中で最小の類似度が閾値Ｔ₂以上であると判定する。さらに、音声照合部１７は、発話音声の発声区間のうち、第１閾値条件に対応付けられた音素列「ｔ」「ｏ」「ｏ」に対応する区間の各時刻における類似度が、第１閾値条件が示す閾値Ｃ「７０」以上であると判定する。

以上より、単語モデル「ｔｏｏｔｏｍｉ」は、上記の（１）〜（３）の全てを満たす単語モデルであるので、音声照合部１７は、単語モデル「ｔｏｏｔｏｍｉ」に対応する認識単語「とよとみ」を認識結果として出力する。これにより、本実施形態に係る音声認識装置１は、ユーザが認識単語「とよとみ」を発声した場合における曖昧な音素が含まれた発話音声「とおとみ」を認識することが可能となる。

また、以下では、ユーザが認識単語「とよとみ」以外の単語「ともとみ」を発声した場合について説明する。具体的には、音声照合部１７が、音声分析部１１により変換された特徴量「ともとみ」と、単語モデル生成部１６により生成された単語モデル「ｔｏｏｔｏｍｉ」との間で行う照合処理について、図７を参照しながら説明する。なお、図７は、特徴量「ともとみ」と単語モデル「ｔｏｏｔｏｍｉ」との各時刻における類似度を時系列データＳ₂として概略的に示した図である。

音声照合部１７は、まず、各時刻における類似度の平均値を算出する。本実施形態においては、各時刻における類似度の平均値は「７５」であるものとする。このため、音声照合部１７は、算出した類似度の平均値が、閾値Ｔ₁以上であると判定する。また、音声照合部１７は、各時刻における類似度の中で最小の類似度が閾値Ｔ₂以上であると判定する。さらに、音声照合部１７は、発話音声の発声区間のうち、第１閾値条件に対応付けられた音素列「ｔ」「ｏ」「ｏ」に対応する区間の各時刻における類似度が、第１閾値条件が示す閾値Ｃ「７０」未満であると判定する。

以上より、単語モデル「ｔｏｏｔｏｍｉ」は、上記の（１）および（２）を満たすが、上記の（３）を満たさない単語モデルであるので、音声照合部１７は、単語モデル「ｔｏｏｔｏｍｉ」に対応する認識単語「とよとみ」を認識結果として出力しない。これにより、本実施形態に係る音声認識装置１は、ユーザが認識単語「とよとみ」以外の単語「ともとみ」を発声した場合、この単語を認識単語として誤認識することを防止することが可能となる。

ところで、上記の音声認識装置１は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記の音声分析部１１、音素列変換部１４、単語モデル生成部１６、および、音声照合部１７は、コンピュータのＣＰＵがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、音声分析部１１、音素列変換部１４、単語モデル生成部１６、および、音声照合部１７の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、認識単語記憶部１２、変換規則記憶部１３、および、音素モデル記憶部１５は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。

次に、上記の構成に係る音声認識装置１の動作について、図８を参照しながら説明する。

図８は、音声認識装置１の動作の一例を示すフローチャートである。すなわち、図８に示すように、音素列変換部１４は、変換規則記憶部１３に格納されている変換規則に従って、認識単語記憶部１２に格納されている認識単語の読みを音素列に変換する（工程Ｏｐ１）。単語モデル生成部１６は、工程Ｏｐ１にて変換された音素列に基づいて、音素モデル記憶部１５に格納されている音素の標準パターンを抽出する。単語モデル生成部１６は、抽出した音素の標準パターンを音素列に従って連結することによって、単語モデルを生成する（工程Ｏｐ２）。生成された単語モデルは、内部のメモリに記録される。

一方、音声分析部１１は、入力された発話音声をフレーム毎の特徴量に変換する（工程Ｏｐ３）。変換された特徴量は、フレーム固有情報と共に、内部のメモリに記録される。なお、図８においては、工程Ｏｐ１および工程Ｏｐ２の処理と、工程Ｏｐ３の処理とが並列的に実行される態様としているが、工程Ｏｐ１〜工程Ｏｐ３の処理が直列的に実行される態様であってもよい。

音声照合部１７は、工程Ｏｐ３にて変換された特徴量と、工程Ｏｐ２にて生成された単語モデルとの各時刻における類似度を算出する（工程Ｏｐ４）。音声照合部１７は、各時刻における類似度の平均値が閾値Ｔ₁以上であるか否かを判定する（工程Ｏｐ５）。音声照合部１７は、各時刻における類似度の平均値が閾値Ｔ₁以上であると判定すれば（工程Ｏｐ５にてＹＥＳ）、各時刻における類似度の中で最小の類似度が閾値Ｔ₂以上であるか否かを判定する（工程Ｏｐ６）。一方、音声照合部１７は、各時刻における類似度の平均値が閾値Ｔ₁以上でないと判定すれば（工程Ｏｐ５にてＮＯ）、図８の処理を終了する。

音声照合部１７は、各時刻における類似度の中で最小の類似度が閾値Ｔ₂以上であると判定すれば（工程Ｏｐ６にてＹＥＳ）、発話音声の発声区間のうち、第１閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が、第１閾値条件が示す閾値Ｃ以上であるか否かを判定する（工程Ｏｐ７）。一方、音声照合部１７は、各時刻における類似度の中で最小の類似度が閾値Ｔ₂以上でないと判定すれば（工程Ｏｐ６にてＮＯ）、図８の処理を終了する。

音声照合部１７は、発話音声の発声区間のうち、第１閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が、第１閾値条件が示す閾値Ｃ以上であると判定すれば（工程Ｏｐ７にてＹＥＳ）、工程Ｏｐ２にて生成された単語モデルに対応する認識単語を認識結果として出力する（工程Ｏｐ８）。一方、音声照合部１７は、発話音声の発声区間のうち、第１閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が、第１閾値条件が示す閾値Ｃ以上でないと判定すれば（工程Ｏｐ７にてＮＯ）、図８の処理を終了する。

以上のように、本実施形態に係る音声認識装置１によれば、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を認識できるように第１閾値条件を設定し、かつ、人間が認識単語以外の単語を発声した場合、この単語を棄却できるように第１閾値条件を設定することで、本実施形態に係る音声認識装置１は、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を認識しつつ、人間が認識単語以外の単語を発声した場合、この単語を認識単語として誤認識することを防止することが可能となる。

なお、上記では、音声照合部１７は、発話音声の発声区間のうち、第１閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が、第１閾値条件が示す閾値Ｃ以上であると判定した場合、認識結果を出力する例について説明したが、これに限定されない。例えば、第１閾値条件が示す閾値を所定の範囲とすることによって、音声照合部１７は、音素の標準パターンまたは音素列の標準パターン列に対応する発話音声の発声区間内の各時刻における類似度が、所定の範囲内にあると判定した場合、認識結果を出力するようにしてもよい。

また、音声照合部１７は、発話音声の発声区間のうち、第１閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が、第１閾値条件が示す閾値Ｃ以下であると判定した場合、認識結果を出力するようにしてもよい。ここで、一例として、変換規則記憶部１３には、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の音素列「ｔ」「ｏ」「ｏ」に対応して第１閾値条件「９５」が格納されているものとする。また、音声照合部１７は、発話音声「とおとみ」と単語モデル「ｔｏｏｔｏｍｉ」との各時刻における類似度を算出したものとする。この場合、発話音声の発声区間のうち、第１閾値条件に対応付けられた音素列「ｔ」「ｏ」「ｏ」に対応する区間の各時刻における類似度が、第１閾値条件が示す閾値「９５」以上であった場合、音声照合部１７は、ユーザが認識単語「とよとみ」を発声した場合に発話音声が「とおとみ」となったのではなく、ユーザが認識単語「とよとみ」以外の単語「とおとみ」を明りょうに発声しているものと判定する。したがって、このような場合、音声照合部１７は、発話音声「とおとみ」を棄却する。

[実施の形態２]
図９は、本実施形態に係る音声認識装置２の概略構成を示すブロック図である。すなわち、本実施形態に係る音声認識装置２は、図１に示す変換規則記憶部１３の代わりに、変換規則記憶部２１〜２３を備えている。なお、図９では、説明の簡略化のために、変換規則記憶部２１〜２３を３つ図示したが、音声認識装置２を構成する変換規則記憶部の数は任意である。また、本実施形態に係る音声認識装置２は、図１に示す音素列変換部１４の代わりに、音素列変換部２４を備えている。なお、図９において、図１と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。

変換規則記憶部２１〜２３は、図１に示す変換規則記憶部１３と同様、読みと音素との変換規則、および、読みと音素列との変換規則の少なくとも１つを格納する。また、変換規則記憶部２１〜２３は、図１に示す変換規則記憶部１３と同様、音素または音素列に対応付けられた第１閾値条件を格納する。変換規則記憶部２１〜２３は、第１閾値条件が示す条件毎に複数備えられている。本実施形態においては、変換規則記憶部２１には、図１０（ａ）に示すように、第１閾値条件「なし」（図中、「−」）に対応付けられた変換規則が格納されている。なお、変換規則記憶部２１には、例えば、「み」⇔「ｍ」「ｉ」のように、通常の変換規則が格納されている。また、変換規則記憶部２２には、図１０（ｂ）に示すように、第１閾値条件「７０」に対応付けられた変換規則が格納されている。なお、変換規則記憶部２２には、人間が認識単語「とよとみ」を発声した場合における曖昧になり易い音素を含む音素列の変換規則が格納されている。さらに、変換規則記憶部２３には、図１０（ｃ）に示すように、第１閾値条件「８０」に対応付けられた変換規則が格納されている。なお、変換規則記憶部２３には、人間が認識単語「とよとみ」を発声した場合における稀に曖昧となる音素を含む音素列の変換規則が格納されている。

なお、図９では、変換規則記憶部２１〜２３は、それぞれ異なるハードウェアで構成されている例を示したが、これに限定されない。例えば、変換規則記憶部２１〜２３は、同一のハードウェア内の異なる領域にそれぞれ構成されていてもよい。

音素列変換部２４は、認識単語記憶部１２に格納されている認識単語の読みの数に基づいて、複数の変換規則記憶部２１〜２３から認識単語の読みを音素列に変換するために使用する変換規則記憶部を選択する。本実施形態においては、音素列変換部２４は、認識単語の読みの数が１０００以上であれば、変換規則記憶部２１，２２を選択する。一方、音素列変換部２４は、認識単語の読みの数が１０００未満であれば、全ての変換規則記憶部２１〜２３を選択する。音声照合部２４は、選択した変換規則記憶部に格納されている変換規則に従って、認識単語記憶部１２に格納されている認識単語の読みを音素列に変換する。

以上のように、本実施形態に係る音声認識装置２によれば、例えば、認識単語の読みの数が１０００以上のように多ければ、音素列変換部２４は、最低限の変換規則記憶部２１，２２を使用して認識単語の読みを音素列に変換することが可能となる。それゆえ、音声照合部１７による照合速度の低下を抑えることができる。一方、例えば、認識単語の読みの数が１０００未満のように少なければ、音素列変換部２４は、全ての変換規則記憶部２１〜２３を使用して認識単語の読みを音素列に変換することが可能となる。それゆえ、音声照合部１７は、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を確実に認識することができる。

[実施の形態３]
図１１は、本実施形態に係る音声認識装置３の概略構成を示すブロック図である。すなわち、本実施形態に係る音声認識装置３は、図１に示す音声認識装置１に加えて、変換規則計数部３１、使用頻度算出部３２、および、第１閾値条件更新部３４を備えている。また、本実施形態に係る音声認識装置３は、図１に示す変換規則記憶部１３の代わりに、変換規則記憶部３３を備えている。なお、上記の変換規則計数部３１、使用頻度算出部３２、および、第１閾値条件更新部３４は、コンピュータのＣＰＵがこの機能を実現するプログラムに従って動作することによっても具現化される。なお、図１１において、図１と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。

変換規則計数部３１は、音声照合部１７により出力された認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則を計数する。例えば、音声照合部１７により出力された認識結果の認識単語が「とよとみ」であった場合、変換規則計数部３１は、単語モデル生成部１６を参照することによって、認識単語「とよとみ」に対応する単語モデル「ｔｏｏｔｏｍｉ」を抽出する。また、変換規則計数部３１は、単語モデル「ｔｏｏｔｏｍｉ」を生成するために使用した変換規則を計数する。本実施形態においては、変換規則計数部３１は、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」が「１」、変換規則「と」⇔「ｔ」「ｏ」が「１」、および、変換規則「み」⇔「ｍ」「ｉ」が「１」であると計数する。変換規則計数部３１は、計数した計数値を使用頻度算出部３２に出力する。なお、変換規則計数部３１は、音声照合部１７により出力された認識結果をそのまま外部に出力する。

使用頻度算出部３２は、変換規則計数部３１から出力された計数値を変換規則毎に変換規則記憶部３３に書き込む。ここで、変換規則計数部３１からさらに変換規則の計数値が出力された場合、使用頻度算出部３２は、変換規則記憶部３３に格納されている変換規則の計数値を抽出し、抽出した変換規則の計数値と、変換規則計数部３１から出力された変換規則の計数値との和（累積値）を算出する。使用頻度算出部３２は、算出した累積値を使用頻度とする。使用頻度算出部３２は、変換規則記憶部３３に格納されている計数値を算出した累積値に更新する。つまり、使用頻度算出部３２は、変換規則計数部３１から変換規則の計数値が出力される度に累積値を新たに算出し、変換規則記憶部３３に格納されている累積値を更新していく。なお、上記では、使用頻度算出部３２は、変換規則の累積値を使用頻度とする例について説明したが、これに限定されない。例えば、使用頻度算出部３２は、変換規則の累積値と、全ての変換規則の累積値の和との割合を使用頻度としてもよい。

変換規則記憶部３３は、図１に示す変換規則記憶部１３に格納されている変換規則、および、第１閾値条件に加えて、変換規則の使用頻度（累積値）を格納する。図１２は、変換規則記憶部３３に格納されるデータの内容の一例を示す図である。図１２に示すように、変換規則記憶部３３には、変換規則、第１閾値条件、および、変換規則の使用頻度が格納されている。例えば、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の使用頻度「１１」は、音声照合部１７により出力された認識結果の認識単語に対応する単語モデルを生成するために、音素列変換部１４が変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」を１１回使用したことを表している。

第１閾値条件更新部３４は、変換規則の使用頻度が境界条件より大きい場合、この変換規則の音素または音素列に対応付けられた第１閾値条件が低くなるように、第１閾値条件を更新する。また、第１閾値条件更新部３４は、変換規則の使用頻度が境界条件より小さい場合、この変換規則の音素または音素列に対応付けられた第１閾値条件が高くなるように、第１閾値条件を更新する。

具体的には、第１閾値条件更新部３４は、任意のタイミングで、変換規則記憶部３３に格納されている変換規則の使用頻度を抽出する。本実施形態においては、第１閾値条件更新部３４は、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の使用頻度「１１」を抽出したものとする。第１閾値条件更新部３４は、抽出した変換規則の使用頻度が境界条件より大きいか否かを判定する。なお、境界条件は、内部のメモリに予め記録されている。本実施形態においては、境界条件は「１０」であるものとする。本実施形態においては、第１閾値条件更新部３４は、抽出した変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の使用頻度「１１」が境界条件「１０」より大きいので、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の音素列「ｔ」「ｏ」「ｏ」に対応付けられた第１閾値条件「７０」が低くなるように、変換規則記憶部３３に格納されている第１閾値条件を更新する。図１３は、第１閾値条件更新部３４により更新された後の、変換規則記憶部３３に格納されるデータの内容の一例を示す図である。図１３に示すように、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の第１閾値条件は、第１閾値条件更新部３４によって、「７０」から「６５」へ更新されている。

一方、仮に、境界条件が「１５」であった場合、第１閾値条件更新部３４は、抽出した変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の使用頻度「１１」が境界条件「１５」より小さいので、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の音素列「ｔ」「ｏ」「ｏ」に対応付けられた第１閾値条件「７０」が高くなるように、変換規則記憶部３３に格納されている第１閾値条件を更新する。図１４は、第１閾値条件更新部３４により更新された後の、変換規則記憶部３３に格納されるデータの内容の一例を示す図である。図１４に示すように、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の第１閾値条件は、第１閾値条件更新部３４によって、「７０」から「７５」へ更新されている。

次に、上記の構成に係る音声認識装置３の動作について、図１５を参照しながら説明する。

図１５は、音声認識装置３の動作の一例を示すフローチャートである。すなわち、図１５に示すように、変換規則計数部３１は、図８に示す工程Ｏｐ８にて出力された認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則を計数する（工程Ｏｐ９）。使用頻度算出部３２は、工程Ｏｐ９にて計数された計数値を累積していくことにより、変換規則の使用頻度（累積値）を算出する（工程Ｏｐ１０）。使用頻度算出部３２は、算出した変換規則の使用頻度を変換規則記憶部３３に書き込む。

第１閾値条件更新部３４は、工程Ｏｐ１０にて算出された変換規則の使用頻度が境界条件より大きい場合（工程Ｏｐ１１にてＹＥＳ）、この変換規則の音素または音素列に対応付けられた第１閾値条件が低くなるように、第１閾値条件を更新する（工程Ｏｐ１２）。一方、第１閾値条件更新部３４は、工程Ｏｐ１０にて算出された変換規則の使用頻度が境界条件より小さい場合（工程Ｏｐ１１にてＮＯ）、この変換規則の音素または音素列に対応付けられた第１閾値条件が高くなるように、第１閾値条件を更新する（工程Ｏｐ１３）。

以上のように、本実施形態に係る音声認識装置３によれば、変換規則の使用頻度が高い場合、この変換規則は単語モデルを生成するために頻繁に使用されているので、第１閾値条件更新部３４は、第１閾値条件が低くなるように第１閾値条件を更新することが可能となる。これにより、音声認識装置３の認識率が向上する。一方、変換規則の使用頻度が低い場合、この変換規則は単語モデルを生成するために頻繁に使用されていないので、第１閾値条件更新部３４は、第１閾値条件が高くなるように第１閾値条件を更新することが可能となる。これにより、音声認識装置３の認識率が低下する。

[実施の形態４]
図１６は、本実施形態に係る音声認識装置４の概略構成を示すブロック図である。すなわち、本実施形態に係る音声認識装置４は、図１に示す音声認識装置１に加えて、入力部４１、変換規則計数部４２、使用頻度算出部４３、および、第１閾値条件更新部４５を備えている。また、本実施形態に係る音声認識装置４は、図１に示す変換規則記憶部１３の代わりに、変換規則記憶部４４を備えている。なお、上記の入力部４１、変換規則計数部４２、使用頻度算出部４３、および、第１閾値条件更新部４５は、コンピュータのＣＰＵがこの機能を実現するプログラムに従って動作することによっても具現化される。なお、図１６において、図１と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。

入力部４１は、音声照合部１７により出力された認識結果が誤っているか否かをユーザから受け付ける。本実施形態においては、入力部４１は、認識結果が誤っている場合に、認識結果が誤っていることをユーザから受け付ける。なお、入力部４１は、キーボード、マウス、テンキー、タッチパネルなどの任意の入力デバイスから構成される。

変換規則計数部４２は、認識結果が誤っていることをユーザから受け付けた場合、この認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則を計数する。例えば、認識結果「とよとみ」が誤っていることをユーザから受け付けた場合、変換規則計数部４２は、単語モデル生成部１６を参照することによって、認識単語「とよとみ」に対応する単語モデル「ｔｏｏｔｏｍｉ」を抽出する。また、変換規則計数部４１は、単語モデル「ｔｏｏｔｏｍｉ」を生成するために使用した変換規則を計数する。本実施形態においては、変換規則計数部４２は、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」が「１」、変換規則「と」⇔「ｔ」「ｏ」が「１」、および、変換規則「み」⇔「ｍ」「ｉ」が「１」であると計数する。変換規則計数部４２は、計数した計数値を使用頻度算出部４３に出力する。なお、変換規則計数部４２は、音声照合部１７により出力された認識結果をそのまま外部に出力する。

使用頻度算出部４３は、図１１に示す使用頻度算出部３２と同様、変換規則計数部４２から出力された計数値を変換規則毎に変換規則記憶部４４に書き込む。ここで、変換規則計数部４２からさらに変換規則の計数値が出力された場合、使用頻度算出部４３は、変換規則記憶部４４に格納されている変換規則の計数値を抽出し、抽出した変換規則の計数値と、変換規則計数部４２から出力された変換規則の計数値との和（累積値）を算出する。使用頻度算出部４３は、算出した累積値を使用頻度とする。使用頻度算出部４３は、変換規則記憶部４４に格納されている計数値を累積値に更新する。つまり、使用頻度算出部４３は、変換規則計数部４２から変換規則の計数値が出力される度に累積値を新たに算出し、変換規則記憶部４４に格納されている累積値を更新していく。

変換規則記憶部４４は、図１１に示す変換規則記憶部３３と同様、変換規則、第１閾値条件、および、変換規則の使用頻度（累積値）を格納する。図１７は、変換規則記憶部４４に格納されるデータの内容の一例を示す図である。例えば、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の使用頻度「６」は、認識結果が誤っていることをユーザから受け付けた場合における、この認識結果の認識単語に対応する単語モデルを生成するために、音素列変換部１４が変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」を６回使用したことを表している。

第１閾値条件更新部４５は、変換規則の使用頻度が境界条件より大きい場合、この変換規則の音素または音素列に対応付けられた第１閾値条件が高くなるように、第１閾値条件を更新する。また、第１閾値条件更新部４５は、変換規則の使用頻度が境界条件より小さい場合、この変換規則の音素または音素列に対応付けられた第１閾値条件が低くなるように、第１閾値条件を更新する。

具体的には、第１閾値条件更新部４５は、任意のタイミングで、変換規則記憶部４４に格納されている変換規則の使用頻度を抽出する。本実施形態においては、第１閾値条件更新部４５は、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の使用頻度「６」を抽出したものとする。第１閾値条件更新部４５は、抽出した変換規則の使用頻度が境界条件より大きいか否かを判定する。なお、境界条件は、内部のメモリに予め記録されている。本実施形態においては、境界条件は「５」であるものとする。この場合、第１閾値条件更新部４５は、抽出した変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の使用頻度「６」が境界条件「５」より大きいので、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の音素列「ｔ」「ｏ」「ｏ」に対応付けられた第１閾値条件「７０」が高くなるように、変換規則記憶部４４に格納されている第１閾値条件を更新する。図１８は、第１閾値条件更新部４５により更新された後の、変換規則記憶部４４に格納されるデータの内容の一例を示す図である。図１８に示すように、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の第１閾値条件は、第１閾値条件更新部４５によって、「７０」から「７５」へ更新されている。

一方、仮に、境界条件が「１０」であった場合、第１閾値条件更新部４５は、抽出した変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の使用頻度「６」が境界条件「１０」より小さいので、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の音素列「ｔ」「ｏ」「ｏ」に対応付けられた第１閾値条件「７０」が低くなるように、変換規則記憶部４４に格納されている第１閾値条件を更新する。図１９は、第１閾値条件更新部４５により更新された後の、変換規則記憶部４４に格納されるデータの内容の一例を示す図である。図１９に示すように、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の第１閾値条件は、第１閾値条件更新部４５によって、「７０」から「６５」へ更新されている。

次に、上記の構成に係る音声認識装置４の動作について、図２０を参照しながら説明する。

図２０は、音声認識装置４の動作の一例を示すフローチャートである。すなわち、図２０に示すように、入力部４１は、図８に示す工程Ｏｐ８にて出力された認識結果が誤っている場合に、認識結果が誤っていることをユーザから受け付ける（工程Ｏｐ１４）。変換規則計数部４２は、工程Ｏｐ１４にて受け付けた認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則を計数する（工程Ｏｐ１５）。使用頻度算出部４３は、工程Ｏｐ１５にて計数された計数値を累積していくことにより、変換規則の使用頻度（累積値）を算出する（工程Ｏｐ１６）。使用頻度算出部４３は、算出した変換規則の使用頻度を変換規則記憶部４４に書き込む。

第１閾値条件更新部４５は、工程Ｏｐ１６にて算出された変換規則の使用頻度が境界条件より大きい場合（工程Ｏｐ１７にてＹＥＳ）、この変換規則の音素または音素列に対応付けられた第１閾値条件が高くなるように、第１閾値条件を更新する（工程Ｏｐ１８）。一方、第１閾値条件更新部４５は、工程Ｏｐ１６にて算出された変換規則の使用頻度が境界条件より小さい場合（工程Ｏｐ１７にてＮＯ）、この変換規則の音素または音素列に対応付けられた第１閾値条件が低くなるように、第１閾値条件を更新する（工程Ｏｐ１９）。

以上のように、本実施形態に係る音声認識装置４によれば、変換規則の使用頻度が高い場合、この変換規則は認識単語が誤っている場合における単語モデルを生成するために頻繁に使用されているので、第１閾値条件更新部４５は、第１閾値条件が高くなるように第１閾値条件を更新することが可能となる。これにより、音声認識装置４の認識率が低下する。一方、変換規則の使用頻度が低い場合、この変換規則は認識単語が誤っている場合における単語モデルを生成するために頻繁に使用されていないので、第１閾値条件更新部４５は、第１閾値条件が低くなるように第１閾値条件を更新することが可能となる。これにより、音声認識装置４の認識率が向上する。

[実施の形態５]
図２１は、本実施形態に係る音声認識装置５の概略構成を示すブロック図である。すなわち、本実施形態に係る音声認識装置５は、図１に示す変換規則記憶部１３および音声照合部１７の代わりに、変換規則記憶部５１および音声照合部５２を備えている。なお、図２１において、図１と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。

変換規則記憶部５１は、図１に示す変換規則記憶部１３に格納されている変換規則、および、第１閾値条件に加えて、継続時間を格納する。図２２は、変換規則記憶部５１に格納されるデータの内容の一例を示す図である。図２２に示すように、変換規則記憶部５１には、変換規則、第１閾値条件、および、継続時間が格納されている。図２２に示す例では、変換規則記憶部５１には、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」の音素列「ｔ」「ｏ」「ｏ」に対応して継続時間「１５０」が格納されている。また、変換規則記憶部５１には、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」以外の変換規則の音素または音素列に対応して継続時間「なし」（図中、「−」）が格納されている。つまり、変換規則「とよ」⇔「ｔ」「ｏ」「ｏ」以外の変換規則の音素または音素列には、継続時間が設定されていない。なお、本実施形態においては、継続時間は、ｍｓ（ミリ秒）で表される。

音声照合部５２は、図１に示す音声照合部１７と同様、音声分析部１１により変換された特徴量と、単語モデル生成部１６により生成された単語モデルとを照合する。照合の結果、音声照合部５２は、音声分析部１１により変換された特徴量と、単語モデル生成部１６により生成された単語モデルとの各時刻における類似度を算出する。音声照合部５２は、単語モデル生成部１６により生成された単語モデルのうち、実施の形態１にて説明した上記の（１）〜（３）の全てを満たす単語モデルを抽出する。本実施形態においては、音声照合部５２は、単語モデル生成部１６により生成された単語モデルのうち、単語モデル「ｔｏｏｔｏｍｉ」を抽出したものとする。

また、音声照合部５２は、発話音声の発声区間のうち、継続時間に対応付けられた音素または音素列に対応する区間における発声時間が、継続時間以上であるか否かを判定する。具体的には、音声照合部５２は、まず、継続時間「１５０」に対応付けられた音素列「ｔ」「ｏ」「ｏ」を抽出する。音声照合部５２は、発話音声の発声区間のうち、抽出した音素列「ｔ」「ｏ」「ｏ」に対応する区間を特定する。この区間は、例えば、ビタビ（Viterbi）アルゴリズムを用いることにより特定される。図２３は、発話音声の発声区間のうち、音素列「ｔ」「ｏ」「ｏ」に対応する区間Ｖの一例を示した図である。図２３に示すように、音声照合部５２は、発話音声の発声区間のうち、音素列「ｔ」「ｏ」「ｏ」に対応する区間Ｖを特定する。音声照合部５２は、区間Ｖにおける発声時間を算出する。このため、音声照合部５２は、時刻計測機能を備えている。本実施形態においては、音声照合部５２は、区間Ｖにおける発声時間「１６０」（ｍｓ）を算出したものとする。

本実施形態においては、音声照合部５２は、区間Ｖにおける発声時間が継続時間以上であると判定する。つまり、本実施形態においては、区間Ｖにおける発声時間が継続時間以上であるので、音声照合部５２は、ユーザがゆっくりと発声しているものと判定する。すなわち、音声照合部５２は、ユーザが認識単語「とよとみ」を発声した場合に発話音声が「とおとみ」となったのではなく、ユーザが認識単語「とよとみ」以外の単語「とおとみ」を意識して発声しているものと判定する。したがって、音声照合部５２は、抽出した単語モデル「ｔｏｏｔｏｍｉ」を棄却する。

一方、仮に、音声照合部５２は、区間Ｖにおける発声時間が継続時間未満であると判定した場合、抽出した単語モデル「ｔｏｏｔｏｍｉ」に対応する認識単語「とよとみ」を認識結果として出力する。つまり、区間Ｖにおける発声時間が継続時間未満となった場合、音声照合部５２は、ユーザが早口で発声しているものと判定する。すなわち、音声照合部５２は、ユーザが認識単語「とよとみ」を発声した場合に発話音声が「とおとみ」となったものと判定する。したがって、音声照合部５２は、抽出した単語モデル「ｔｏｏｔｏｍｉ」に対応する認識単語「とよとみ」を出力する。

次に、上記の構成に係る音声認識装置５の動作について、図２４を参照しながら説明する。なお、図２４において、図８と同様の処理を示す部分については、同じ参照符号を付記し、その詳細な説明を省略する。

図２４は、音声認識装置５の動作の一例を示すフローチャートである。すなわち、工程Ｏｐ７において、音声照合部５２は、発話音声の発声区間のうち、第１閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が、第１閾値条件が示す閾値Ｃ以上であると判定した後（工程Ｏｐ７にてＹＥＳ）、発話音声の発声区間のうち、継続時間に対応付けられた音素または音素列に対応する区間における発声時間が、継続時間以上であるか否かを判定する（工程Ｏｐ２０）。

音声照合部５２は、発話音声の発声区間のうち、継続時間に対応付けられた音素または音素列に対応する区間における発声時間が、継続時間以上であると判定すれば（工程Ｏｐ２０にてＹＥＳ）、工程Ｏｐ２にて生成された単語モデルを棄却する（工程Ｏｐ２１）。一方、音声照合部５２は、発話音声の発声区間のうち、継続時間に対応付けられた音素または音素列に対応する区間における発声時間が、継続時間未満であると判定すれば（工程Ｏｐ２０にてＮＯ）、工程Ｏｐ２にて生成された単語モデルに対応する認識単語を認識結果として出力する（工程Ｏｐ２２）。

以上のように、本実施形態に係る音声認識装置５によれば、発話音声の発声区間のうち、継続時間に対応付けられた音素または音素列に対応する区間における発声時間が継続時間以上である場合、人間がゆっくりと発声している場合であるので、音声照合部５２は、単語モデルを抽出した場合であっても、抽出した単語モデルを棄却する。これにより、音声認識装置５による誤認識を防止することが可能となる。一方、発話音声の発声区間のうち、継続時間に対応付けられた音素または音素列に対応する区間における発声時間が継続時間未満である場合、人間が早口で発声している場合であるので、音声照合部５２は、抽出した単語モデルを認識結果として出力する。これにより、音声認識装置５は、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を認識することが可能となる。

以上のように、本発明は、変換規則に従って、認識単語の読みを音素列に変換し、変換した音素列に基づいて、標準パターン列である単語モデルを生成することによって、人間の発話音声を認識する音声認識装置、音声認識方法、または、音声認識プログラムとして有用である。

Claims

入力された発話音声を特徴量に変換する音声分析部と、
認識単語の読みを格納した認識単語記憶部と、
読みと音素との変換規則または読みと音素列との変換規則を格納した変換規則記憶部と、
前記変換規則記憶部に格納されている変換規則に従って、前記認識単語記憶部に格納されている認識単語の読みを音素列に変換する音素列変換部と、
音素がどのような特徴量になりやすいかをモデル化した標準パターンを格納した音素モデル記憶部と、
前記音素列変換部により変換された音素列に基づいて、前記音素モデル記憶部に格納されている標準パターンを抽出し、抽出した標準パターンを連結することによって、標準パターン列である単語モデルを生成する単語モデル生成部と、
前記音声分析部により変換された特徴量と、前記単語モデル生成部により生成された単語モデルとの各時刻における類似度を算出する音声照合部とを備え、
前記変換規則記憶部は、前記変換規則のうち少なくとも１つの変換規則の音素または音素列に対応付けられた第１閾値条件をさらに格納し、
前記音声照合部は、前記単語モデル生成部により生成された単語モデルのうち、前記各時刻における類似度の中で最小の類似度あるいは前記各時刻における類似度から得られる全体類似度が第２閾値条件を満たし、かつ、前記発話音声の発声区間のうち、前記第１閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が当該第１閾値条件を満たす単語モデルを抽出し、抽出した単語モデルに対応する認識単語を認識結果として出力する、音声認識装置。
前記変換規則記憶部は、前記第１閾値条件が示す条件毎に複数備えられており、
前記音素列変換部は、前記認識単語記憶部に格納されている認識単語の読みの数に基づいて、複数の変換規則記憶部から認識単語の読みを音素列に変換するために使用する変換規則記憶部を選択し、選択した変換規則記憶部に格納されている変換規則に従って、前記認識単語記憶部に格納されている認識単語の読みを音素列に変換する、請求項１に記載の音声認識装置。
前記音声照合部により出力された認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則の使用頻度を算出する使用頻度算出部と、
前記使用頻度算出部により算出された変換規則の使用頻度が境界条件より大きい場合、当該変換規則の音素または音素列に対応付けられた第１閾値条件が低くなるように、当該第１閾値条件を更新し、前記使用頻度算出部により算出された変換規則の使用頻度が境界条件より小さい場合、当該変換規則の音素または音素列に対応付けられた第１閾値条件が高くなるように、当該第１閾値条件を更新する第１閾値条件更新部とをさらに備える、請求項１に記載の音声認識装置。
前記音声照合部により出力された認識結果が誤っているか否かをユーザから受け付ける入力部と、
前記入力部が前記音声照合部により出力された認識結果が誤っていることをユーザから受け付けた場合、当該認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則の使用頻度を算出する使用頻度算出部と、
前記使用頻度算出部により算出された変換規則の使用頻度が境界条件より大きい場合、当該変換規則の音素または音素列に対応付けられた第１閾値条件が高くなるように、当該第１閾値条件を更新し、前記使用頻度算出部により算出された変換規則の使用頻度が境界条件より小さい場合、当該変換規則の音素または音素列に対応付けられた第１閾値条件が低くなるように、当該第１閾値条件を更新する第１閾値条件更新部とをさらに備える、請求項１に記載の音声認識装置。
前記変換規則記憶部は、前記変換規則の音素または音素列に対応付けられた継続時間をさらに格納し、
前記音声照合部は、前記発話音声の発声区間のうち、前記継続時間に対応付けられた音素または音素列に対応する区間における発声時間が、前記継続時間以上であるか否かを判定し、前記区間における発声時間が前記継続時間以上であると判定した場合、抽出した単語モデルを棄却し、前記区間における発声時間が前記継続時間未満であると判定した場合、抽出した単語モデルに対応する認識単語を認識結果として出力する、請求項１に記載の音声認識装置。
コンピュータが備える音声分析部が、入力された発話音声を特徴量に変換する音声分析工程と、
前記コンピュータが備える音素列変換部が、読みと音素との変換規則または読みと音素列との変換規則を格納した変換規則記憶部に格納されている変換規則に従って、認識単語の読みを格納した認識単語記憶部に格納されている認識単語の読みを音素列に変換する音素列変換工程と、
前記コンピュータが備える単語モデル生成部が、前記音素列変換工程により変換された音素列に基づいて、音素がどのような特徴量になりやすいかをモデル化した標準パターンを格納した音素モデル記憶部に格納されている標準パターンを抽出し、抽出した標準パターンを連結することによって、標準パターン列である単語モデルを生成する単語モデル生成工程と、
前記コンピュータが備える音声照合部が、前記音声分析工程により変換された特徴量と、前記単語モデル生成工程により生成された単語モデルとの各時刻における類似度を算出する音声照合工程とを含み、
前記変換規則記憶部は、前記変換規則のうち少なくとも１つの変換規則の音素または音素列に対応付けられた第１閾値条件をさらに格納し、
前記音声照合工程は、前記単語モデル生成工程により生成された単語モデルのうち、前記各時刻における類似度の中で最小の類似度あるいは前記各時刻における類似度から得られる全体類似度が第２閾値条件を満たし、かつ、前記発話音声の発声区間のうち、前記第１閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が当該第１閾値条件を満たす単語モデルを抽出し、抽出した単語モデルに対応する認識単語を認識結果として出力する、音声認識方法。
入力された発話音声を特徴量に変換する音声分析処理と、
読みと音素との変換規則または読みと音素列との変換規則を格納した変換規則記憶部に格納されている変換規則に従って、認識単語の読みを格納した認識単語記憶部に格納されている認識単語の読みを音素列に変換する音素列変換処理と、
前記音素列変換処理により変換された音素列に基づいて、音素がどのような特徴量になりやすいかをモデル化した標準パターンを格納した音素モデル記憶部に格納されている標準パターンを抽出し、抽出した標準パターンを連結することによって、標準パターン列である単語モデルを生成する単語モデル生成処理と、
前記音声分析処理により変換された特徴量と、前記単語モデル生成処理により生成された単語モデルとの各時刻における類似度を算出する音声照合処理とをコンピュータに実行させ、
前記変換規則記憶部は、前記変換規則のうち少なくとも１つの変換規則の音素または音素列に対応付けられた第１閾値条件をさらに格納し、
前記音声照合処理は、前記単語モデル生成処理により生成された単語モデルのうち、前記各時刻における類似度の中で最小の類似度あるいは前記各時刻における類似度から得られる全体類似度が第２閾値条件を満たし、かつ、前記発話音声の発声区間のうち、前記第１閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が当該第１閾値条件を満たす単語モデルを抽出し、抽出した単語モデルに対応する認識単語を認識結果として出力する処理を前記コンピュータに実行させる、音声認識プログラム。