JPWO2009008055A1 - 音声認識装置、音声認識方法、および、音声認識プログラム - Google Patents

音声認識装置、音声認識方法、および、音声認識プログラム Download PDF

Info

Publication number
JPWO2009008055A1
JPWO2009008055A1 JP2009522448A JP2009522448A JPWO2009008055A1 JP WO2009008055 A1 JPWO2009008055 A1 JP WO2009008055A1 JP 2009522448 A JP2009522448 A JP 2009522448A JP 2009522448 A JP2009522448 A JP 2009522448A JP WO2009008055 A1 JPWO2009008055 A1 JP WO2009008055A1
Authority
JP
Japan
Prior art keywords
phoneme
word
conversion rule
unit
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009522448A
Other languages
English (en)
Other versions
JP4973731B2 (ja
Inventor
原田 将治
将治 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2009008055A1 publication Critical patent/JPWO2009008055A1/ja
Application granted granted Critical
Publication of JP4973731B2 publication Critical patent/JP4973731B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

音声認識装置(1)は、音声分析部(11)により変換された特徴量と、単語モデル生成部(16)により生成された単語モデルとの各時刻における類似度を算出する音声照合部(17)を備える。音声照合部(17)は、単語モデル生成部(16)により生成された単語モデルのうち、各時刻における類似度の中で最小の類似度あるいは各時刻における類似度から得られる全体類似度が第2閾値条件を満たし、かつ、発話音声の発声区間のうち、第1閾値条件に対応付けられた音素または音素列に対応する区間内の各時刻における類似度が第1閾値条件を満たす単語モデルを抽出し、抽出した単語モデルに対応する認識単語を認識結果として出力する。

Description

本発明は、変換規則に従って、認識単語の読みを音素列に変換し、変換した音素列に基づいて、標準パターン列である単語モデルを生成することによって、人間の発話音声を認識する音声認識装置、音声認識方法、および、音声認識プログラムに関する。
一般に、音声認識装置は、認識単語記憶部に格納された認識単語の読みを音素列に変換し、変換した音素列から標準パターン列である単語モデルを生成することによって、人間の発話音声を認識する機能を有している。具体的には、音声認識装置は、読みと音素との変換規則または読みと音素列との変換規則に従って、認識単語の読みを音素列に変換する。音声認識装置は、変換した音声列から標準パターン列である単語モデルを生成する。音声認識装置は、入力された発話音声と生成された単語モデルとの各時刻における類似度を算出する。音声認識装置は、生成された単語モデルのうち、各時刻における類似度が閾値以上の単語モデルを抽出する。音声認識装置は、抽出した単語モデルに対応する認識単語を認識結果として出力する(例えば、特開昭62−116999号公報、特開昭63−5395号公報、特開平01−302295号公報、または、特開平08−248979号公報参照)。
ところで、人間は、一般に、発話音声の全ての音素を明りょうに発声するものではない。つまり、人間の発話音声には、曖昧な音素が含まれている。特に、人間が早口で発声すると、人間の発話音声には、曖昧な音素が含まれ易くなる。このため、人間が認識単語を発声した場合であっても、音声認識装置は、人間の発声を認識することができない場合があるという問題があった。
一例として、音声認識装置の認識単語記憶部には、認識単語の読み「とよとみ」が格納されていたものとする。この場合、音声認識装置は、変換規則に従って、認識単語の読み「とよとみ」を音素列「toyotomi」に変換する。なお、変換規則は、「と⇔to」、「よ⇔yo」、「み⇔mi」である。音声認識装置は、変換した音素列「toyotomi」から標準パターン列である「toyotomi」の単語モデルを生成する。ここで、人間が認識単語「とよとみ」を発声した場合、発声した「とよとみ」における「よ」が曖昧な発声であったため、音声認識装置では、「とよとみ」における「よ」(音素:yo)が、音素「y」が省略された「お」(音素:o)であると判定し、この結果、発話音声が「とおとみ」であると判定したものとする。音声認識装置は、発話音声「とおとみ」における「お」と、単語モデル「toyotomi」における「yo」との各時刻における類似度が閾値以下になった場合、発話音声「とおとみ」を認識することができない。
このような問題を解決するため、従来の音声認識装置では、認識単語の読みから予め曖昧になり易い音素を含む音素列を変換規則に追加することが行われている。上記の例では、変換規則として、「と⇔to」、「よ⇔yo」、「み⇔mi」に加えて、「とよ⇔too」を追加する。これにより、音声認識装置は、認識単語の読み「とよとみ」を音素列「toyotomi」および音素列「tootomi」に変換する。音声認識装置は、変換した音素列「toyotomi」から標準パターン列である「toyotomi」の単語モデル、および、変換した音素列「tootomi」から標準パターン列である「tootomi」の単語モデルを生成する。それゆえ、音声認識装置は、発話音声が「とおとみ」であると判定した場合であっても、発話音声「とおとみ」と単語モデル「tootomi」との各時刻における類似度が閾値以上となるので、発話音声「とおとみ」を「とよとみ」として認識することが可能となる。
しかしながら、上記従来の音声認識装置では、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声は認識することが可能となるが、人間が認識単語以外の単語を発声した場合であっても、この単語を認識単語として誤認識することがあった。すなわち、上記従来の音声認識装置では、認識単語の読みから予め曖昧になり易い音素を含む音素列を変換規則に追加しているからである。
具体的には、上記従来の音声認識装置では、人間が認識単語「とよとみ」を発声した場合における曖昧な音素が含まれた発話音声「とおとみ」は認識することが可能となる。しかし、上記従来の音声認識装置では、人間が認識単語「とよとみ」以外の単語「ともとみ」を発声した場合、発話音声「ともとみ」と単語モデル「tootomi」との各時刻における類似度が閾値以上となることがあり、この場合、発話音声「ともとみ」を「とよとみ」として誤認識してしまう。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を認識しつつ、人間が認識単語以外の単語を発声した場合、この単語を認識単語として誤認識することを防止することが可能な音声認識装置、音声認識方法、および、音声認識プログラムを提供することにある。
上記目的を達成するために本発明における音声認識装置は、入力された発話音声を特徴量に変換する音声分析部と、認識単語の読みを格納した認識単語記憶部と、読みと音素との変換規則または読みと音素列との変換規則を格納した変換規則記憶部と、前記変換規則記憶部に格納されている変換規則に従って、前記認識単語記憶部に格納されている認識単語の読みを音素列に変換する音素列変換部と、音素がどのような特徴量になりやすいかをモデル化した標準パターンを格納した音素モデル記憶部と、前記音素列変換部により変換された音素列に基づいて、前記音素モデル記憶部に格納されている標準パターンを抽出し、抽出した標準パターンを連結することによって、標準パターン列である単語モデルを生成する単語モデル生成部と、前記音声分析部により変換された特徴量と、前記単語モデル生成部により生成された単語モデルとの各時刻における類似度を算出する音声照合部とを備え、前記変換規則記憶部は、前記変換規則のうち少なくとも1つの変換規則の音素または音素列に対応付けられた第1閾値条件をさらに格納し、前記音声照合部は、前記単語モデル生成部により生成された単語モデルのうち、前記各時刻における類似度の中で最小の類似度あるいは前記各時刻における類似度から得られる全体類似度が第2閾値条件を満たし、かつ、前記発話音声の発声区間のうち、前記第1閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が当該第1閾値条件を満たす単語モデルを抽出し、抽出した単語モデルに対応する認識単語を認識結果として出力する。
人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を認識できるように前記第1閾値条件を設定し、かつ、人間が認識単語以外の単語を発声した場合、この単語を棄却できるように前記第1閾値条件を設定することで、本発明の音声認識装置は、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を認識しつつ、人間が認識単語以外の単語を発声した場合、この単語を認識単語として誤認識することを防止することが可能となる。例えば、音声照合部は、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声の特徴量と、生成された単語モデルとの各時刻における類似度を算出したものとする。この場合、音声照合部は、生成された単語モデルのうち、各時刻における類似度の中で最小の類似度あるいは各時刻における類似度から得られる全体類似度が第2閾値条件を満たし、かつ、発話音声の発声区間のうち、第1閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が当該第1閾値条件を満たす単語モデルを抽出する。これにより、音声照合部は、抽出した単語モデルに対応する認識単語を認識結果として出力することが可能となる。一方、例えば、音声照合部は、人間が認識単語以外の単語を発声した場合におけるこの単語の特徴量と、生成された単語モデルとの各時刻における類似度を算出したものとする。この場合、発話音声の発声区間のうち、第1閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が当該第1閾値条件を満たす単語モデルは存在しない。このため、音声照合部は、単語モデルを抽出しない。これにより、人間が認識単語以外の単語を発声した場合、音声照合部は、この単語を棄却することが可能となる。
上記本発明における音声認識装置においては、前記変換規則記憶部は、前記第1閾値条件が示す条件毎に複数備えられており、前記音素列変換部は、前記認識単語記憶部に格納されている認識単語の読みの数に基づいて、複数の変換規則記憶部から認識単語の読みを音素列に変換するために使用する変換規則記憶部を選択し、選択した変換規則記憶部に格納されている変換規則に従って、前記認識単語記憶部に格納されている認識単語の読みを音素列に変換する態様とするのが好ましい。
上記構成によれば、音素列変換部は、認識単語の読みの数に基づいて、複数の変換規則記憶部から認識単語の読みを音素列に変換するために使用する変換規則記憶部を選択する。例えば、認識単語の読みの数が1000以上のように多ければ、音素列変換部は、条件が低い第1閾値条件が格納された変換規則記憶部のみを選択する。つまり、条件が低い第1閾値条件が格納された変換規則記憶部には、通常、人間が認識単語を発声した場合における曖昧になり易い音素を含む音素列の変換規則が格納されているからである。なお、条件が高い第1閾値条件が格納された変換規則記憶部には、通常、人間が認識単語を発声した場合における稀に曖昧となる音素を含む音素列の変換規則が格納されている。一方、例えば、認識単語の読みの数が1000未満のように少なければ、音素列変換部は、全ての変換規則記憶部を選択する。音素列変換部は、選択した変換規則記憶部に格納されている変換規則に従って、認識単語の読みを音素列に変換する。これにより、例えば、認識単語の読みの数が多ければ、音素列変換部は、最低限の変換規則記憶部を使用して認識単語の読みを音素列に変換することが可能となる。それゆえ、音声照合部による照合速度の低下を抑えることができる。一方、例えば、認識単語の読みの数が少なければ、音素列変換部は、全ての変換規則記憶部を使用して認識単語の読みを音素列に変換することが可能となる。それゆえ、音声照合部は、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を確実に認識することができる。
上記本発明における音声認識装置においては、前記音声照合部により出力された認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則の使用頻度を算出する使用頻度算出部と、前記使用頻度算出部により算出された変換規則の使用頻度が境界条件より大きい場合、当該変換規則の音素または音素列に対応付けられた第1閾値条件が低くなるように、当該第1閾値条件を更新し、前記使用頻度算出部により算出された変換規則の使用頻度が境界条件より小さい場合、当該変換規則の音素または音素列に対応付けられた第1閾値条件が高くなるように、当該第1閾値条件を更新する第1閾値条件更新部とをさらに備える態様とするのが好ましい。
上記構成によれば、使用頻度算出部は、認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則の使用頻度を算出する。第1閾値条件更新部は、変換規則の使用頻度が境界条件より大きい場合、この変換規則の音素または音素列に対応付けられた第1閾値条件が低くなるように、この第1閾値条件を更新する。つまり、変換規則の使用頻度が高い場合、この変換規則は単語モデルを生成するために頻繁に使用されているので、第1閾値条件更新部は、第1閾値条件が低くなるように第1閾値条件を更新することが可能となる。これにより、音声認識装置の認識率が向上する。一方、第1閾値条件更新部は、変換規則の使用頻度が境界条件より小さい場合、この変換規則の音素または音素列に対応付けられた第1閾値条件が高くなるように、この第1閾値条件を更新する。つまり、変換規則の使用頻度が低い場合、この変換規則は単語モデルを生成するために頻繁に使用されていないので、第1閾値条件更新部は、第1閾値条件が高くなるように第1閾値条件を更新することが可能となる。これにより、音声認識装置の認識率が低下する。
上記本発明における音声認識装置においては、前記音声照合部により出力された認識結果が誤っているか否かをユーザから受け付ける入力部と、前記入力部が前記音声照合部により出力された認識結果が誤っていることをユーザから受け付けた場合、当該認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則の使用頻度を算出する使用頻度算出部と、前記使用頻度算出部により算出された変換規則の使用頻度が境界条件より大きい場合、当該変換規則の音素または音素列に対応付けられた第1閾値条件が高くなるように、当該第1閾値条件を更新し、前記使用頻度算出部により算出された変換規則の使用頻度が境界条件より小さい場合、当該変換規則の音素または音素列に対応付けられた第1閾値条件が低くなるように、当該第1閾値条件を更新する第1閾値条件更新部とをさらに備える態様とするのが好ましい。
上記構成によれば、入力部は、音声照合部により出力された認識結果が誤っているか否かをユーザから受け付ける。使用頻度算出部は、入力部が音声照合部により出力された認識結果が誤っていることをユーザから受け付けた場合、この認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則の使用頻度を算出する。第1閾値条件更新部は、変換規則の使用頻度が境界条件より大きい場合、この変換規則の音素または音素列に対応付けられた第1閾値条件が高くなるように、この第1閾値条件を更新する。つまり、変換規則の使用頻度が高い場合、この変換規則は認識単語が誤っている場合における単語モデルを生成するために頻繁に使用されているので、第1閾値条件更新部は、第1閾値条件が高くなるように第1閾値条件を更新することが可能となる。これにより、音声認識装置の認識率が低下する。一方、第1閾値条件更新部は、変換規則の使用頻度が境界条件より小さい場合、この変換規則の音素または音素列に対応付けられた第1閾値条件が低くなるように、第1閾値条件を更新する。つまり、変換規則の使用頻度が低い場合、この変換規則は認識単語が誤っている場合における単語モデルを生成するために頻繁に使用されていないので、第1閾値条件更新部は、第1閾値条件が低くなるように第1閾値条件を更新することが可能となる。これにより、音声認識装置の認識率が向上する。
上記本発明における音声認識装置においては、前記変換規則記憶部は、前記変換規則の音素または音素列に対応付けられた継続時間をさらに格納し、前記音声照合部は、前記発話音声の発声区間のうち、前記継続時間に対応付けられた音素または音素列に対応する区間における発声時間が、前記継続時間以上であるか否かを判定し、前記区間における発声時間が前記継続時間以上であると判定した場合、抽出した単語モデルを棄却し、前記区間における発声時間が前記継続時間未満であると判定した場合、抽出した単語モデルに対応する認識単語を認識結果として出力する態様とするのが好ましい。
上記構成によれば、音声照合部は、発話音声の発声区間のうち、継続時間に対応付けられた音素または音素列に対応する区間における発声時間が、継続時間以上であると判定した場合、抽出した単語モデルを棄却する。つまり、前記区間における発声時間が継続時間以上である場合、人間がゆっくりと発声している場合であるので、音声照合部は、単語モデルを抽出した場合であっても、抽出した単語モデルを棄却する。これにより、音声認識装置による誤認識を防止することが可能となる。一方、音声照合部は、発話音声の発声区間のうち、継続時間に対応付けられた音素または音素列に対応する区間における発声時間が、継続時間未満であると判定した場合、抽出した単語モデルに対応する認識単語を認識結果として出力する。つまり、前記区間における発声時間が継続時間未満である場合、人間が早口で発声している場合であるので、音声照合部は、抽出した単語モデルを認識結果として出力する。これにより、音声認識装置は、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を認識することが可能となる。
上記目的を達成するために本発明における音声認識方法は、コンピュータが備える音声分析部が、入力された発話音声を特徴量に変換する音声分析工程と、前記コンピュータが備える音素列変換部が、読みと音素との変換規則または読みと音素列との変換規則を格納した変換規則記憶部に格納されている変換規則に従って、認識単語の読みを格納した認識単語記憶部に格納されている認識単語の読みを音素列に変換する音素列変換工程と、前記コンピュータが備える単語モデル生成部が、前記音素列変換工程により変換された音素列に基づいて、音素がどのような特徴量になりやすいかをモデル化した標準パターンを格納した音素モデル記憶部に格納されている標準パターンを抽出し、抽出した標準パターンを連結することによって、標準パターン列である単語モデルを生成する単語モデル生成工程と、前記コンピュータが備える音声照合部が、前記音声分析工程により変換された特徴量と、前記単語モデル生成工程により生成された単語モデルとの各時刻における類似度を算出する音声照合工程とを含み、前記変換規則記憶部は、前記変換規則のうち少なくとも1つの変換規則の音素または音素列に対応付けられた第1閾値条件をさらに格納し、前記音声照合工程は、前記単語モデル生成工程により生成された単語モデルのうち、前記各時刻における類似度の中で最小の類似度あるいは前記各時刻における類似度から得られる全体類似度が第2閾値条件を満たし、かつ、前記発話音声の発声区間のうち、前記第1閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が当該第1閾値条件を満たす単語モデルを抽出し、抽出した単語モデルに対応する認識単語を認識結果として出力する。
上記目的を達成するために本発明における音声認識プログラムは、入力された発話音声を特徴量に変換する音声分析処理と、読みと音素との変換規則または読みと音素列との変換規則を格納した変換規則記憶部に格納されている変換規則に従って、認識単語の読みを格納した認識単語記憶部に格納されている認識単語の読みを音素列に変換する音素列変換処理と、前記音素列変換処理により変換された音素列に基づいて、音素がどのような特徴量になりやすいかをモデル化した標準パターンを格納した音素モデル記憶部に格納されている標準パターンを抽出し、抽出した標準パターンを連結することによって、標準パターン列である単語モデルを生成する単語モデル生成処理と、前記音声分析処理により変換された特徴量と、前記単語モデル生成処理により生成された単語モデルとの各時刻における類似度を算出する音声照合処理とをコンピュータに実行させ、前記変換規則記憶部は、前記変換規則のうち少なくとも1つの変換規則の音素または音素列に対応付けられた第1閾値条件をさらに格納し、前記音声照合処理は、前記単語モデル生成処理により生成された単語モデルのうち、前記各時刻における類似度の中で最小の類似度あるいは前記各時刻における類似度から得られる全体類似度が第2閾値条件を満たし、かつ、前記発話音声の発声区間のうち、前記第1閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が当該第1閾値条件を満たす単語モデルを抽出し、抽出した単語モデルに対応する認識単語を認識結果として出力する処理を前記コンピュータに実行させる。
なお、本発明における音声認識方法、および、音声認識プログラムは、上記の音声認識装置と同様の効果を得る。
以上のように、本発明の音声認識装置、音声認識方法、および、音声認識プログラムは、人間が認識単語を発声した場合における曖昧な発話音声は認識しつつ、人間が認識単語以外の単語を発声した場合、その単語を認識単語として誤認識することを防止することが可能であるという効果を奏する。
図1は、本発明の第1の実施形態に係る音声認識装置の概略構成を示すブロック図である。 図2は、上記音声認識装置における認識単語記憶部のデータの内容の一例を示す図である。 図3は、上記音声認識装置における変換規則記憶部のデータの内容の一例を示す図である。 図4は、上記音声認識装置における変換規則記憶部のデータの内容の他の例を示す図である。 図5は、上記音声認識装置における音素モデル記憶部のデータの内容の一例を示す図である。 図6は、特徴量「とおとみ」と単語モデル「tootomi」との各時刻における類似度を概略的に示した図である。 図7は、特徴量「ともとみ」と単語モデル「tootomi」との各時刻における類似度を概略的に示した図である。 図8は、上記音声認識装置の動作の一例を示すフローチャートである。 図9は、本発明の第2の実施形態に係る音声認識装置の概略構成を示すブロック図である。 図10は、上記音声認識装置における変換規則記憶部のデータの内容の一例をそれぞれ示す図である。 図11は、本発明の第3の実施形態に係る音声認識装置の概略構成を示すブロック図である。 図12は、上記音声認識装置における変換規則記憶部のデータの内容の一例を示す図である。 図13は、上記音声認識装置における第1閾値条件更新部により更新された後の、上記変換規則記憶部に格納されるデータの内容の一例を示す図である。 図14は、上記音声認識装置における第1閾値条件更新部により更新された後の、上記変換規則記憶部に格納されるデータの内容の一例を示す図である。 図15は、上記音声認識装置の動作の一例を示すフローチャートである。 図16は、本発明の第4の実施形態に係る音声認識装置の概略構成を示すブロック図である。 図17は、上記音声認識装置における変換規則記憶部のデータの内容の一例を示す図である。 図18は、上記音声認識装置における第1閾値条件更新部により更新された後の、上記変換規則記憶部に格納されるデータの内容の一例を示す図である。 図19は、上記音声認識装置における第1閾値条件更新部により更新された後の、上記変換規則記憶部に格納されるデータの内容の一例を示す図である。 図20は、上記音声認識装置の動作の一例を示すフローチャートである。 図21は、本発明の第5の実施形態に係る音声認識装置の概略構成を示すブロック図である。 図22は、上記音声認識装置における変換規則記憶部のデータの内容の一例を示す図である。 図23は、音素列「t」「o」「o」の標準パターン列に対応する発話音声の発声区間Vの一例を示した図である。 図24は、上記音声認識装置の動作の一例を示すフローチャートである。
以下、本発明のより具体的な実施形態について図面を参照しながら詳細に説明する。
[実施の形態1]
図1は、本実施形態に係る音声認識装置1の概略構成を示すブロック図である。図1に示す音声認識装置1は、例えば、音声対話アプリケーションなどの上位プログラムからユーザの発話音声が渡され、その認識結果を上位プログラムへ返す音声認識エンジンとして使用される。また、音声認識装置1は、例えば、パーソナルコンピュータ、サーバマシンなどの汎用コンピュータによって構成される。なお、音声認識装置1は、例えば、車載情報端末、携帯電話、家電製品などの電子機器に組み込まれたコンピュータによって構成されていてもよい。
すなわち、本実施形態に係る音声認識装置1は、音声分析部11、認識単語記憶部12、変換規則記憶部13、音素列変換部14、音素モデル記憶部15、単語モデル生成部16、および、音声照合部17を備えている。
音声分析部11は、入力された発話音声をフレーム毎の特徴量に変換する。特徴量には、MFCC、LPCケプストラムやパワー、それらの一次や二次の回帰係数の他、それらの値を主成分分析や判別分析により次元圧縮したものなどの多次元ベクトルが使用されることが多いが、ここでは特に限定しない。変換された特徴量は、各フレームに固有の情報(フレーム固有情報)と共に、内部のメモリに記録される。なお、フレーム固有情報は、例えば、各フレームが先頭から何番目のフレームであるかを示すフレーム番号や、各フレームの開始時点、終了時点、パワーなどを表すデータである。
認識単語記憶部12は、複数の認識単語の読みを格納する。図2は、認識単語記憶部12に格納されるデータの内容の一例を示す図である。図2に示すように、認識単語記憶部12には、認識単語の読みが格納されている。例えば、音声認識装置1のユーザが、単語の読みデータを記録した記録媒体を音声認識装置1に読み取らせることによって、認識単語記憶部12には、上記の認識単語の読みが格納される。
変換規則記憶部13は、読みと音素との変換規則、および、読みと音素列との変換規則の少なくとも1つを格納する。また、変換規則記憶部13は、変換規則のうち少なくとも1つの変換規則の音素または音素列に対応付けられた第1閾値条件を格納する。図3は、変換規則記憶部13に格納されるデータの内容の一例を示す図である。図3に示すように、変換規則記憶部13には、変換規則、および、第1閾値条件が格納されている。図3に示す例では、変換規則記憶部13には、変換規則「とよ」⇔「t」「o」「o」の音素列「t」「o」「o」に対応して第1閾値条件「70」が格納されている。また、変換規則記憶部13には、変換規則「とよ」⇔「t」「o」「o」以外の変換規則の音素または音素列に対応して第1閾値条件「なし」(図中、「−」)が格納されている。つまり、変換規則「とよ」⇔「t」「o」「o」以外の変換規則の音素または音素列には、第1閾値条件が設定されていない。なお、第1閾値条件は、音声照合部17が認識単語を認識結果として出力するための条件を示す。
ここで、本実施形態においては、変換規則記憶部13に格納されている変換規則および第1閾値条件は、音声認識装置1の管理者(例えば、音声認識装置1を製造するメーカーの人間)により予め設定されている。本実施形態においては、音声認識装置1の管理者は、経験則に基づいて変換規則記憶部13に第1閾値条件を設定しているが、例えば、音素の照合精度に基づいて変換規則記憶部13に第1閾値条件を設定してもよい。具体的には、まず、音声認識装置1の管理者は、音素毎に音素の照合精度を予め調査しておく。なお、音素の照合精度は、音声認識装置1において音素が正しく認識できる度合であって、統計的なデータとなる。例えば、音素「m」と音素「n」とは人間の発音がよく似ているので、音声認識装置1において、音素「m」が音素「n」に誤認識し易く、また、音素「n」が音素「m」に誤認識し易い。それゆえ、一般に、音素「m」および音素「n」の照合精度は低くなる。一方、これとは逆に、音素「a」は人間が明りょうに発声できる音素であるので、音声認識装置1において、音素「a」が誤認識される可能性は低い。それゆえ、一般に、音素「a」の照合精度は高くなる。
音声認識装置1の管理者は、第1閾値条件を設定しようとする変換規則の音素列における各音素の照合精度の平均値を算出する。例えば、第1閾値条件を設定しようとする変換規則が「とよ」⇔「t」「o」「o」であった場合、音声認識装置1の管理者は、音素「t」の照合精度、および、音素「o」の照合精度に基づいて、音素列「t」「o」「o」における各音素の照合精度の平均値を算出する。音声認識装置1の管理者は、算出した照合精度の平均値に基づいて、設定すべき第1閾値条件を決定する。例えば、音声認識装置1の管理者は、照合精度の平均値が大きい場合、閾値が低い第1閾値条件を変換規則記憶部13に設定する。また、音声認識装置1の管理者は、照合精度の平均値が小さい場合、閾値が高い第1閾値条件を変換規則記憶部13に設定する。
また、図3に示す例では、変換規則記憶部13には、変換規則「とよ」⇔「t」「o」「o」の音素列「t」「o」「o」に対応して第1閾値条件「70」が格納されている例について説明したが、これに限定されない。例えば、変換規則記憶部13には、図4に示すように、変換規則「とよ」⇔「t」「o」「o」の音素列「t」「o」「o」における各音素に対応して第1閾値条件がそれぞれ格納されていてもよい。図4に示す例では、変換規則記憶部13には、音素列「t」「o」「o」における1番目の音素「t」に対応して第1閾値条件「50」が格納されている。また、変換規則記憶部13には、音素列「t」「o」「o」における2番目の音素「o」に対応して第1閾値条件「50」が格納されている。さらに、変換規則記憶部13には、音素列「t」「o」「o」における3番目の音素「o」に対応して第1閾値条件「70」が格納されている。
音素列変換部14は、変換規則記憶部13に格納されている変換規則に従って、認識単語記憶部12に格納されている認識単語の読みを音素列に変換する。ここで、音素列変換部14は、実際には、変換規則に従って、認識単語記憶部12に格納されている全ての認識単語の読みを音素列に変換する。しかし、本実施形態においては、説明の簡略化のために、音素列変換部14は、「と」⇔「t」「o」、「よ」⇔「y」「o」、「み」⇔「m」「i」の変換規則に従って、認識単語の読み「とよとみ」を音素列「toyotomi」に変換したものとする。また、音素列変換部14は、「とよ」⇔「t」「o」「o」、「と」⇔「t」「o」、「み」⇔「m」「i」の変換規則に従って、認識単語の読み「とよとみ」を音素列「tootomi」に変換したものとする。
音素モデル記憶部15は、どの音素がどのような特徴量になりやすいかをモデル化した標準パターンを格納する。図5は、音素モデル記憶部15に格納されるデータの内容の一例を示す図である。図5に示すように、音素モデル記憶部15には、音素の標準パターンが格納されている。なお、音素の標準パターンには、例えば、HMM(Hidden Markov Model)、音素テンプレート(代表点)などが用いられる。
単語モデル生成部16は、音素列変換部14により変換された音素列に基づいて、音素モデル記憶部15に格納されている音素の標準パターンを抽出する。本実施形態においては、単語モデル生成部16は、音素列変換部14により変換された音素列「toyotomi」および音素列「tootomi」に基づいて、音素「t」の標準パターン、音素「o」の標準パターン、音素「y」の標準パターン、音素「m」の標準パターン、および、音素「i」の標準パターンを抽出する。単語モデル生成部16は、抽出した音素の標準パターンを音素列「toyotomi」に従って連結することによって、「toyotomi」の単語モデルを生成する。また、単語モデル生成部16は、抽出した音素の標準パターンを音素列「tootomi」に従って連結することによって、「tootomi」の単語モデルを生成する。つまり、単語モデルは、標準パターン列からなる。生成された単語モデルは、内部のメモリに記録される。
音声照合部17は、音声分析部11により変換された特徴量と、単語モデル生成部16により生成された単語モデルとを照合する。照合の結果、音声照合部17は、音声分析部11により変換された特徴量と、単語モデル生成部16により生成された単語モデルとの各時刻における類似度を算出する。音声照合部17は、単語モデル生成部16により生成された単語モデルのうち、下記の(1)〜(3)の全てを満たす単語モデルを抽出する。音声照合部17は、抽出した単語モデルに対応する認識単語を認識結果として出力する。なお、下記の(1)における閾値T1は、内部のメモリに予め記録されている。本実施形態においては、閾値T1は「60」であるものとする。また、下記の(2)における閾値T2も、内部のメモリに予め記録されている。本実施形態においては、閾値T2は「50」であるものとする。
(1)各時刻における類似度の平均値が閾値T1以上
(2)各時刻における類似度の中で最小の類似度が閾値T2以上
(3)発話音声の発声区間のうち、第1閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が、第1閾値条件が示す閾値C以上
以下では、ユーザが認識単語「とよとみ」を発声した場合、発声した「とよとみ」における「よ」が曖昧な発声であったため、音声認識装置1では、「とよとみ」における「よ」(音素:yo)が、音素「y」が省略された「お」(音素:o)であると判定し、この結果、発話音声が「とおとみ」であると判定した場合について説明する。具体的には、音声照合部17が、音声分析部11により変換された特徴量「とおとみ」と、単語モデル生成部16により生成された単語モデル「tootomi」との間で行う照合処理について、図6を参照しながら説明する。なお、図6は、特徴量「とおとみ」と単語モデル「tootomi」との各時刻における類似度を時系列データS1として概略的に示した図である。
音声照合部17は、まず、各時刻における類似度の平均値(全体類似度)を算出する。本実施形態においては、各時刻における類似度の平均値は「85」であるものとする。このため、音声照合部17は、算出した類似度の平均値が、閾値T1以上であると判定する。なお、音声照合部17は、各時刻における類似度の平均値を算出する代わりに、各時刻における類似度の総和を算出するようにしてもよい。つまり、各時刻における類似度の平均値または各時刻における類似度の総和が、本発明の全体類似度の一実施形態となる。また、音声照合部17は、各時刻における類似度の中で最小の類似度が閾値T2以上であると判定する。さらに、音声照合部17は、発話音声の発声区間のうち、第1閾値条件に対応付けられた音素列「t」「o」「o」に対応する区間の各時刻における類似度が、第1閾値条件が示す閾値C「70」以上であると判定する。
以上より、単語モデル「tootomi」は、上記の(1)〜(3)の全てを満たす単語モデルであるので、音声照合部17は、単語モデル「tootomi」に対応する認識単語「とよとみ」を認識結果として出力する。これにより、本実施形態に係る音声認識装置1は、ユーザが認識単語「とよとみ」を発声した場合における曖昧な音素が含まれた発話音声「とおとみ」を認識することが可能となる。
また、以下では、ユーザが認識単語「とよとみ」以外の単語「ともとみ」を発声した場合について説明する。具体的には、音声照合部17が、音声分析部11により変換された特徴量「ともとみ」と、単語モデル生成部16により生成された単語モデル「tootomi」との間で行う照合処理について、図7を参照しながら説明する。なお、図7は、特徴量「ともとみ」と単語モデル「tootomi」との各時刻における類似度を時系列データS2として概略的に示した図である。
音声照合部17は、まず、各時刻における類似度の平均値を算出する。本実施形態においては、各時刻における類似度の平均値は「75」であるものとする。このため、音声照合部17は、算出した類似度の平均値が、閾値T1以上であると判定する。また、音声照合部17は、各時刻における類似度の中で最小の類似度が閾値T2以上であると判定する。さらに、音声照合部17は、発話音声の発声区間のうち、第1閾値条件に対応付けられた音素列「t」「o」「o」に対応する区間の各時刻における類似度が、第1閾値条件が示す閾値C「70」未満であると判定する。
以上より、単語モデル「tootomi」は、上記の(1)および(2)を満たすが、上記の(3)を満たさない単語モデルであるので、音声照合部17は、単語モデル「tootomi」に対応する認識単語「とよとみ」を認識結果として出力しない。これにより、本実施形態に係る音声認識装置1は、ユーザが認識単語「とよとみ」以外の単語「ともとみ」を発声した場合、この単語を認識単語として誤認識することを防止することが可能となる。
ところで、上記の音声認識装置1は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記の音声分析部11、音素列変換部14、単語モデル生成部16、および、音声照合部17は、コンピュータのCPUがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、音声分析部11、音素列変換部14、単語モデル生成部16、および、音声照合部17の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、認識単語記憶部12、変換規則記憶部13、および、音素モデル記憶部15は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。
次に、上記の構成に係る音声認識装置1の動作について、図8を参照しながら説明する。
図8は、音声認識装置1の動作の一例を示すフローチャートである。すなわち、図8に示すように、音素列変換部14は、変換規則記憶部13に格納されている変換規則に従って、認識単語記憶部12に格納されている認識単語の読みを音素列に変換する(工程Op1)。単語モデル生成部16は、工程Op1にて変換された音素列に基づいて、音素モデル記憶部15に格納されている音素の標準パターンを抽出する。単語モデル生成部16は、抽出した音素の標準パターンを音素列に従って連結することによって、単語モデルを生成する(工程Op2)。生成された単語モデルは、内部のメモリに記録される。
一方、音声分析部11は、入力された発話音声をフレーム毎の特徴量に変換する(工程Op3)。変換された特徴量は、フレーム固有情報と共に、内部のメモリに記録される。なお、図8においては、工程Op1および工程Op2の処理と、工程Op3の処理とが並列的に実行される態様としているが、工程Op1〜工程Op3の処理が直列的に実行される態様であってもよい。
音声照合部17は、工程Op3にて変換された特徴量と、工程Op2にて生成された単語モデルとの各時刻における類似度を算出する(工程Op4)。音声照合部17は、各時刻における類似度の平均値が閾値T1以上であるか否かを判定する(工程Op5)。音声照合部17は、各時刻における類似度の平均値が閾値T1以上であると判定すれば(工程Op5にてYES)、各時刻における類似度の中で最小の類似度が閾値T2以上であるか否かを判定する(工程Op6)。一方、音声照合部17は、各時刻における類似度の平均値が閾値T1以上でないと判定すれば(工程Op5にてNO)、図8の処理を終了する。
音声照合部17は、各時刻における類似度の中で最小の類似度が閾値T2以上であると判定すれば(工程Op6にてYES)、発話音声の発声区間のうち、第1閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が、第1閾値条件が示す閾値C以上であるか否かを判定する(工程Op7)。一方、音声照合部17は、各時刻における類似度の中で最小の類似度が閾値T2以上でないと判定すれば(工程Op6にてNO)、図8の処理を終了する。
音声照合部17は、発話音声の発声区間のうち、第1閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が、第1閾値条件が示す閾値C以上であると判定すれば(工程Op7にてYES)、工程Op2にて生成された単語モデルに対応する認識単語を認識結果として出力する(工程Op8)。一方、音声照合部17は、発話音声の発声区間のうち、第1閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が、第1閾値条件が示す閾値C以上でないと判定すれば(工程Op7にてNO)、図8の処理を終了する。
以上のように、本実施形態に係る音声認識装置1によれば、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を認識できるように第1閾値条件を設定し、かつ、人間が認識単語以外の単語を発声した場合、この単語を棄却できるように第1閾値条件を設定することで、本実施形態に係る音声認識装置1は、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を認識しつつ、人間が認識単語以外の単語を発声した場合、この単語を認識単語として誤認識することを防止することが可能となる。
なお、上記では、音声照合部17は、発話音声の発声区間のうち、第1閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が、第1閾値条件が示す閾値C以上であると判定した場合、認識結果を出力する例について説明したが、これに限定されない。例えば、第1閾値条件が示す閾値を所定の範囲とすることによって、音声照合部17は、音素の標準パターンまたは音素列の標準パターン列に対応する発話音声の発声区間内の各時刻における類似度が、所定の範囲内にあると判定した場合、認識結果を出力するようにしてもよい。
また、音声照合部17は、発話音声の発声区間のうち、第1閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が、第1閾値条件が示す閾値C以下であると判定した場合、認識結果を出力するようにしてもよい。ここで、一例として、変換規則記憶部13には、変換規則「とよ」⇔「t」「o」「o」の音素列「t」「o」「o」に対応して第1閾値条件「95」が格納されているものとする。また、音声照合部17は、発話音声「とおとみ」と単語モデル「tootomi」との各時刻における類似度を算出したものとする。この場合、発話音声の発声区間のうち、第1閾値条件に対応付けられた音素列「t」「o」「o」に対応する区間の各時刻における類似度が、第1閾値条件が示す閾値「95」以上であった場合、音声照合部17は、ユーザが認識単語「とよとみ」を発声した場合に発話音声が「とおとみ」となったのではなく、ユーザが認識単語「とよとみ」以外の単語「とおとみ」を明りょうに発声しているものと判定する。したがって、このような場合、音声照合部17は、発話音声「とおとみ」を棄却する。
[実施の形態2]
図9は、本実施形態に係る音声認識装置2の概略構成を示すブロック図である。すなわち、本実施形態に係る音声認識装置2は、図1に示す変換規則記憶部13の代わりに、変換規則記憶部21〜23を備えている。なお、図9では、説明の簡略化のために、変換規則記憶部21〜23を3つ図示したが、音声認識装置2を構成する変換規則記憶部の数は任意である。また、本実施形態に係る音声認識装置2は、図1に示す音素列変換部14の代わりに、音素列変換部24を備えている。なお、図9において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
変換規則記憶部21〜23は、図1に示す変換規則記憶部13と同様、読みと音素との変換規則、および、読みと音素列との変換規則の少なくとも1つを格納する。また、変換規則記憶部21〜23は、図1に示す変換規則記憶部13と同様、音素または音素列に対応付けられた第1閾値条件を格納する。変換規則記憶部21〜23は、第1閾値条件が示す条件毎に複数備えられている。本実施形態においては、変換規則記憶部21には、図10(a)に示すように、第1閾値条件「なし」(図中、「−」)に対応付けられた変換規則が格納されている。なお、変換規則記憶部21には、例えば、「み」⇔「m」「i」のように、通常の変換規則が格納されている。また、変換規則記憶部22には、図10(b)に示すように、第1閾値条件「70」に対応付けられた変換規則が格納されている。なお、変換規則記憶部22には、人間が認識単語「とよとみ」を発声した場合における曖昧になり易い音素を含む音素列の変換規則が格納されている。さらに、変換規則記憶部23には、図10(c)に示すように、第1閾値条件「80」に対応付けられた変換規則が格納されている。なお、変換規則記憶部23には、人間が認識単語「とよとみ」を発声した場合における稀に曖昧となる音素を含む音素列の変換規則が格納されている。
なお、図9では、変換規則記憶部21〜23は、それぞれ異なるハードウェアで構成されている例を示したが、これに限定されない。例えば、変換規則記憶部21〜23は、同一のハードウェア内の異なる領域にそれぞれ構成されていてもよい。
音素列変換部24は、認識単語記憶部12に格納されている認識単語の読みの数に基づいて、複数の変換規則記憶部21〜23から認識単語の読みを音素列に変換するために使用する変換規則記憶部を選択する。本実施形態においては、音素列変換部24は、認識単語の読みの数が1000以上であれば、変換規則記憶部21,22を選択する。一方、音素列変換部24は、認識単語の読みの数が1000未満であれば、全ての変換規則記憶部21〜23を選択する。音声照合部24は、選択した変換規則記憶部に格納されている変換規則に従って、認識単語記憶部12に格納されている認識単語の読みを音素列に変換する。
以上のように、本実施形態に係る音声認識装置2によれば、例えば、認識単語の読みの数が1000以上のように多ければ、音素列変換部24は、最低限の変換規則記憶部21,22を使用して認識単語の読みを音素列に変換することが可能となる。それゆえ、音声照合部17による照合速度の低下を抑えることができる。一方、例えば、認識単語の読みの数が1000未満のように少なければ、音素列変換部24は、全ての変換規則記憶部21〜23を使用して認識単語の読みを音素列に変換することが可能となる。それゆえ、音声照合部17は、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を確実に認識することができる。
[実施の形態3]
図11は、本実施形態に係る音声認識装置3の概略構成を示すブロック図である。すなわち、本実施形態に係る音声認識装置3は、図1に示す音声認識装置1に加えて、変換規則計数部31、使用頻度算出部32、および、第1閾値条件更新部34を備えている。また、本実施形態に係る音声認識装置3は、図1に示す変換規則記憶部13の代わりに、変換規則記憶部33を備えている。なお、上記の変換規則計数部31、使用頻度算出部32、および、第1閾値条件更新部34は、コンピュータのCPUがこの機能を実現するプログラムに従って動作することによっても具現化される。なお、図11において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
変換規則計数部31は、音声照合部17により出力された認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則を計数する。例えば、音声照合部17により出力された認識結果の認識単語が「とよとみ」であった場合、変換規則計数部31は、単語モデル生成部16を参照することによって、認識単語「とよとみ」に対応する単語モデル「tootomi」を抽出する。また、変換規則計数部31は、単語モデル「tootomi」を生成するために使用した変換規則を計数する。本実施形態においては、変換規則計数部31は、変換規則「とよ」⇔「t」「o」「o」が「1」、変換規則「と」⇔「t」「o」が「1」、および、変換規則「み」⇔「m」「i」が「1」であると計数する。変換規則計数部31は、計数した計数値を使用頻度算出部32に出力する。なお、変換規則計数部31は、音声照合部17により出力された認識結果をそのまま外部に出力する。
使用頻度算出部32は、変換規則計数部31から出力された計数値を変換規則毎に変換規則記憶部33に書き込む。ここで、変換規則計数部31からさらに変換規則の計数値が出力された場合、使用頻度算出部32は、変換規則記憶部33に格納されている変換規則の計数値を抽出し、抽出した変換規則の計数値と、変換規則計数部31から出力された変換規則の計数値との和(累積値)を算出する。使用頻度算出部32は、算出した累積値を使用頻度とする。使用頻度算出部32は、変換規則記憶部33に格納されている計数値を算出した累積値に更新する。つまり、使用頻度算出部32は、変換規則計数部31から変換規則の計数値が出力される度に累積値を新たに算出し、変換規則記憶部33に格納されている累積値を更新していく。なお、上記では、使用頻度算出部32は、変換規則の累積値を使用頻度とする例について説明したが、これに限定されない。例えば、使用頻度算出部32は、変換規則の累積値と、全ての変換規則の累積値の和との割合を使用頻度としてもよい。
変換規則記憶部33は、図1に示す変換規則記憶部13に格納されている変換規則、および、第1閾値条件に加えて、変換規則の使用頻度(累積値)を格納する。図12は、変換規則記憶部33に格納されるデータの内容の一例を示す図である。図12に示すように、変換規則記憶部33には、変換規則、第1閾値条件、および、変換規則の使用頻度が格納されている。例えば、変換規則「とよ」⇔「t」「o」「o」の使用頻度「11」は、音声照合部17により出力された認識結果の認識単語に対応する単語モデルを生成するために、音素列変換部14が変換規則「とよ」⇔「t」「o」「o」を11回使用したことを表している。
第1閾値条件更新部34は、変換規則の使用頻度が境界条件より大きい場合、この変換規則の音素または音素列に対応付けられた第1閾値条件が低くなるように、第1閾値条件を更新する。また、第1閾値条件更新部34は、変換規則の使用頻度が境界条件より小さい場合、この変換規則の音素または音素列に対応付けられた第1閾値条件が高くなるように、第1閾値条件を更新する。
具体的には、第1閾値条件更新部34は、任意のタイミングで、変換規則記憶部33に格納されている変換規則の使用頻度を抽出する。本実施形態においては、第1閾値条件更新部34は、変換規則「とよ」⇔「t」「o」「o」の使用頻度「11」を抽出したものとする。第1閾値条件更新部34は、抽出した変換規則の使用頻度が境界条件より大きいか否かを判定する。なお、境界条件は、内部のメモリに予め記録されている。本実施形態においては、境界条件は「10」であるものとする。本実施形態においては、第1閾値条件更新部34は、抽出した変換規則「とよ」⇔「t」「o」「o」の使用頻度「11」が境界条件「10」より大きいので、変換規則「とよ」⇔「t」「o」「o」の音素列「t」「o」「o」に対応付けられた第1閾値条件「70」が低くなるように、変換規則記憶部33に格納されている第1閾値条件を更新する。図13は、第1閾値条件更新部34により更新された後の、変換規則記憶部33に格納されるデータの内容の一例を示す図である。図13に示すように、変換規則「とよ」⇔「t」「o」「o」の第1閾値条件は、第1閾値条件更新部34によって、「70」から「65」へ更新されている。
一方、仮に、境界条件が「15」であった場合、第1閾値条件更新部34は、抽出した変換規則「とよ」⇔「t」「o」「o」の使用頻度「11」が境界条件「15」より小さいので、変換規則「とよ」⇔「t」「o」「o」の音素列「t」「o」「o」に対応付けられた第1閾値条件「70」が高くなるように、変換規則記憶部33に格納されている第1閾値条件を更新する。図14は、第1閾値条件更新部34により更新された後の、変換規則記憶部33に格納されるデータの内容の一例を示す図である。図14に示すように、変換規則「とよ」⇔「t」「o」「o」の第1閾値条件は、第1閾値条件更新部34によって、「70」から「75」へ更新されている。
次に、上記の構成に係る音声認識装置3の動作について、図15を参照しながら説明する。
図15は、音声認識装置3の動作の一例を示すフローチャートである。すなわち、図15に示すように、変換規則計数部31は、図8に示す工程Op8にて出力された認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則を計数する(工程Op9)。使用頻度算出部32は、工程Op9にて計数された計数値を累積していくことにより、変換規則の使用頻度(累積値)を算出する(工程Op10)。使用頻度算出部32は、算出した変換規則の使用頻度を変換規則記憶部33に書き込む。
第1閾値条件更新部34は、工程Op10にて算出された変換規則の使用頻度が境界条件より大きい場合(工程Op11にてYES)、この変換規則の音素または音素列に対応付けられた第1閾値条件が低くなるように、第1閾値条件を更新する(工程Op12)。一方、第1閾値条件更新部34は、工程Op10にて算出された変換規則の使用頻度が境界条件より小さい場合(工程Op11にてNO)、この変換規則の音素または音素列に対応付けられた第1閾値条件が高くなるように、第1閾値条件を更新する(工程Op13)。
以上のように、本実施形態に係る音声認識装置3によれば、変換規則の使用頻度が高い場合、この変換規則は単語モデルを生成するために頻繁に使用されているので、第1閾値条件更新部34は、第1閾値条件が低くなるように第1閾値条件を更新することが可能となる。これにより、音声認識装置3の認識率が向上する。一方、変換規則の使用頻度が低い場合、この変換規則は単語モデルを生成するために頻繁に使用されていないので、第1閾値条件更新部34は、第1閾値条件が高くなるように第1閾値条件を更新することが可能となる。これにより、音声認識装置3の認識率が低下する。
[実施の形態4]
図16は、本実施形態に係る音声認識装置4の概略構成を示すブロック図である。すなわち、本実施形態に係る音声認識装置4は、図1に示す音声認識装置1に加えて、入力部41、変換規則計数部42、使用頻度算出部43、および、第1閾値条件更新部45を備えている。また、本実施形態に係る音声認識装置4は、図1に示す変換規則記憶部13の代わりに、変換規則記憶部44を備えている。なお、上記の入力部41、変換規則計数部42、使用頻度算出部43、および、第1閾値条件更新部45は、コンピュータのCPUがこの機能を実現するプログラムに従って動作することによっても具現化される。なお、図16において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
入力部41は、音声照合部17により出力された認識結果が誤っているか否かをユーザから受け付ける。本実施形態においては、入力部41は、認識結果が誤っている場合に、認識結果が誤っていることをユーザから受け付ける。なお、入力部41は、キーボード、マウス、テンキー、タッチパネルなどの任意の入力デバイスから構成される。
変換規則計数部42は、認識結果が誤っていることをユーザから受け付けた場合、この認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則を計数する。例えば、認識結果「とよとみ」が誤っていることをユーザから受け付けた場合、変換規則計数部42は、単語モデル生成部16を参照することによって、認識単語「とよとみ」に対応する単語モデル「tootomi」を抽出する。また、変換規則計数部41は、単語モデル「tootomi」を生成するために使用した変換規則を計数する。本実施形態においては、変換規則計数部42は、変換規則「とよ」⇔「t」「o」「o」が「1」、変換規則「と」⇔「t」「o」が「1」、および、変換規則「み」⇔「m」「i」が「1」であると計数する。変換規則計数部42は、計数した計数値を使用頻度算出部43に出力する。なお、変換規則計数部42は、音声照合部17により出力された認識結果をそのまま外部に出力する。
使用頻度算出部43は、図11に示す使用頻度算出部32と同様、変換規則計数部42から出力された計数値を変換規則毎に変換規則記憶部44に書き込む。ここで、変換規則計数部42からさらに変換規則の計数値が出力された場合、使用頻度算出部43は、変換規則記憶部44に格納されている変換規則の計数値を抽出し、抽出した変換規則の計数値と、変換規則計数部42から出力された変換規則の計数値との和(累積値)を算出する。使用頻度算出部43は、算出した累積値を使用頻度とする。使用頻度算出部43は、変換規則記憶部44に格納されている計数値を累積値に更新する。つまり、使用頻度算出部43は、変換規則計数部42から変換規則の計数値が出力される度に累積値を新たに算出し、変換規則記憶部44に格納されている累積値を更新していく。
変換規則記憶部44は、図11に示す変換規則記憶部33と同様、変換規則、第1閾値条件、および、変換規則の使用頻度(累積値)を格納する。図17は、変換規則記憶部44に格納されるデータの内容の一例を示す図である。例えば、変換規則「とよ」⇔「t」「o」「o」の使用頻度「6」は、認識結果が誤っていることをユーザから受け付けた場合における、この認識結果の認識単語に対応する単語モデルを生成するために、音素列変換部14が変換規則「とよ」⇔「t」「o」「o」を6回使用したことを表している。
第1閾値条件更新部45は、変換規則の使用頻度が境界条件より大きい場合、この変換規則の音素または音素列に対応付けられた第1閾値条件が高くなるように、第1閾値条件を更新する。また、第1閾値条件更新部45は、変換規則の使用頻度が境界条件より小さい場合、この変換規則の音素または音素列に対応付けられた第1閾値条件が低くなるように、第1閾値条件を更新する。
具体的には、第1閾値条件更新部45は、任意のタイミングで、変換規則記憶部44に格納されている変換規則の使用頻度を抽出する。本実施形態においては、第1閾値条件更新部45は、変換規則「とよ」⇔「t」「o」「o」の使用頻度「6」を抽出したものとする。第1閾値条件更新部45は、抽出した変換規則の使用頻度が境界条件より大きいか否かを判定する。なお、境界条件は、内部のメモリに予め記録されている。本実施形態においては、境界条件は「5」であるものとする。この場合、第1閾値条件更新部45は、抽出した変換規則「とよ」⇔「t」「o」「o」の使用頻度「6」が境界条件「5」より大きいので、変換規則「とよ」⇔「t」「o」「o」の音素列「t」「o」「o」に対応付けられた第1閾値条件「70」が高くなるように、変換規則記憶部44に格納されている第1閾値条件を更新する。図18は、第1閾値条件更新部45により更新された後の、変換規則記憶部44に格納されるデータの内容の一例を示す図である。図18に示すように、変換規則「とよ」⇔「t」「o」「o」の第1閾値条件は、第1閾値条件更新部45によって、「70」から「75」へ更新されている。
一方、仮に、境界条件が「10」であった場合、第1閾値条件更新部45は、抽出した変換規則「とよ」⇔「t」「o」「o」の使用頻度「6」が境界条件「10」より小さいので、変換規則「とよ」⇔「t」「o」「o」の音素列「t」「o」「o」に対応付けられた第1閾値条件「70」が低くなるように、変換規則記憶部44に格納されている第1閾値条件を更新する。図19は、第1閾値条件更新部45により更新された後の、変換規則記憶部44に格納されるデータの内容の一例を示す図である。図19に示すように、変換規則「とよ」⇔「t」「o」「o」の第1閾値条件は、第1閾値条件更新部45によって、「70」から「65」へ更新されている。
次に、上記の構成に係る音声認識装置4の動作について、図20を参照しながら説明する。
図20は、音声認識装置4の動作の一例を示すフローチャートである。すなわち、図20に示すように、入力部41は、図8に示す工程Op8にて出力された認識結果が誤っている場合に、認識結果が誤っていることをユーザから受け付ける(工程Op14)。変換規則計数部42は、工程Op14にて受け付けた認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則を計数する(工程Op15)。使用頻度算出部43は、工程Op15にて計数された計数値を累積していくことにより、変換規則の使用頻度(累積値)を算出する(工程Op16)。使用頻度算出部43は、算出した変換規則の使用頻度を変換規則記憶部44に書き込む。
第1閾値条件更新部45は、工程Op16にて算出された変換規則の使用頻度が境界条件より大きい場合(工程Op17にてYES)、この変換規則の音素または音素列に対応付けられた第1閾値条件が高くなるように、第1閾値条件を更新する(工程Op18)。一方、第1閾値条件更新部45は、工程Op16にて算出された変換規則の使用頻度が境界条件より小さい場合(工程Op17にてNO)、この変換規則の音素または音素列に対応付けられた第1閾値条件が低くなるように、第1閾値条件を更新する(工程Op19)。
以上のように、本実施形態に係る音声認識装置4によれば、変換規則の使用頻度が高い場合、この変換規則は認識単語が誤っている場合における単語モデルを生成するために頻繁に使用されているので、第1閾値条件更新部45は、第1閾値条件が高くなるように第1閾値条件を更新することが可能となる。これにより、音声認識装置4の認識率が低下する。一方、変換規則の使用頻度が低い場合、この変換規則は認識単語が誤っている場合における単語モデルを生成するために頻繁に使用されていないので、第1閾値条件更新部45は、第1閾値条件が低くなるように第1閾値条件を更新することが可能となる。これにより、音声認識装置4の認識率が向上する。
[実施の形態5]
図21は、本実施形態に係る音声認識装置5の概略構成を示すブロック図である。すなわち、本実施形態に係る音声認識装置5は、図1に示す変換規則記憶部13および音声照合部17の代わりに、変換規則記憶部51および音声照合部52を備えている。なお、図21において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
変換規則記憶部51は、図1に示す変換規則記憶部13に格納されている変換規則、および、第1閾値条件に加えて、継続時間を格納する。図22は、変換規則記憶部51に格納されるデータの内容の一例を示す図である。図22に示すように、変換規則記憶部51には、変換規則、第1閾値条件、および、継続時間が格納されている。図22に示す例では、変換規則記憶部51には、変換規則「とよ」⇔「t」「o」「o」の音素列「t」「o」「o」に対応して継続時間「150」が格納されている。また、変換規則記憶部51には、変換規則「とよ」⇔「t」「o」「o」以外の変換規則の音素または音素列に対応して継続時間「なし」(図中、「−」)が格納されている。つまり、変換規則「とよ」⇔「t」「o」「o」以外の変換規則の音素または音素列には、継続時間が設定されていない。なお、本実施形態においては、継続時間は、ms(ミリ秒)で表される。
音声照合部52は、図1に示す音声照合部17と同様、音声分析部11により変換された特徴量と、単語モデル生成部16により生成された単語モデルとを照合する。照合の結果、音声照合部52は、音声分析部11により変換された特徴量と、単語モデル生成部16により生成された単語モデルとの各時刻における類似度を算出する。音声照合部52は、単語モデル生成部16により生成された単語モデルのうち、実施の形態1にて説明した上記の(1)〜(3)の全てを満たす単語モデルを抽出する。本実施形態においては、音声照合部52は、単語モデル生成部16により生成された単語モデルのうち、単語モデル「tootomi」を抽出したものとする。
また、音声照合部52は、発話音声の発声区間のうち、継続時間に対応付けられた音素または音素列に対応する区間における発声時間が、継続時間以上であるか否かを判定する。具体的には、音声照合部52は、まず、継続時間「150」に対応付けられた音素列「t」「o」「o」を抽出する。音声照合部52は、発話音声の発声区間のうち、抽出した音素列「t」「o」「o」に対応する区間を特定する。この区間は、例えば、ビタビ(Viterbi)アルゴリズムを用いることにより特定される。図23は、発話音声の発声区間のうち、音素列「t」「o」「o」に対応する区間Vの一例を示した図である。図23に示すように、音声照合部52は、発話音声の発声区間のうち、音素列「t」「o」「o」に対応する区間Vを特定する。音声照合部52は、区間Vにおける発声時間を算出する。このため、音声照合部52は、時刻計測機能を備えている。本実施形態においては、音声照合部52は、区間Vにおける発声時間「160」(ms)を算出したものとする。
本実施形態においては、音声照合部52は、区間Vにおける発声時間が継続時間以上であると判定する。つまり、本実施形態においては、区間Vにおける発声時間が継続時間以上であるので、音声照合部52は、ユーザがゆっくりと発声しているものと判定する。すなわち、音声照合部52は、ユーザが認識単語「とよとみ」を発声した場合に発話音声が「とおとみ」となったのではなく、ユーザが認識単語「とよとみ」以外の単語「とおとみ」を意識して発声しているものと判定する。したがって、音声照合部52は、抽出した単語モデル「tootomi」を棄却する。
一方、仮に、音声照合部52は、区間Vにおける発声時間が継続時間未満であると判定した場合、抽出した単語モデル「tootomi」に対応する認識単語「とよとみ」を認識結果として出力する。つまり、区間Vにおける発声時間が継続時間未満となった場合、音声照合部52は、ユーザが早口で発声しているものと判定する。すなわち、音声照合部52は、ユーザが認識単語「とよとみ」を発声した場合に発話音声が「とおとみ」となったものと判定する。したがって、音声照合部52は、抽出した単語モデル「tootomi」に対応する認識単語「とよとみ」を出力する。
次に、上記の構成に係る音声認識装置5の動作について、図24を参照しながら説明する。なお、図24において、図8と同様の処理を示す部分については、同じ参照符号を付記し、その詳細な説明を省略する。
図24は、音声認識装置5の動作の一例を示すフローチャートである。すなわち、工程Op7において、音声照合部52は、発話音声の発声区間のうち、第1閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が、第1閾値条件が示す閾値C以上であると判定した後(工程Op7にてYES)、発話音声の発声区間のうち、継続時間に対応付けられた音素または音素列に対応する区間における発声時間が、継続時間以上であるか否かを判定する(工程Op20)。
音声照合部52は、発話音声の発声区間のうち、継続時間に対応付けられた音素または音素列に対応する区間における発声時間が、継続時間以上であると判定すれば(工程Op20にてYES)、工程Op2にて生成された単語モデルを棄却する(工程Op21)。一方、音声照合部52は、発話音声の発声区間のうち、継続時間に対応付けられた音素または音素列に対応する区間における発声時間が、継続時間未満であると判定すれば(工程Op20にてNO)、工程Op2にて生成された単語モデルに対応する認識単語を認識結果として出力する(工程Op22)。
以上のように、本実施形態に係る音声認識装置5によれば、発話音声の発声区間のうち、継続時間に対応付けられた音素または音素列に対応する区間における発声時間が継続時間以上である場合、人間がゆっくりと発声している場合であるので、音声照合部52は、単語モデルを抽出した場合であっても、抽出した単語モデルを棄却する。これにより、音声認識装置5による誤認識を防止することが可能となる。一方、発話音声の発声区間のうち、継続時間に対応付けられた音素または音素列に対応する区間における発声時間が継続時間未満である場合、人間が早口で発声している場合であるので、音声照合部52は、抽出した単語モデルを認識結果として出力する。これにより、音声認識装置5は、人間が認識単語を発声した場合における曖昧な音素が含まれた発話音声を認識することが可能となる。
以上のように、本発明は、変換規則に従って、認識単語の読みを音素列に変換し、変換した音素列に基づいて、標準パターン列である単語モデルを生成することによって、人間の発話音声を認識する音声認識装置、音声認識方法、または、音声認識プログラムとして有用である。

Claims (7)

  1. 入力された発話音声を特徴量に変換する音声分析部と、
    認識単語の読みを格納した認識単語記憶部と、
    読みと音素との変換規則または読みと音素列との変換規則を格納した変換規則記憶部と、
    前記変換規則記憶部に格納されている変換規則に従って、前記認識単語記憶部に格納されている認識単語の読みを音素列に変換する音素列変換部と、
    音素がどのような特徴量になりやすいかをモデル化した標準パターンを格納した音素モデル記憶部と、
    前記音素列変換部により変換された音素列に基づいて、前記音素モデル記憶部に格納されている標準パターンを抽出し、抽出した標準パターンを連結することによって、標準パターン列である単語モデルを生成する単語モデル生成部と、
    前記音声分析部により変換された特徴量と、前記単語モデル生成部により生成された単語モデルとの各時刻における類似度を算出する音声照合部とを備え、
    前記変換規則記憶部は、前記変換規則のうち少なくとも1つの変換規則の音素または音素列に対応付けられた第1閾値条件をさらに格納し、
    前記音声照合部は、前記単語モデル生成部により生成された単語モデルのうち、前記各時刻における類似度の中で最小の類似度あるいは前記各時刻における類似度から得られる全体類似度が第2閾値条件を満たし、かつ、前記発話音声の発声区間のうち、前記第1閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が当該第1閾値条件を満たす単語モデルを抽出し、抽出した単語モデルに対応する認識単語を認識結果として出力する、音声認識装置。
  2. 前記変換規則記憶部は、前記第1閾値条件が示す条件毎に複数備えられており、
    前記音素列変換部は、前記認識単語記憶部に格納されている認識単語の読みの数に基づいて、複数の変換規則記憶部から認識単語の読みを音素列に変換するために使用する変換規則記憶部を選択し、選択した変換規則記憶部に格納されている変換規則に従って、前記認識単語記憶部に格納されている認識単語の読みを音素列に変換する、請求項1に記載の音声認識装置。
  3. 前記音声照合部により出力された認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則の使用頻度を算出する使用頻度算出部と、
    前記使用頻度算出部により算出された変換規則の使用頻度が境界条件より大きい場合、当該変換規則の音素または音素列に対応付けられた第1閾値条件が低くなるように、当該第1閾値条件を更新し、前記使用頻度算出部により算出された変換規則の使用頻度が境界条件より小さい場合、当該変換規則の音素または音素列に対応付けられた第1閾値条件が高くなるように、当該第1閾値条件を更新する第1閾値条件更新部とをさらに備える、請求項1に記載の音声認識装置。
  4. 前記音声照合部により出力された認識結果が誤っているか否かをユーザから受け付ける入力部と、
    前記入力部が前記音声照合部により出力された認識結果が誤っていることをユーザから受け付けた場合、当該認識結果の認識単語に対応する単語モデルを生成するために使用した変換規則の使用頻度を算出する使用頻度算出部と、
    前記使用頻度算出部により算出された変換規則の使用頻度が境界条件より大きい場合、当該変換規則の音素または音素列に対応付けられた第1閾値条件が高くなるように、当該第1閾値条件を更新し、前記使用頻度算出部により算出された変換規則の使用頻度が境界条件より小さい場合、当該変換規則の音素または音素列に対応付けられた第1閾値条件が低くなるように、当該第1閾値条件を更新する第1閾値条件更新部とをさらに備える、請求項1に記載の音声認識装置。
  5. 前記変換規則記憶部は、前記変換規則の音素または音素列に対応付けられた継続時間をさらに格納し、
    前記音声照合部は、前記発話音声の発声区間のうち、前記継続時間に対応付けられた音素または音素列に対応する区間における発声時間が、前記継続時間以上であるか否かを判定し、前記区間における発声時間が前記継続時間以上であると判定した場合、抽出した単語モデルを棄却し、前記区間における発声時間が前記継続時間未満であると判定した場合、抽出した単語モデルに対応する認識単語を認識結果として出力する、請求項1に記載の音声認識装置。
  6. コンピュータが備える音声分析部が、入力された発話音声を特徴量に変換する音声分析工程と、
    前記コンピュータが備える音素列変換部が、読みと音素との変換規則または読みと音素列との変換規則を格納した変換規則記憶部に格納されている変換規則に従って、認識単語の読みを格納した認識単語記憶部に格納されている認識単語の読みを音素列に変換する音素列変換工程と、
    前記コンピュータが備える単語モデル生成部が、前記音素列変換工程により変換された音素列に基づいて、音素がどのような特徴量になりやすいかをモデル化した標準パターンを格納した音素モデル記憶部に格納されている標準パターンを抽出し、抽出した標準パターンを連結することによって、標準パターン列である単語モデルを生成する単語モデル生成工程と、
    前記コンピュータが備える音声照合部が、前記音声分析工程により変換された特徴量と、前記単語モデル生成工程により生成された単語モデルとの各時刻における類似度を算出する音声照合工程とを含み、
    前記変換規則記憶部は、前記変換規則のうち少なくとも1つの変換規則の音素または音素列に対応付けられた第1閾値条件をさらに格納し、
    前記音声照合工程は、前記単語モデル生成工程により生成された単語モデルのうち、前記各時刻における類似度の中で最小の類似度あるいは前記各時刻における類似度から得られる全体類似度が第2閾値条件を満たし、かつ、前記発話音声の発声区間のうち、前記第1閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が当該第1閾値条件を満たす単語モデルを抽出し、抽出した単語モデルに対応する認識単語を認識結果として出力する、音声認識方法。
  7. 入力された発話音声を特徴量に変換する音声分析処理と、
    読みと音素との変換規則または読みと音素列との変換規則を格納した変換規則記憶部に格納されている変換規則に従って、認識単語の読みを格納した認識単語記憶部に格納されている認識単語の読みを音素列に変換する音素列変換処理と、
    前記音素列変換処理により変換された音素列に基づいて、音素がどのような特徴量になりやすいかをモデル化した標準パターンを格納した音素モデル記憶部に格納されている標準パターンを抽出し、抽出した標準パターンを連結することによって、標準パターン列である単語モデルを生成する単語モデル生成処理と、
    前記音声分析処理により変換された特徴量と、前記単語モデル生成処理により生成された単語モデルとの各時刻における類似度を算出する音声照合処理とをコンピュータに実行させ、
    前記変換規則記憶部は、前記変換規則のうち少なくとも1つの変換規則の音素または音素列に対応付けられた第1閾値条件をさらに格納し、
    前記音声照合処理は、前記単語モデル生成処理により生成された単語モデルのうち、前記各時刻における類似度の中で最小の類似度あるいは前記各時刻における類似度から得られる全体類似度が第2閾値条件を満たし、かつ、前記発話音声の発声区間のうち、前記第1閾値条件に対応付けられた音素または音素列に対応する区間の各時刻における類似度が当該第1閾値条件を満たす単語モデルを抽出し、抽出した単語モデルに対応する認識単語を認識結果として出力する処理を前記コンピュータに実行させる、音声認識プログラム。
JP2009522448A 2007-07-09 2007-07-09 音声認識装置、音声認識方法、および、音声認識プログラム Active JP4973731B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2007/063688 WO2009008055A1 (ja) 2007-07-09 2007-07-09 音声認識装置、音声認識方法、および、音声認識プログラム

Publications (2)

Publication Number Publication Date
JPWO2009008055A1 true JPWO2009008055A1 (ja) 2010-09-02
JP4973731B2 JP4973731B2 (ja) 2012-07-11

Family

ID=40228252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009522448A Active JP4973731B2 (ja) 2007-07-09 2007-07-09 音声認識装置、音声認識方法、および、音声認識プログラム

Country Status (4)

Country Link
US (1) US8738378B2 (ja)
JP (1) JP4973731B2 (ja)
CN (1) CN101689364B (ja)
WO (1) WO2009008055A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5533042B2 (ja) * 2010-03-04 2014-06-25 富士通株式会社 音声検索装置、音声検索方法、プログラム及び記録媒体
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk
CN106205601B (zh) * 2015-05-06 2019-09-03 科大讯飞股份有限公司 确定文本语音单元的方法及系统
US9922647B2 (en) * 2016-01-29 2018-03-20 International Business Machines Corporation Approach to reducing the response time of a speech interface
US20190005523A1 (en) * 2017-06-28 2019-01-03 Facebook, Inc. Identifying changes in estimated actions performed by users presented with a content item relative to different budgets for presenting the content item
US10546062B2 (en) * 2017-11-15 2020-01-28 International Business Machines Corporation Phonetic patterns for fuzzy matching in natural language processing
JP2019211599A (ja) * 2018-06-04 2019-12-12 本田技研工業株式会社 音声認識装置、音声認識方法およびプログラム
JP7173339B2 (ja) * 2019-06-25 2022-11-16 日本電信電話株式会社 発話評価装置、発話評価方法、およびプログラム
CN111627422B (zh) * 2020-05-13 2022-07-12 广州国音智能科技有限公司 语音加速检测方法、装置、设备及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS635395A (ja) * 1986-06-25 1988-01-11 富士通株式会社 音声認識装置
JPS63253997A (ja) * 1987-04-10 1988-10-20 富士通株式会社 音声認識装置
JPH0573087A (ja) * 1991-09-13 1993-03-26 Matsushita Electric Ind Co Ltd 音声認識方法
JPH06110493A (ja) * 1992-09-29 1994-04-22 Ibm Japan Ltd 音声モデルの構成方法及び音声認識装置
JPH07261789A (ja) * 1994-03-22 1995-10-13 Mitsubishi Electric Corp 音声認識の境界推定方法及び音声認識装置
JPH1097285A (ja) * 1996-09-24 1998-04-14 Mitsubishi Electric Corp 音声認識装置
JP2003140683A (ja) * 2001-11-02 2003-05-16 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラム
WO2003088209A1 (fr) * 2002-04-12 2003-10-23 Mitsubishi Denki Kabushiki Kaisha Systeme de navigation de voiture et dispositif de reconnaissance vocale de ce systeme

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62116999A (ja) 1985-11-18 1987-05-28 株式会社日立製作所 音節単位音声認識装置
JPH01302295A (ja) 1988-05-30 1989-12-06 Nippon Telegr & Teleph Corp <Ntt> 単語位置検出方法及びその音素標準パターン作成方法
US5737723A (en) * 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
WO1996010795A1 (en) * 1994-10-03 1996-04-11 Helfgott & Karas, P.C. A database accessing system
JPH08248979A (ja) 1995-03-06 1996-09-27 Fuji Xerox Co Ltd 音声認識装置
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US6321195B1 (en) * 1998-04-28 2001-11-20 Lg Electronics Inc. Speech recognition method
US6400805B1 (en) * 1998-06-15 2002-06-04 At&T Corp. Statistical database correction of alphanumeric identifiers for speech recognition and touch-tone recognition
US6185530B1 (en) * 1998-08-14 2001-02-06 International Business Machines Corporation Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
JP2001005488A (ja) * 1999-06-18 2001-01-12 Mitsubishi Electric Corp 音声対話システム
US6434521B1 (en) * 1999-06-24 2002-08-13 Speechworks International, Inc. Automatically determining words for updating in a pronunciation dictionary in a speech recognition system
JP4201470B2 (ja) * 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
US6859774B2 (en) * 2001-05-02 2005-02-22 International Business Machines Corporation Error corrective mechanisms for consensus decoding of speech
US7013276B2 (en) * 2001-10-05 2006-03-14 Comverse, Inc. Method of assessing degree of acoustic confusability, and system therefor
CN1198260C (zh) * 2001-11-28 2005-04-20 财团法人工业技术研究院 识别多种语言的语音识别系统的方法
US6985861B2 (en) * 2001-12-12 2006-01-10 Hewlett-Packard Development Company, L.P. Systems and methods for combining subword recognition and whole word recognition of a spoken input
US7509259B2 (en) * 2004-12-21 2009-03-24 Motorola, Inc. Method of refining statistical pattern recognition models and statistical pattern recognizers
KR100679044B1 (ko) * 2005-03-07 2007-02-06 삼성전자주식회사 사용자 적응형 음성 인식 방법 및 장치
US20070016399A1 (en) * 2005-07-12 2007-01-18 International Business Machines Corporation Method and apparatus for detecting data anomalies in statistical natural language applications
WO2007066297A1 (en) * 2005-12-08 2007-06-14 Koninklijke Philips Electronics N.V. Speech recognition system with huge vocabulary
US8626506B2 (en) * 2006-01-20 2014-01-07 General Motors Llc Method and system for dynamic nametag scoring
US8600760B2 (en) * 2006-11-28 2013-12-03 General Motors Llc Correcting substitution errors during automatic speech recognition by accepting a second best when first best is confusable

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS635395A (ja) * 1986-06-25 1988-01-11 富士通株式会社 音声認識装置
JPS63253997A (ja) * 1987-04-10 1988-10-20 富士通株式会社 音声認識装置
JPH0573087A (ja) * 1991-09-13 1993-03-26 Matsushita Electric Ind Co Ltd 音声認識方法
JPH06110493A (ja) * 1992-09-29 1994-04-22 Ibm Japan Ltd 音声モデルの構成方法及び音声認識装置
JPH07261789A (ja) * 1994-03-22 1995-10-13 Mitsubishi Electric Corp 音声認識の境界推定方法及び音声認識装置
JPH1097285A (ja) * 1996-09-24 1998-04-14 Mitsubishi Electric Corp 音声認識装置
JP2003140683A (ja) * 2001-11-02 2003-05-16 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラム
WO2003088209A1 (fr) * 2002-04-12 2003-10-23 Mitsubishi Denki Kabushiki Kaisha Systeme de navigation de voiture et dispositif de reconnaissance vocale de ce systeme

Also Published As

Publication number Publication date
US20100088098A1 (en) 2010-04-08
JP4973731B2 (ja) 2012-07-11
US8738378B2 (en) 2014-05-27
CN101689364B (zh) 2011-11-23
CN101689364A (zh) 2010-03-31
WO2009008055A1 (ja) 2009-01-15

Similar Documents

Publication Publication Date Title
JP4973731B2 (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
US8244522B2 (en) Language understanding device
JP4845118B2 (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
JP4812029B2 (ja) 音声認識システム、および、音声認識プログラム
JP3716870B2 (ja) 音声認識装置および音声認識方法
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JP5957269B2 (ja) 音声認識サーバ統合装置および音声認識サーバ統合方法
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
EP1701338B1 (en) Speech recognition method
JP6085538B2 (ja) 音響認識装置、音響認識方法、及び音響認識プログラム
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
CN103971685A (zh) 语音命令识别方法和系统
US20070038453A1 (en) Speech recognition system
JP2003308091A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP3803029B2 (ja) 音声認識装置
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
CN112750445A (zh) 语音转换方法、装置和系统及存储介质
JP3444108B2 (ja) 音声認識装置
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP4666129B2 (ja) 発声速度正規化分析を用いた音声認識装置
JP3628245B2 (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP3378547B2 (ja) 音声認識方法及び装置
JP4749990B2 (ja) 音声認識装置
JP4604424B2 (ja) 音声認識装置及び方法、並びにプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3