JPWO2011070972A1 - 音声認識システム、音声認識方法および音声認識プログラム - Google Patents

音声認識システム、音声認識方法および音声認識プログラム Download PDF

Info

Publication number
JPWO2011070972A1
JPWO2011070972A1 JP2011545189A JP2011545189A JPWO2011070972A1 JP WO2011070972 A1 JPWO2011070972 A1 JP WO2011070972A1 JP 2011545189 A JP2011545189 A JP 2011545189A JP 2011545189 A JP2011545189 A JP 2011545189A JP WO2011070972 A1 JPWO2011070972 A1 JP WO2011070972A1
Authority
JP
Japan
Prior art keywords
speech
voice
section
likelihood
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011545189A
Other languages
English (en)
Other versions
JP5621783B2 (ja
Inventor
隆行 荒川
隆行 荒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2011070972A1 publication Critical patent/JPWO2011070972A1/ja
Application granted granted Critical
Publication of JP5621783B2 publication Critical patent/JP5621783B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる音声認識システムを提供する。
音声判定手段81は、音声特徴量を時系列の入力音をもとに算出し、入力音を分類する値として定められた閾値と音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、それらの区間もしくは指定される長さのマージンをそれらの区間の前後に付加した区間を第1の音声区間と決定する。サーチ手段82は、音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第2の音声区間と決定する。パラメータ更新手段83は、第1の音声区間の長さと第2の音声区間の長さとの差異に応じて、閾値とマージンのうちの少なくとも一方を更新する。音声判定手段81は、パラメータ更新手段83が更新した閾値もしくはマージンを用いて第1の音声区間を決定する。

Description

本発明は、背景雑音の存在する環境で音声を認識する音声認識システム、音声認識方法および音声認識プログラムに関する。
一般的な音声認識システムは、マイクロフォンなどで集音された入力音の時系列データから特徴量の時系列を抽出し、認識対象になる単語及び音素モデルと、認識対象以外の非音声のモデルとを用いて特徴量の時系列に対する尤度を計算する。そして、音声認識システムは、計算された尤度をもとに入力音の時系列に対応する単語列をサーチし、認識結果を出力する。また、音声を認識する精度を向上させる方法について、複数の提案がなされている。
特許文献1には、無音部分に起因する音声認識性能の劣化を低減する音声認識装置が記載されている。図9は特許文献1に記載された音声認識装置を示す説明図である。特許文献1に記載された音声認識装置は、入力音を集音するマイクロフォン201と、集音された音の時系列データを所定の時間単位で切り出すフレーム化部202と、ノイズ区間を抽出するノイズ観測区間抽出部203と、ユーザが発話の開始をシステムに通知するための発話スイッチ204と、切り出された音声データごとに特徴量を抽出する特徴量抽出部205と、特徴量の時系列に対して音声認識を行う音声認識部208と、音声認識部で用いる音響モデルのうち、無音のモデルを補正する無音モデル補正部207とを備えている。
特許文献1に記載された音声認識装置は、ノイズ観測区間抽出部203が、発話スイッチ204が押される直前の区間から背景雑音を推定し、無音モデル補正部207が、推定された背景雑音に基づいて無音モデルを背景雑音環境に適応させる。このような構成により、対象とする音声以外を無音と判定しやすくすることで、音声認識装置は、音声の誤認識を軽減させる。
特許文献2には、ガベジモデル学習時に使用したデータ以外の背景雑音が付加された音声区間に対する誤認識率を低下させる音声認識装置が記載されている。図10は特許文献2に記載された音声認識装置を示す説明図である。特許文献2に記載された音声認識装置は、集音された音の時系列データから特徴量の時系列を分析する分析手段302と、特徴量に基づいて補正量を算出する補正値算出手段303と、特徴量の時系列から認識対象単語列を照合する照合手段304と、背景雑音に対応する音パターンをモデル化したガベジモデル305と、認識対象語彙モデル306とを備えている。
特許文献2に記載された音声認識装置では、補正値算出手段303が、特徴量からピッチ周波数、フォルマント周波数及び帯域幅の特徴量などから音声らしさを判定する。そして、補正値算出手段303は、判定結果をもとに、ガベジモデルに対する尤度を補正するための補正値を求める。そして、照合手段304は、上述の補正値を用いて補正したガベジモデルに対する尤度、特徴量、ガベジモデル及び認識対象語彙モデルを用いて、パターンマッチングを行う。このような構成により、音声認識装置は、認識対象の音声のみを正しく認識できる。
また、非特許文献1には、音声データから音声を認識する方法及び音声認識で用いられるモデルが記載されている。
特開2002−156992号公報 特開2007−17736号公報
安藤彰男、「リアルタイム音声認識」、電子情報通信学会、2003年9月、p.28−33,p.59−61,p.148−165
音声認識を行う場合、背景雑音や回線ノイズ、マイクロフォンを叩く音などの突発的な雑音などが存在することがある。このような場合、特許文献1及び特許文献2に記載された音声認識装置を用いることにより、音声認識の誤りを抑制することが可能になる。
すなわち、特許文献1に記載された音声認識装置は、認識対象以外の音の悪影響を抑えるために、発話スイッチが押される直前の区間から雑音を推定することで、無音モデルを背景雑音環境に適応させている。しかしながら、特に音声認識に不慣れな話者が、発話スイッチを押す前に話し始めてしまう場合や、発話スイッチを押してからしばらく時間が経ってから話し始めてしまう場合などがある。この場合、発話スイッチが押されている時間と認識対象の発声が行われる時間とが必ずしも対応するとは限らない。そのため、このような場合には、音声認識装置は、対象となる発話区間を正確に推定できないという問題がある。
また、特許文献2に記載された音声認識装置は、認識対象以外の音の悪影響を抑えるために、ピッチ周波数や、フォルマント周波数、帯域幅の特徴量などから音声らしさを判定し、ガベジモデルに対する尤度を補正するための補正値を求めている。しかしながら、高雑音環境下では、音声らしさの判定が必ずしも正確であるとは限らないため、算出した補正値が音声らしさを判定するうえで悪影響を及ぼす場合がある。
以下、高雑音環境下で生じる問題について説明する。例えば、低雑音環境下では、音声認識装置は、パワー(音量)が異なることを利用して、音声区間(人が発声している区間)とそれ以外の非音声区間とを判定することができる。すなわち、人が発声していない区間は音量が小さく、人が発声している区間は音量が大きいため、音声認識装置は、音量がある閾値以上であるか否かを判定することにより、音声と非音声とを判定することができる。しかし、高雑音環境下では、人が発声していなくても雑音の音量が大きい。また、音声か非音声かを判定するために定められる閾値は雑音の音量に依存するため、音声と非音声の判定は困難になる。
具体例を用いて、音声と非音声の判定が困難になる理由について説明する。一般的に、音声の音量は、比較的大きくはっきり話している区間では大きくなり、発声の最初や最後などの区間では小さくなる傾向にある。以下、音声の音量をSとし、音声の音量の最大値をSmax、最小値をSminと記す。また、音声ほどではないが、雑音についても音量は変動する。以下、雑音の音量をNとし、雑音の音量の最大値をNmax、最小値をNminと記す。
ここで、音声と非音声とを判定する際の閾値をθと記すと、閾値θが、Nmax<θ<Smin+Nminの範囲に含まれていれば、音声区間においてS>θの関係、及び、非音声区間においてN<θの関係が常に成り立つため、音声認識装置は、音声と非音声とを判定できる。この関係から、閾値θに求められる条件として、以下の2点が挙げられる。
(1)発声が終わるまで音声の音量の最小値Sminは分からないため、閾値θがとることのできる最大値は分からない。このため、ユーザ等は、θをできるだけ小さく設定したい。
(2)発声が終わるまで雑音の音量の最大値Nmaxは分からない(ただし、音声認識装置は、発声が始まる前までにおおよその雑音の音量を推定することは可能である。)。このため、ユーザ等は、θは推定された雑音の音量よりできるだけ大きく設定したい。
推定された雑音の値が小さい場合、ユーザ等は、上の2つの条件を満たす閾値θを設定することは比較的容易である。しかし、推定された雑音の値が大きい場合、ユーザ等は、適切な閾値θを設定するのは困難である。
また、特許文献2に記載された音声認識装置は、音声らしさの判定基準が固定されているため、変動する雑音に対応できないという問題がある。
以上のように、認識対象以外の音の悪影響を抑えようとしたときに、音声認識装置は、対象となる発話区間を正確に推定できない場合には、音声認識を効果的に行うことができないという課題がある。
そこで、上記の課題を解決するために、本発明は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる音声認識システム、音声認識方法および音声認識プログラムを提供することを目的とする。
本発明による音声認識システムは、音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしくは指定された長さのマージンを当該区間の前後に付加した区間を第1の音声区間と決定する音声判定手段と、音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第2の音声区間と決定するサーチ手段と、前記第1の音声区間の長さと前記第2の音声区間の長さとの差異に応じて、前記音声判定手段が第1の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新するパラメータ更新手段を備え、前記音声判定手段は、前記パラメータ更新手段が更新した閾値もしくはマージンを用いて、第1の音声区間を決定する。
本発明による音声認識方法は、音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしく指定された長さのマージンを当該区間の前後に付加した区間を第1の音声区間と決定し、音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第2の音声区間と決定し、前記第1の音声区間の長さと前記第2の音声区間の長さとの差異に応じて、前記第1の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新し、前記第1の音声区間を判定する際に、更新された閾値もしくはマージンを用いて、第1の音声区間を決定する。
本発明によるプログラム記録媒体に格納された音声認識プログラムは、コンピュータに、音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしくは指定された長さのマージンを当該区間の前後に付加した区間を第1の音声区間と決定する音声判定処理、音声認識に用いられる特徴量である音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第2の音声区間と決定するサーチ処理、および、前記第1の音声区間の長さと前記第2の音声区間の長さとの差異に応じて、前記音声判定処理で第1の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新するパラメータ更新処理を実行させ、前記音声判定処理で、前記パラメータ更新処理で更新した閾値もしくはマージンを用いて、第1の音声区間を決定させる。
本発明は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる音声認識システム、音声認識方法および音声認識プログラムを提供する。
本発明の第1の実施形態における音声認識システムの例を示すブロック図である。 第1の実施形態における音声認識システムの動作の例を示すフローチャートである。 入力音データの時系列と音声らしさを示す特徴量の時系列の例を示す説明図である。 第1の音声区間が第2の音声区間よりも長い場合の例を示す説明図である。 第1の音声区間が第2の音声区間よりも短い場合の例を示す説明図である。 本発明の第2の実施形態における音声認識システムの例を示すブロック図である。 仮の音声区間にマージンを付与した例を示す説明図である。 本発明による音声認識システムの最小構成の例を示すブロック図である。 特許文献1に記載された音声認識装置を示すブロック図である。 特許文献2に記載された音声認識装置を示すブロック図である。
以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
図1は、本発明の第1の実施形態における音声認識システムの例を示すブロック図である。本発明における音声認識システムは、マイクロフォン101と、フレーム化部102と、音声判定部103と、補正値算出部104と、特徴量算出部105と、非音声モデル格納部106と、語彙・音素モデル格納部107と、サーチ部108と、パラメータ更新部109とを備えている。
マイクロフォン101は、入力音を集音する装置である。
フレーム化部102は、マイクロフォン101で集音された時系列の入力音データを単位時間ごとに切り出す。なお、入力音データを単位時間ごとに切り出したデータをフレームと記す。すなわち、フレーム化部102は、入力音データをフレームごとに切り出す。
音声判定部103は、音声らしさを示す特徴量(以下、音声特徴量と記すこともある。)を時系列の入力音データをもとに算出する。すなわち、音声判定部103は、フレームごとに切り出された入力音データごとに音声らしさを示す特徴量を求める。そして、音声判定部103は、入力音を音声もしくは非音声に分類する値として定められた閾値(以下、閾値θと記す。)と音声特徴量とを比較して、その閾値をもとに決定される音声の区間もしくは非音声の区間(以下、第1の音声区間と記す。)のいずれに属するかをを判定する。例えば、音声判定部103は、入力音を音声もしくは非音声に分類する値として定められた閾値θよりも、算出された音声特徴量が大きい区間を第1の音声区間と判定する。なお、ここでは、閾値θよりも音声特徴量が大きい区間を第1の音声区間として説明する。音声らしさを示す特徴量(音声特徴量)は、例えば、振幅パワーである。ただし、音声らしさを示す特徴量は、振幅パワーに限定されない。このように、音声判定部103は、特徴量と閾値θとを比較することにより、第1の音声区間を判定する。
特徴量算出部105は、音声データをもとに音声認識に用いられる特徴量(以下、音声認識特徴量と記すこともある。)を算出する。具体的には、特徴量算出部105は、フレームごとに切り出された音声データから音声認識に用いられる特徴量(音声認識特徴量)を算出する。音声認識に用いられる特徴量(音声認識特徴量)は、例えば、ケプストラム特徴量及びその動的特徴量である。ただし、音声認識に用いられる特徴量は、ケプストラム特徴量に限定されない。音声認識に用いられる特徴量の算出方法は広く知られているため、詳細な説明は省略する。
なお、音声らしさを示す特徴量(音声特徴量)と、音声認識に用いられる特徴量(音声認識特徴量)とは、別の特徴量でも良いし、同一の特徴量でも良い。
非音声モデル格納部106は、音声認識の対象になる音声以外のパターンを表す非音声モデルを記憶する。以下の説明では、音声認識の対象になる音声以外のパターンを、非音声パターンと記すこともある。また、語彙・音素モデル格納部107は、音声認識の対象になる音声の語彙もしくは音素のパターンを表す語彙・音素モデルを記憶する。非音声モデル格納部106、及び、語彙・音素モデル格納部107は、例えば、隠れマルコフモデルなどの確率モデルで表される非音声モデル及び語彙・音素モデルを記憶する。なお、モデルのパラメータは、予め標準的な入力音データを用いて音声認識装置に学習させてもよい。非音声モデル格納部106及び語彙・音素モデル格納部107は、例えば、磁気ディスク装置等によって実現される。
サーチ部108は、音声認識に用いられる特徴量(音声認識特徴量)をもとに、音声の尤度及び非音声の尤度を算出し、この尤度及び上記モデルを用いて単語列を探索する。サーチ部108は、例えば、算出した音声の尤度のうち最尤の単語列を探索してもよい。
また、サーチ部108は、算出された音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間(以下、第2の音声区間と記す。)を判定する。具体的には、サーチ部108は、音声認識特徴量をもとに算出された音声の尤度が非音声の尤度よりも高い区間を第2の音声区間と判定する。
このように、サーチ部108は、フレーム毎の特徴量、語彙・音素モデル及び非音声モデルを用いて、入力音に対応する単語列(認識結果)を求めるとともに、第2の音声区間を求める。なお、音声の尤度とは、語彙・音素モデルで表わされる音声の語彙もしくは音素のパターンと、入力音とが一致する尤もらしさを表す数値である。同様に、非音声の尤度とは、非音声モデルで表わされる非音声パターンと、入力音とが一致する尤もらしさを表す数値である。
パラメータ更新部109は、第1の音声区間の長さと第2の音声区間の長さの差異に応じて閾値θを更新する。すなわち、パラメータ更新部109は、第1の音声区間と第2の音声区間を比較し、音声判定部103が用いる閾値θを更新する。このとき、音声判定部103は、更新された閾値θを用いて第1の音声区間を決定する。このように、音声判定部103は、パラメータ更新部109が更新する値(パラメータ)を用いて第1の音声区間を決定する。パラメータ更新部109が更新する閾値θは、音声判定部103が第1の音声区間を決定する際に用いるパラメータである。
補正値算出部104は、音声らしさを示す特徴量(音声特徴量)と閾値θとの差異に応じて、音声の尤度もしくは非音声の尤度を補正する値として用いられる補正値を算出する。すなわち、補正値算出部104は、音声らしさを示す特徴量(音声特徴量)と閾値θとから尤度の補正値を算出する。補正値が算出されると、サーチ部108は、この補正値をもとに補正された尤度に基づいて、第2の音声区間を判定する。
フレーム化部102と、音声判定部103と、補正値算出部104と、特徴量算出部105と、サーチ部108と、パラメータ更新部109とは、プログラム(音声認識プログラム)に従って動作するコンピュータのCPU(Central Processing Unit)によって実現される。例えば、プログラムは、音声認識装置の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、フレーム化部102、音声判定部103、補正値算出部104、特徴量算出部105、サーチ部108及びパラメータ更新部109として動作してもよい。また、フレーム化部102と、音声判定部103と、補正値算出部104と、特徴量算出部105と、サーチ部108と、パラメータ更新部109とは、それぞれが専用のハードウェアで実現されていてもよい。
次に、本実施の形態の動作について、図1及び図2を用いて説明する。図2は、本実施形態における音声認識システムの動作の例を示すフローチャートである。
まず、マイクロフォン101が入力音を集音すると、フレーム化部102は、集音された時系列の入力音データを単位時間ごとのフレームに切り出す(ステップS101)。例えば、フレーム化部102は、入力音データからの切り出し対象になる部分を、予め定められた時間ずつずらしながら、単位時間分の波形データを順次切り出してもよい。以下、この単位時間をフレーム幅と記し、この予め定められた時間をフレームシフトと呼ぶ。例えば、入力音データがサンプリング周波数8000Hzの16bit Linear−PCM(Pulse Code Modulation)の場合、1秒当たり8000点分の波形データが含まれている。この場合、フレーム化部102は、この波形データをフレーム幅200点(すなわち、25ミリ秒)、フレームシフト80点(すなわち、10ミリ秒)で時系列にしたがって逐次切り出す。
次に、音声判定部103は、フレームごとに切り出された入力音データの音声らしさを示す特徴量(すなわち、音声特徴量)を計算し、閾値θと比較することにより第1の音声区間を判定する(ステップS102)。なお、初期状態における閾値θの値として、例えば、ユーザ等が、予め閾値θの値を指定して設定してもよいし、発声が始まる前の非音声区間で推定された雑音の値をもとにその値よりも大きい値を設定してもよい。音声らしさ示す特徴量は、例えば、振幅パワーなどで表わすことができる。音声判定部103は、例えば、以下の式1によって振幅パワーxtを算出する。
Figure 2011070972
ここでstは時刻tにおける入力音データ(波形データ)の値であり、式1は、抽出した区間の波形データの平均値を振幅パワーxtとして算出していることを示す。
図3は、入力音データの時系列と音声らしさを示す特徴量及び音声認識に用いられる特徴量の時系列の例を示す説明図である。図3は、「こんにちは 林です」という音声3Cが入力されたときの音声らしさを示す特徴量の時系列3Aと、音声認識に用いられる特徴量の時系列3Bとを表している。
図3における時系列3Aが示すように、振幅パワーが閾値θより大きければより音声らしいと言えるため、音声判定部103は、その区間を音声区間(図3におけるL1)と判定する。一方、振幅パワーが閾値θより小さければ、より非音声らしいと言えるため、音声判定部103は、その区間を非音声区間と判定する。なお、ここでは、音声らしさを示す特徴量として振幅パワーを用いる場合について説明した。他にも、音声判定部103は、音声らしさを示す特徴量として、信号雑音比(SN比)や、ゼロ交差数、音声モデルと非音声モデルとの尤度比や、ガウス混合分布モデルに基づく尤度比(GMM尤度比)、ピッチ周波数、もしくはこれらの組合せなどを算出し、これらの特徴量を用いて音声区間を判定しても良い。
次に、補正値算出部104は、音声らしさを示す特徴量と閾値θとから尤度の補正値を算出する(ステップS103)。なお、この尤度の補正値は、後述するサーチ部108が単語列を探索する際に算出する語彙・音声モデルおよび非音声モデルに対する特徴量の尤度の補正値として利用される。
補正値算出部104は、語彙・音素モデルに対する尤度の補正値を、例えば、以下の式2により算出する。
(語彙・音素モデルに対する尤度の)補正値= w ×(xt−θ)(式2)
ここで、wは、補正値に対するファクターであり、正の実数値をとる。具体的には、wは、後述する対数尤度を一度の補正で変化させる量を調整するパラメータである。wが大きい場合、適切な補正値に素早く収束することができる。一方、wが小さい場合、音声認識装置は、閾値θを過度に変化させることを抑え、補正値を安定して変化させることができる。例えば、システム管理者はこれらのバランスを考慮し適切なwの値を予め定めておいてもよい。
また、補正値算出部104は、非音声モデルに対する尤度の補正値を、例えば、以下の式3により算出する。
(非音声モデルに対する尤度の)補正値= w ×(θ−xt)(式3)
ここでは、補正値が音声らしさを示す特徴量xtの一次関数で算出される例について説明した。ただし、補正値算出部104が補正値を算出する方法は、音声らしさを示す特徴量xtの一次関数を用いる場合に限定されない。補正値算出部104は、特徴量xtが閾値θに比べて大きい場合に補正値を大きく算出し、特徴量xtを閾値θに比べて小さく算出するという関係性が保たれていれば、他の関数を用いて補正値を算出してもよい。
また、ここでは、補正値算出部104が、語彙・音素モデルに対する尤度の補正値と非音声モデルに対する尤度の補正値のいずれも算出する場合について説明した。ただし、補正値算出部104は、語彙・音素モデルに対する尤度の補正値と非音声モデルに対する尤度の補正値の両方を算出しなくてもよい。例えば、補正値算出部104は、どちらか一方の補正値のみを算出し、もう一方の補正値を0としてもよい。
次に、特徴量算出部105は、フレームごとに切り出された入力音データから音声認識に用いる特徴量(音声認識特徴量)を算出する(ステップS104)。
サーチ部108は、フレームごとの特徴量(音声識別特徴量)と、語彙・音素モデルと、非音声モデルとを用いて、入力音データの時系列に対応する単語列を探索するとともに、第2の音声区間を判定する(ステップS105)。サーチ部108は、例えば、語彙・音素モデルおよび非音声モデルとして、隠れマルコフモデルを用いて単語列を探索する。なお、各モデルのパラメータは、予め標準的な入力音データを用いて音声認識装置に学習させたパラメータでもよい。
次に、サーチ部108が第2の音声区間を判定する方法について、具体的に説明する。まず、サーチ部108は、音声の尤度及び非音声の尤度を算出する。一般的な音声認識では、特徴量と各モデルとの距離尺度として対数尤度が用いられる。そのため、ここでは、対数尤度を用いる場合について説明する。サーチ部108は、例えば、以下の式4に基づいて、音声及び非音声の対数尤度を計算してもよい。
Figure 2011070972
ここで、logL(y;θ)は、音声(非音声)のパターン列yが与えられたときの音声(非音声)の対数尤度であり、y(i)は、音声認識に用いられる特徴量(音声認識特徴量)である。また、μ及びσ(まとめてθと表わす。)は、モデルごとに設定されるパラメータである。なお、ここでは、nの値はn=1でもよい。このように、サーチ部108は、音声の尤度及び非音声の尤度を音声認識特徴量をもとに算出する。なお、上記説明では、サーチ部108が尤度として対数尤度を算出する場合について説明した。ただし、尤度として算出する内容は、対数尤度に限定されない。
ここで、フレームごとの特徴量の時系列と、上記語彙・音素モデルに含まれる各語彙・音素を表すモデルとの対数尤度をLs(j,t)と表す。jは、各語彙・音素モデルの一状態を示す。サーチ部108は、以下に例示する式5により、補正値算出部104が算出した補正値を用いて、対数尤度Ls(j,t)を補正する。
Ls(j,t)← Ls(j,t)+ w ×(xt−θ)(式5)
また、フレームごとの特徴量の時系列と、上記非音声モデルに含まれる各非音声を表すモデルとの対数尤度をLn(j,t)と表す。jは、非音声モデルの一状態を示す。このとき、サーチ部108は、以下に例示する式6により、補正値算出部104が算出した補正値を用いて、対数尤度Ln(j,t)を補正する。
Ln(j,t)← Ln(j,t)+ w ×(θ−xt)(式6)
サーチ部108は、補正された対数尤度の時系列のうち、対数尤度が最大になる音声の語彙もしくは音素のパターン、又は、非音声のパターンを探索することにより、入力音データの時系列に対応する図3に例示する音声3Cのような単語列を探索する。例えば、上述の式4を用いる場合、サーチ部108は、logL(y;θ)の値を最大化するθの値を求める。また、このとき、サーチ部108は、補正された語彙・音素モデルの対数尤度が、補正された非音声モデルの対数尤度より大きい区間を第2の音声区間と判定する。図3に示す例では、サーチ部108が、時系列3Bが波形で示されている部分を第2の音声区間L2と判定したことを示す。
以上のように、サーチ部108は、対数尤度Ls及びLnを算出し、算出された対数尤度Ls及びLnを、尤度の補正値を用いて補正する。そして、サーチ部108は、補正されたLs及びLnが、Ls(j,t)>Ln(j,t)を満たす区間を、第2の音声区間と判断する。
なお、上記説明では、サーチ部108が式4を用いて対数尤度を算出し、第2の音声区間を判定する場合について説明した。ただし、サーチ部108がA*探索やビームサーチといった方法を用いて第2の音声区間を判定してもよい。すなわち、語彙・音素を表すモデル及び非音声を表すモデルを用いたときにA*探索やビームサーチなどにより算出されるスコアは、音声・非音声についての尤度である。そのため、サーチ部108は、算出した音声のスコアが非音声のスコアよりも高い区間を第2の音声区間と判定してもよい。
次に、パラメータ更新部109は、音声判定部103が判定した第1の音声区間と、サーチ部108が判定した第2の音声区間とを比較し、音声判定部103が用いるパラメータである閾値θの値を更新する(ステップS106)。具体的には、パラメータ更新部109は、第1の音声区間の長さと第2の音声区間の長さに応じて第1の音声区間を判定するための閾値θの値を更新する。
以下、図4及び図5を用いて、パラメータ更新部109が閾値θの値を更新する動作について説明する。図4は、第1の音声区間が第2の音声区間よりも長い場合の例を示す説明図である。また、図5は、第1の音声区間が第2の音声区間よりも短い場合の例を示す説明図である。図4に例示するように、第1の音声区間の長さL1が第2の音声区間の長さL2よりも長い場合、パラメータ更新部109は、閾値θをより大きくなるように更新する。反対に、図5に例示するように、第1の音声区間の長さL1が第2の音声区間の長さL2よりも短い場合、パラメータ更新部109は、閾値θをより小さくなるように更新する。具体的には、パラメータ更新部109は、以下に例示する式7を用いて閾値θを更新する。
θ ← θ+ε(L2−L1)(式7)
ここで、εはステップサイズを示す正の値であり、一度の更新で閾値θを変化させる量を調整するパラメータである。
上記説明では、パラメータ更新部109が音声区間の長さに基づいて閾値θを更新する場合について説明した。他にも、パラメータ更新部109は、非音声区間の長さに基づいて閾値θを更新してもよい。この場合、音声判定部103は、音声特徴量が閾値θよりも小さい区間を第1の音声区間と判定する。サーチ部108は、補正された非音声についての尤度Lnが、補正された音声についての尤度Lsよりも高い区間を第2の音声区間と判定する。
また、上記説明では、パラメータ更新部109が音声区間の長さの差異に応じて閾値θの値を更新する場合について説明した。他にも、パラメータ更新部109は、音声区間もしくは非音声区間の長さの大小を判定し、その大小に応じて予め定められた値ずつ閾値θを更新してもよい。
例えば、パラメータ更新部109は、第2の音声区間の長さL2>第1の音声区間の長さL1の場合に、θ←θ+εと補正し、第2の音声区間の長さL2<第1の音声区間の長さL1の場合に、θ←θ−εと補正してもよい。
パラメータ更新部109は、例えば、一発声ごとや、一つの音声区間を判定するごとに、閾値θを更新する。ただし、パラメータ更新部109が閾値θを更新するタイミングは、上記タイミングに限定されない。例えば、パラメータ更新部109は、発話者の指示に応じて閾値θを更新してもよい。そして、パラメータ更新部109は、更新された閾値θを用いて、次の発声や次の音声区間に対するステップS101からステップS106の処理を繰り返す。
なお、パラメータ更新部109は、更新された閾値θを用いて、同一の発声に対するステップS102からステップS106の処理を行ってもよい。また、パラメータ更新部109は、同一の発声に対するS102からステップS106の処理を1回だけでなく、複数回繰り返して行ってもよい。
次に、本実施形態における効果について説明する。以上のように、本実施形態における音声認識装置は、音声判定部103が、音声らしさを示す特徴量を時系列の入力音をもとに算出し、閾値θと音声らしさを示す特徴量とを比較して、音声の区間(もしくは非音声の区間)を判定し、第1の音声区間を決定する。また、サーチ部108が、音声認識に用いられる特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、第2の音声区間を決定する。そして、パラメータ更新部109が、第1の音声区間の長さと第2の音声区間の長さとの差異に応じて閾値θを更新し、音声判定部103が、更新された閾値θを用いて第1の音声区間を決定する。このような構成により、音声認識装置は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる。
すなわち、補正値算出部104が、音声らしさを示す特徴量と閾値θとから尤度の補正値を算出し、サーチ部108が、その補正値によって補正された尤度をもとに音声を識別する。そのため、サーチ部108が、認識対象となる音声を正しく認識し、それ以外を非音声と判定しやすくなる。このようにして、雑音に頑健な音声認識が実現される。
さらに、パラメータ更新部109が、第1の音声区間と第2の音声区間とを比較し、その比較結果に基づいて音声判定部103が用いる閾値を更新する。そのため、閾値が雑音環境に対して正しく設定されていない場合や、雑音環境が時刻に応じて変動するような場合であっても、尤度の補正値を正確に求めることが出来るため、より雑音に頑健な音声認識を実現できる。
一般に音声判定部103よりもサーチ部108の方がより正しく音声区間を判定できる。これは、サーチ部108が、単語・音素モデルや非音声モデルなど、より多くの情報を用いて音声区間を判定しているためである。これに対し、音声判定部103は、雑音の状況に応じて最適値の異なる閾値を用いて音声区間を判定するため、誤りの混入する可能性が高い。本実施形態における音声認識装置は、音声判定部103が判定した第1の音声区間をより正しくするために、パラメータ更新部109が、サーチ部108が判定した第2の音声区間を用いて閾値を更新する。そのため、音声判定部103は、より精度の高い探索を次の発声に対して行うことができる。以上のことから、本発明の目的を達成できる。
実施形態2.
次に、本発明による第2の実施形態について説明する。図6は、本発明の第2の実施形態における音声認識システムの例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本発明における音声認識システムは、マイクロフォン101と、フレーム化部102と、音声判定部113と、補正値算出部104と、特徴量算出部105と、非音声モデル格納部106と、語彙・音素モデル格納部107と、サーチ部108と、パラメータ更新部119とを備えている。すなわち、第2の実施形態における音声認識システムは、図6に例示するように、第1の実施形態における音声認識システムの構成の音声判定部103の代わりに、音声判定部113を、パラメータ更新部109の代わりに、パラメータ更新部119を、それぞれ備えている。
音声判定部113は、音声らしさを示す特徴量(すなわち、音声特徴量)を時系列の入力音をもとに算出する。そして、音声判定部113は、入力音を音声もしくは非音声に分類する閾値θと音声特徴量とを比較し、その閾値θをもとに決定される音声の区間もしくは非音声の区間に対して、その区間の前後にマージン(以下、マージンmと記す。)を付加した区間を第1の音声区間と決定する。具体的には、音声判定部113は、音声らしさを示す特徴量が、閾値θよりも大きい区間の前後にマージンmを付加した区間を第1の音声区間と決定する。このように、音声判定部113は、音声らしさを示す特徴量が閾値θよりも大きい音声の区間にマージンを加えた区間を第1の音声区間と判定する。閾値θの値は、予め定められた固定の値であってもよく、第1の実施形態に示すように、随時更新される値であってもよい。以下の説明では、閾値θの値として、予め定められた固定の値を用いるものとする。
パラメータ更新部119は、第1の音声区間の長さと第2の音声区間の長さの差異に応じてマージンmを更新する。すなわち、パラメータ更新部119は、第1の音声区間と第2の音声区間を比較し、音声判定部113が用いるマージンmの長さを更新する。このとき、音声判定部113は、更新されたマージンmを用いて第1の音声区間を決定する。このように、音声判定部113は、パラメータ更新部119が更新する値(パラメータ)を用いて第1の音声区間を決定する。パラメータ更新部119が更新するマージンmは、音声判定部113が第1の音声区間を決定する際に用いるパラメータである。
その他の構成(マイクロフォン101、フレーム化部102、補正値算出部104、特徴量算出部105、非音声モデル格納部106、語彙・音素モデル格納部107及びサーチ部108)については、第1の実施形態と同様である。
フレーム化部102と、音声判定部113と、補正値算出部104と、特徴量算出部105と、サーチ部108と、パラメータ更新部119とは、プログラム(音声認識プログラム)に従って動作するコンピュータのCPUによって実現される。また、フレーム化部102と、音声判定部113と、補正値算出部104と、特徴量算出部105と、サーチ部108と、パラメータ更新部119とは、それぞれが専用のハードウェアで実現されていてもよい。
次に、本実施の形態の動作について、図6及び図2を用いて説明する。本発明の本実施形態における動作は、図2におけるステップS102とステップS106が変更されている点で第1の実施形態の動作と異なる。
マイクロフォン101が集音した入力音をフレーム化部102がフレームごとに切り出すと(ステップS101)、音声判定部113は、フレームごとに切り出された入力音データの音声らしさを示す特徴量(すなわち、音声特徴量)を計算する。音声らしさを示す特徴量を計算する方法は、第1の実施形態と同様である。次に、音声判定部113は、音声らしさを示す特徴量と閾値θとを比較し、仮の音声区間を求める。仮の音声区間を求める方法は、第1の実施形態において、第1の音声区間を求める方法と同様である。例えば、音声判定部113は、音声らしさを示す特徴量が閾値θよりも大きい区間を仮の音声区間とする。そして、音声判定部113は、仮の音声区間の前後にマージンmを付与した区間を第1の音声区間と判定する(ステップS102)。
図7は、仮の音声区間にマージンを付与した例を示す説明図である。図7に示す例では、まず、音声判定部113が、時系列7Aが示す特徴量と閾値θとを比較し、閾値θよりも大きい部分を仮の音声区間71及び音声区間72とする。ここで、音声判定部113は、仮の音声区間の前後にマージンとして、マージン73a、マージン73b、マージン73cを付加した区間を第1の音声区間と判定する。
以降、補正値算出部104が尤度の補正値を算出し、特徴量算出部105が音声認識に用いられる特徴量を算出する処理、及び、サーチ部108が単語列を探索するとともに第2の音声区間を判定する処理は、第1の実施形態におけるステップS103〜ステップS105の処理と同様である。
次に、パラメータ更新部119は、音声判定部113が判定した第1の音声区間と、サーチ部108が判定した第2の音声区間とを比較し、音声判定部113が用いるパラメータであるマージンmの値を更新する(ステップS106)。ここでは、パラメータ更新部119は、第1の音声区間の長さと第2の音声区間の長さに応じて仮の音声区間に付与するマージンmの値を更新する。
以下、図4及び図5を用いて、パラメータ更新部119がマージンmの値を更新する動作について説明する。図4に例示するように、第1の音声区間の長さL1が第2の音声区間の長さL2よりも長い場合、パラメータ更新部119は、マージンmをより短くなるように更新する。反対に、図5に例示するように、第1の音声区間の長さL1が第2の音声区間の長さL2よりも短い場合には、パラメータ更新部119は、マージンmをより長くなるように更新する。具体的には、パラメータ更新部119は、以下に例示する式8を用いてマージンmを更新する。
m ← m+ε(L1−L2)(式8)
ここで、εはステップサイズを示す正の値であり、一度の更新でマージンmの長さを変化させる量を調整するパラメータである。
上記説明では、パラメータ更新部119が音声区間の長さに基づいてマージンmを更新する場合について説明した。他にも、パラメータ更新部119は、非音声区間の長さに基づいてマージンmを更新してもよい。この場合、音声判定部113が、閾値θよりも小さい音声の区間である仮の音声区間にマージンmを付与した第1の音声区間を判定し、サーチ部108が、補正された非音声についての尤度Lnが、補正された音声についての尤度Lsよりも高い区間を第2の音声区間と判定すればよい。
また、パラメータ更新部119は、マージンmの長さだけでなく、第1の実施形態における閾値θの値もあわせて更新してもよい。具体的には、パラメータ更新部119は、第1の音声区間の長さが第2の音声区間の長さよりも長い場合に、マージンmの長さをより短く更新するとともに、閾値θを増加させた値に更新する。また、パラメータ更新部119は、第1の音声区間の長さが第2の音声区間の長さよりも短い場合に、マージンmの長さをより長く更新するとともに、閾値θを減少させた値に更新する。なお、閾値を更新する方法は、第1の実施形態に記載した方法と同様である。
また、上記説明では、パラメータ更新部119が音声区間の長さの差異に応じてマージンmを更新する場合について説明した。他にも、パラメータ更新部119は、音声区間もしくは非音声区間の長さの大小を判定し、その大小に応じて予め定められた値ずつマージンmを更新してもよい。
例えば、パラメータ更新部119は、第2の音声区間の長さL2>第1の音声区間の長さL1の場合に、m←m+εと補正し、第2の音声区間の長さL2<第1の音声区間の長さL1の場合に、m←m−εと補正してもよい。
パラメータ更新部119は、例えば、一発声ごとのタイミングや、一つの音声区間を判定したこと契機としてマージンmを更新する。ただし、パラメータ更新部119がマージンmを更新するタイミングは、上記タイミングに限定されない。例えば、パラメータ更新部119は、発話者の指示に応じてマージンmを更新してもよい。そして、パラメータ更新部119は、更新されたマージンmを用いて、次の発声や次の音声区間に対するステップS101からステップS106の処理を繰り返す。
なお、パラメータ更新部119は、更新されたマージンmを用いて、同一の発声に対するステップS102からステップS106の処理を行ってもよい。また、パラメータ更新部119は、同一の発声に対するS102からステップS106の処理を1回だけでなく、複数回繰り返して行ってもよい。
次に、本実施形態における効果について説明する。以上のように、本実施形態における音声認識装置は、音声判定部113が、音声特徴量が閾値θよりも大きい区間の前後にマージンmを付加した区間を第1の音声区間と決定し、パラメータ更新部119が、区間の前後に付加するマージンmの長さを更新する。そして、音声判定部113が、更新されたマージンmを区間の前後に付加した区間を第1の音声区間と決定する。以上のような構成によっても、音声認識装置は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる。
一般的に子音は母音に比べてパワーが小さく、雑音と混同されやすい為、音声区間の前後が欠けやすい。このように、音声認識装置は、前後が欠けやすい音声区間を仮の音声区間とし、この仮の音声区間にマージンmを付与することにより、音声の欠落を防ぐことができる。
なお、マージンmの長さを長く設定しすぎると、音声認識の対象以外の音が音声と認識される可能性がある。そのため、マージンmの長さは、背景雑音に応じて適切に設定されることが望ましい。本実施形態における音声認識装置は、パラメータ更新部119が、第1の音声区間の長さと第2の音声区間の長さに基づいてマージンmの長さを適切に更新するため、雑音に頑健な音声認識が実現でき、本発明の目的を達成できる。
次に、本発明による音声認識システムの最小構成の例を説明する。図8は、本発明による音声認識システムの最小構成の例を示すブロック図である。本発明による音声認識システムは、音声らしさを示す特徴量である音声特徴量(例えば、振幅パワー)を時系列の入力音(例えば、フレームごとに切り出された入力音データ)をもとに算出し、音声もしくは非音声に入力音を分類する値として定められた閾値(例えば、閾値θ)と音声特徴量とを比較して音声の区間(例えば、音声特徴量が閾値θよりも大きい区間)もしくは非音声の区間(例えば、音声特徴量が閾値θよりも小さい区間)を判定し、それらの区間もしくは指定された長さのマージン(例えば、マージンm)をそれらの区間の前後に付加した区間を第1の音声区間と決定する音声判定手段81(例えば、音声判定部103)と、音声認識に用いられる特徴量である音声認識特徴量をもとに算出される(例えば、式4を用いて算出される)音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間(例えば、音声の尤度が非音声の尤度よりも高い区間)を第2の音声区間と決定するサーチ手段82(例えば、サーチ部108)と、第1の音声区間の長さと第2の音声区間の長さとの差異に応じて、音声判定手段81が第1の音声区間を決定する際に用いられる閾値及びマージンのうちの少なくとも一方を更新するパラメータ更新手段83(例えば、パラメータ更新部109、パラメータ更新部119)を備えている。
音声判定手段81は、パラメータ更新手段83が更新した閾値もしくはマージンを用いて、第1の音声区間を決定する。
上記の構成である音声認識装置は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる。
なお、少なくとも以下に示すような音声認識システムも、上記に示すいずれかの実施形態に開示されている。
(1)音声らしさを示す特徴量である音声特徴量(例えば、振幅パワー)を時系列の入力音(例えば、フレームごとに切り出された入力音データ)をもとに算出し、音声もしくは非音声に入力音を分類する値として定められた閾値(例えば、閾値θ)と音声特徴量とを比較して音声の区間(例えば、音声特徴量が閾値θよりも大きい区間)もしくは非音声の区間(例えば、音声特徴量が閾値θよりも小さい区間)を判定し、それらの区間もしくは指定された長さのマージン(例えば、マージンm)をそれらの区間の前後に付加した区間を第1の音声区間と決定する音声判定手段(例えば、音声判定部103)と、音声認識に用いられる特徴量である音声認識特徴量をもとに算出される(例えば、式4を用いて算出される)音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間(例えば、音声の尤度が非音声の尤度よりも高い区間)を第2の音声区間と決定するサーチ手段(例えば、サーチ部108)と、第1の音声区間の長さと第2の音声区間の長さとの差異に応じて、音声判定手段が第1の音声区間を決定する際に用いられる閾値及びマージンのうちの少なくとも一方を更新するパラメータ更新手段(例えば、パラメータ更新部109、パラメータ更新部119)を備え、音声判定手段が、パラメータ更新手段が更新した閾値もしくはマージンを用いて、第1の音声区間を決定する音声認識システム。
(2)パラメータ更新手段が、第1の音声区間の長さが第2の音声区間の長さよりも長い場合に閾値を増加させ、第1の音声区間の長さが第2の音声区間の長さよりも短い場合に閾値を減少させる音声認識システム。
(3)パラメータ更新手段が、第1の音声区間の長さが第2の音声区間の長さよりも長い場合にマージンの長さを短くし、第1の音声区間の長さが第2の音声区間の長さよりも短い場合にマージンの長さを長くする音声認識システム。
(4)音声認識の対象になる音声の語彙もしくは音素のパターンを表す語彙音素モデルを記憶する語彙音素モデル記憶手段(例えば、語彙・音素モデル格納部107)と、音声認識の対象になる非音声のパターンを表す非音声モデルを記憶する非音声音声モデル記憶手段(例えば、非音声モデル格納部106)とを備え、サーチ手段が、音声認識特徴量をもとに、音声の尤度である前記語彙音素モデルの尤度及び非音声の尤度である前記非音声モデルの尤度を算出し、音声の尤度の最大値が非音声の尤度の最大値よりも大きい場合、音声の尤度が最大になる音声の語彙もしくは音素のパターンを探索し、非音声の尤度の最大値が音声の尤度の最大値よりも大きい場合、非音声の尤度が最大になる非音声のパターンを探索する音声認識システム。
(5)音声特徴量と閾値との差異に応じて、語彙音素モデルの尤度と非音声モデルの尤度のうちの少なくとも1つの尤度を補正する値として用いられる補正値を算出する(例えば、式5もしくは式6を用いて算出する)補正値算出手段(例えば、サーチ部108)を備え、サーチ手段が、補正値をもとに補正された尤度に基づいて、第2の音声区間を判定する音声認識システム。
(6)補正値算出手段が、音声特徴量から閾値を減じた値を語彙音素モデルの尤度の補正値として算出し(例えば、式2を用いて補正値を算出し)、閾値から音声特徴量を減じた値を非音声モデルの尤度の補正値として算出する(例えば、式3を用いて補正値を算出する)音声認識システム。
(7)音声判定手段は、時系列の入力音をもとに、振幅パワー、信号雑音比、ゼロ交差数、ガウス混合分布モデルに基づく尤度比若しくはピッチ周波数又はこれらの組合せを音声特徴量として算出する音声認識システム。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
この出願は、2009年12月10日に出願された日本出願特願2009−280927を基礎とする優先権を主張し、その開示の全てをここに取り込む。
101 マイクロフォン
102 フレーム化部
103,113 音声判定部
104 補正値算出部
105 特徴量算出部
106 非音声モデル格納部
107 語彙・音素モデル格納部
108 サーチ部
109,119 パラメータ更新部
本発明は、背景雑音の存在する環境で音声を認識する音声認識システム、音声認識方法および音声認識プログラムに関する。
一般的な音声認識システムは、マイクロフォンなどで集音された入力音の時系列データから特徴量の時系列を抽出し、認識対象になる単語及び音素モデルと、認識対象以外の非音声のモデルとを用いて特徴量の時系列に対する尤度を計算する。そして、音声認識システムは、計算された尤度をもとに入力音の時系列に対応する単語列をサーチし、認識結果を出力する。また、音声を認識する精度を向上させる方法について、複数の提案がなされている。
特許文献1には、無音部分に起因する音声認識性能の劣化を低減する音声認識装置が記載されている。図9は特許文献1に記載された音声認識装置を示す説明図である。特許文献1に記載された音声認識装置は、入力音を集音するマイクロフォン201と、集音された音の時系列データを所定の時間単位で切り出すフレーム化部202と、ノイズ区間を抽出するノイズ観測区間抽出部203と、ユーザが発話の開始をシステムに通知するための発話スイッチ204と、切り出された音声データごとに特徴量を抽出する特徴量抽出部205と、特徴量の時系列に対して音声認識を行う音声認識部208と、音声認識部で用いる音響モデルのうち、無音のモデルを補正する無音モデル補正部207とを備えている。
特許文献1に記載された音声認識装置は、ノイズ観測区間抽出部203が、発話スイッチ204が押される直前の区間から背景雑音を推定し、無音モデル補正部207が、推定された背景雑音に基づいて無音モデルを背景雑音環境に適応させる。このような構成により、対象とする音声以外を無音と判定しやすくすることで、音声認識装置は、音声の誤認識を軽減させる。
特許文献2には、ガベジモデル学習時に使用したデータ以外の背景雑音が付加された音声区間に対する誤認識率を低下させる音声認識装置が記載されている。図10は特許文献2に記載された音声認識装置を示す説明図である。特許文献2に記載された音声認識装置は、集音された音の時系列データから特徴量の時系列を分析する分析手段302と、特徴量に基づいて補正量を算出する補正値算出手段303と、特徴量の時系列から認識対象単語列を照合する照合手段304と、背景雑音に対応する音パターンをモデル化したガベジモデル305と、認識対象語彙モデル306とを備えている。
特許文献2に記載された音声認識装置では、補正値算出手段303が、特徴量からピッチ周波数、フォルマント周波数及び帯域幅の特徴量などから音声らしさを判定する。そして、補正値算出手段303は、判定結果をもとに、ガベジモデルに対する尤度を補正するための補正値を求める。そして、照合手段304は、上述の補正値を用いて補正したガベジモデルに対する尤度、特徴量、ガベジモデル及び認識対象語彙モデルを用いて、パターンマッチングを行う。このような構成により、音声認識装置は、認識対象の音声のみを正しく認識できる。
また、非特許文献1には、音声データから音声を認識する方法及び音声認識で用いられるモデルが記載されている。
特開2002−156992号公報 特開2007−17736号公報
安藤彰男、「リアルタイム音声認識」、電子情報通信学会、2003年9月、p.28−33,p.59−61,p.148−165
音声認識を行う場合、背景雑音や回線ノイズ、マイクロフォンを叩く音などの突発的な雑音などが存在することがある。このような場合、特許文献1及び特許文献2に記載された音声認識装置を用いることにより、音声認識の誤りを抑制することが可能になる。
すなわち、特許文献1に記載された音声認識装置は、認識対象以外の音の悪影響を抑えるために、発話スイッチが押される直前の区間から雑音を推定することで、無音モデルを背景雑音環境に適応させている。しかしながら、特に音声認識に不慣れな話者が、発話スイッチを押す前に話し始めてしまう場合や、発話スイッチを押してからしばらく時間が経ってから話し始めてしまう場合などがある。この場合、発話スイッチが押されている時間と認識対象の発声が行われる時間とが必ずしも対応するとは限らない。そのため、このような場合には、音声認識装置は、対象となる発話区間を正確に推定できないという問題がある。
また、特許文献2に記載された音声認識装置は、認識対象以外の音の悪影響を抑えるために、ピッチ周波数や、フォルマント周波数、帯域幅の特徴量などから音声らしさを判定し、ガベジモデルに対する尤度を補正するための補正値を求めている。しかしながら、高雑音環境下では、音声らしさの判定が必ずしも正確であるとは限らないため、算出した補正値が音声らしさを判定するうえで悪影響を及ぼす場合がある。
以下、高雑音環境下で生じる問題について説明する。例えば、低雑音環境下では、音声認識装置は、パワー(音量)が異なることを利用して、音声区間(人が発声している区間)とそれ以外の非音声区間とを判定することができる。すなわち、人が発声していない区間は音量が小さく、人が発声している区間は音量が大きいため、音声認識装置は、音量がある閾値以上であるか否かを判定することにより、音声と非音声とを判定することができる。しかし、高雑音環境下では、人が発声していなくても雑音の音量が大きい。また、音声か非音声かを判定するために定められる閾値は雑音の音量に依存するため、音声と非音声の判定は困難になる。
具体例を用いて、音声と非音声の判定が困難になる理由について説明する。一般的に、音声の音量は、比較的大きくはっきり話している区間では大きくなり、発声の最初や最後などの区間では小さくなる傾向にある。以下、音声の音量をSとし、音声の音量の最大値をSmax、最小値をSminと記す。また、音声ほどではないが、雑音についても音量は変動する。以下、雑音の音量をNとし、雑音の音量の最大値をNmax、最小値をNminと記す。
ここで、音声と非音声とを判定する際の閾値をθと記すと、閾値θが、Nmax<θ<Smin+Nminの範囲に含まれていれば、音声区間においてS>θの関係、及び、非音声区間においてN<θの関係が常に成り立つため、音声認識装置は、音声と非音声とを判定できる。この関係から、閾値θに求められる条件として、以下の2点が挙げられる。
(1)発声が終わるまで音声の音量の最小値Sminは分からないため、閾値θがとることのできる最大値は分からない。このため、ユーザ等は、θをできるだけ小さく設定したい。
(2)発声が終わるまで雑音の音量の最大値Nmaxは分からない(ただし、音声認識装置は、発声が始まる前までにおおよその雑音の音量を推定することは可能である。)。このため、ユーザ等は、θは推定された雑音の音量よりできるだけ大きく設定したい。
推定された雑音の値が小さい場合、ユーザ等は、上の2つの条件を満たす閾値θを設定することは比較的容易である。しかし、推定された雑音の値が大きい場合、ユーザ等は、適切な閾値θを設定するのは困難である。
また、特許文献2に記載された音声認識装置は、音声らしさの判定基準が固定されているため、変動する雑音に対応できないという問題がある。
以上のように、認識対象以外の音の悪影響を抑えようとしたときに、音声認識装置は、対象となる発話区間を正確に推定できない場合には、音声認識を効果的に行うことができないという課題がある。
そこで、上記の課題を解決するために、本発明は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる音声認識システム、音声認識方法および音声認識プログラムを提供することを目的とする。
本発明による音声認識システムは、音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしくは指定された長さのマージンを当該区間の前後に付加した区間を第1の音声区間と決定する音声判定手段と、音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第2の音声区間と決定するサーチ手段と、前記第1の音声区間の長さと前記第2の音声区間の長さとの差異に応じて、前記音声判定手段が第1の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新するパラメータ更新手段を備え、前記音声判定手段は、前記パラメータ更新手段が更新した閾値もしくはマージンを用いて、第1の音声区間を決定する。
本発明による音声認識方法は、音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしく指定された長さのマージンを当該区間の前後に付加した区間を第1の音声区間と決定し、音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第2の音声区間と決定し、前記第1の音声区間の長さと前記第2の音声区間の長さとの差異に応じて、前記第1の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新し、前記第1の音声区間を判定する際に、更新された閾値もしくはマージンを用いて、第1の音声区間を決定する。
本発明によるプログラム記録媒体に格納された音声認識プログラムは、コンピュータに、音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしくは指定された長さのマージンを当該区間の前後に付加した区間を第1の音声区間と決定する音声判定処理、音声認識に用いられる特徴量である音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第2の音声区間と決定するサーチ処理、および、前記第1の音声区間の長さと前記第2の音声区間の長さとの差異に応じて、前記音声判定処理で第1の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新するパラメータ更新処理を実行させ、前記音声判定処理で、前記パラメータ更新処理で更新した閾値もしくはマージンを用いて、第1の音声区間を決定させる。
本発明は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる音声認識システム、音声認識方法および音声認識プログラムを提供する。
[図1]本発明の第1の実施形態における音声認識システムの例を示すブロック図である。
[図2]第1の実施形態における音声認識システムの動作の例を示すフローチャートである。
[図3]入力音データの時系列と音声らしさを示す特徴量の時系列の例を示す説明図である。
[図4]第1の音声区間が第2の音声区間よりも長い場合の例を示す説明図である。
[図5]第1の音声区間が第2の音声区間よりも短い場合の例を示す説明図である。
[図6]本発明の第2の実施形態における音声認識システムの例を示すブロック図である。
[図7]仮の音声区間にマージンを付与した例を示す説明図である。
[図8]本発明による音声認識システムの最小構成の例を示すブロック図である。
[図9]特許文献1に記載された音声認識装置を示すブロック図である。
[図10]特許文献2に記載された音声認識装置を示すブロック図である。
以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
図1は、本発明の第1の実施形態における音声認識システムの例を示すブロック図である。本発明における音声認識システムは、マイクロフォン101と、フレーム化部102と、音声判定部103と、補正値算出部104と、特徴量算出部105と、非音声モデル格納部106と、語彙・音素モデル格納部107と、サーチ部108と、パラメータ更新部109とを備えている。
マイクロフォン101は、入力音を集音する装置である。
フレーム化部102は、マイクロフォン101で集音された時系列の入力音データを単位時間ごとに切り出す。なお、入力音データを単位時間ごとに切り出したデータをフレームと記す。すなわち、フレーム化部102は、入力音データをフレームごとに切り出す。
音声判定部103は、音声らしさを示す特徴量(以下、音声特徴量と記すこともある。)を時系列の入力音データをもとに算出する。すなわち、音声判定部103は、フレームごとに切り出された入力音データごとに音声らしさを示す特徴量を求める。そして、音声判定部103は、入力音を音声もしくは非音声に分類する値として定められた閾値(以下、閾値θと記す。)と音声特徴量とを比較して、その閾値をもとに決定される音声の区間もしくは非音声の区間(以下、第1の音声区間と記す。)のいずれに属するかを判定する。例えば、音声判定部103は、入力音を音声もしくは非音声に分類する値として定められた閾値θよりも、算出された音声特徴量が大きい区間を第1の音声区間と判定する。なお、ここでは、閾値θよりも音声特徴量が大きい区間を第1の音声区間として説明する。音声らしさを示す特徴量(音声特徴量)は、例えば、振幅パワーである。ただし、音声らしさを示す特徴量は、振幅パワーに限定されない。このように、音声判定部103は、特徴量と閾値θとを比較することにより、第1の音声区間を判定する。
特徴量算出部105は、音声データをもとに音声認識に用いられる特徴量(以下、音声認識特徴量と記すこともある。)を算出する。具体的には、特徴量算出部105は、フレームごとに切り出された音声データから音声認識に用いられる特徴量(音声認識特徴量)を算出する。音声認識に用いられる特徴量(音声認識特徴量)は、例えば、ケプストラム特徴量及びその動的特徴量である。ただし、音声認識に用いられる特徴量は、ケプストラム特徴量に限定されない。音声認識に用いられる特徴量の算出方法は広く知られているため、詳細な説明は省略する。
なお、音声らしさを示す特徴量(音声特徴量)と、音声認識に用いられる特徴量(音声認識特徴量)とは、別の特徴量でも良いし、同一の特徴量でも良い。
非音声モデル格納部106は、音声認識の対象になる音声以外のパターンを表す非音声モデルを記憶する。以下の説明では、音声認識の対象になる音声以外のパターンを、非音声パターンと記すこともある。また、語彙・音素モデル格納部107は、音声認識の対象になる音声の語彙もしくは音素のパターンを表す語彙・音素モデルを記憶する。非音声モデル格納部106、及び、語彙・音素モデル格納部107は、例えば、隠れマルコフモデルなどの確率モデルで表される非音声モデル及び語彙・音素モデルを記憶する。なお、モデルのパラメータは、予め標準的な入力音データを用いて音声認識装置に学習させてもよい。非音声モデル格納部106及び語彙・音素モデル格納部107は、例えば、磁気ディスク装置等によって実現される。
サーチ部108は、音声認識に用いられる特徴量(音声認識特徴量)をもとに、音声の尤度及び非音声の尤度を算出し、この尤度及び上記モデルを用いて単語列を探索する。サーチ部108は、例えば、算出した音声の尤度のうち最尤の単語列を探索してもよい。
また、サーチ部108は、算出された音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間(以下、第2の音声区間と記す。)を判定する。具体的には、サーチ部108は、音声認識特徴量をもとに算出された音声の尤度が非音声の尤度よりも高い区間を第2の音声区間と判定する。
このように、サーチ部108は、フレーム毎の特徴量、語彙・音素モデル及び非音声モデルを用いて、入力音に対応する単語列(認識結果)を求めるとともに、第2の音声区間を求める。なお、音声の尤度とは、語彙・音素モデルで表わされる音声の語彙もしくは音素のパターンと、入力音とが一致する尤もらしさを表す数値である。同様に、非音声の尤度とは、非音声モデルで表わされる非音声パターンと、入力音とが一致する尤もらしさを表す数値である。
パラメータ更新部109は、第1の音声区間の長さと第2の音声区間の長さの差異に応じて閾値θを更新する。すなわち、パラメータ更新部109は、第1の音声区間と第2の音声区間を比較し、音声判定部103が用いる閾値θを更新する。このとき、音声判定部103は、更新された閾値θを用いて第1の音声区間を決定する。このように、音声判定部103は、パラメータ更新部109が更新する値(パラメータ)を用いて第1の音声区間を決定する。パラメータ更新部109が更新する閾値θは、音声判定部103が第1の音声区間を決定する際に用いるパラメータである。
補正値算出部104は、音声らしさを示す特徴量(音声特徴量)と閾値θとの差異に応じて、音声の尤度もしくは非音声の尤度を補正する値として用いられる補正値を算出する。すなわち、補正値算出部104は、音声らしさを示す特徴量(音声特徴量)と閾値θとから尤度の補正値を算出する。補正値が算出されると、サーチ部108は、この補正値をもとに補正された尤度に基づいて、第2の音声区間を判定する。
フレーム化部102と、音声判定部103と、補正値算出部104と、特徴量算出部105と、サーチ部108と、パラメータ更新部109とは、プログラム(音声認識プログラム)に従って動作するコンピュータのCPU(Central Processing Unit)によって実現される。例えば、プログラムは、音声認識装置の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、フレーム化部102、音声判定部103、補正値算出部104、特徴量算出部105、サーチ部108及びパラメータ更新部109として動作してもよい。また、フレーム化部102と、音声判定部103と、補正値算出部104と、特徴量算出部105と、サーチ部108と、パラメータ更新部109とは、それぞれが専用のハードウェアで実現されていてもよい。
次に、本実施の形態の動作について、図1及び図2を用いて説明する。図2は、本実施形態における音声認識システムの動作の例を示すフローチャートである。
まず、マイクロフォン101が入力音を集音すると、フレーム化部102は、集音された時系列の入力音データを単位時間ごとのフレームに切り出す(ステップS101)。例えば、フレーム化部102は、入力音データからの切り出し対象になる部分を、予め定められた時間ずつずらしながら、単位時間分の波形データを順次切り出してもよい。以下、この単位時間をフレーム幅と記し、この予め定められた時間をフレームシフトと呼ぶ。例えば、入力音データがサンプリング周波数8000Hzの16bit Linear−PCM(Pulse Code Modulation )の場合、1秒当たり8000点分の波形データが含まれている。この場合、フレーム化部102は、この波形データをフレーム幅200点(すなわち、25ミリ秒)、フレームシフト80点(すなわち、10ミリ秒)で時系列にしたがって逐次切り出す。
次に、音声判定部103は、フレームごとに切り出された入力音データの音声らしさを示す特徴量(すなわち、音声特徴量)を計算し、閾値θと比較することにより第1の音声区間を判定する(ステップS102)。なお、初期状態における閾値θの値として、例えば、ユーザ等が、予め閾値θの値を指定して設定してもよいし、発声が始まる前の非音声区間で推定された雑音の値をもとにその値よりも大きい値を設定してもよい。音声らしさ示す特徴量は、例えば、振幅パワーなどで表わすことができる。音声判定部103は、例えば、以下の式1によって振幅パワーXtを算出する。

Figure 2011070972

ここでStは時刻tにおける入力音データ(波形データ)の値であり、式1は、抽出した区間の波形データの平均値を振幅パワーXtとして算出していることを示す。
ここでNは切り出した区間のフレーム幅(例えば200点)を示す。St+iは、t番目のフレームに含まれるi番目の入力音データ(波形データ)の値を示す。式1は、t番目のフレームの振幅パワーXtを、同フレームに含まれるN個の入力音データ(波形データ)それぞれを二乗し、平均値を取ることで算出することを示す。
図3は、入力音データの時系列と音声らしさを示す特徴量及び音声認識に用いられる特徴量の時系列の例を示す説明図である。図3は、「こんにちは 林です」という音声3Cが入力されたときの音声らしさを示す特徴量の時系列3Aと、音声認識に用いられる特徴量の時系列3Bとを表している。
図3における時系列3Aが示すように、振幅パワーが閾値θより大きければより音声らしいと言えるため、音声判定部103は、その区間を音声区間(図3におけるL1)と判定する。一方、振幅パワーが閾値θより小さければ、より非音声らしいと言えるため、音声判定部103は、その区間を非音声区間と判定する。なお、ここでは、音声らしさを示す特徴量として振幅パワーを用いる場合について説明した。他にも、音声判定部103は、音声らしさを示す特徴量として、信号雑音比(SN比)や、ゼロ交差数、音声モデルと非音声モデルとの尤度比や、ガウス混合分布モデルに基づく尤度比(GMM尤度比)、ピッチ周波数、もしくはこれらの組合せなどを算出し、これらの特徴量を用いて音声区間を判定しても良い。
次に、補正値算出部104は、音声らしさを示す特徴量と閾値θとから尤度の補正値を算出する(ステップS103)。なお、この尤度の補正値は、後述するサーチ部108が単語列を探索する際に算出する語彙・音声モデルおよび非音声モデルに対する特徴量の尤度の補正値として利用される。
補正値算出部104は、語彙・音素モデルに対する尤度の補正値を、例えば、以下の式2により算出する。
(語彙・音素モデルに対する尤度の)補正値 = w ×(Xt−θ) (式2)
ここで、wは、補正値に対するファクターであり、正の実数値をとる。具体的には、wは、後述する対数尤度を一度の補正で変化させる量を調整するパラメータである。wが大きい場合、適切な補正値に素早く収束することができる。一方、wが小さい場合、音声認識装置は、閾値θを過度に変化させることを抑え、補正値を安定して変化させることができる。例えば、システム管理者はこれらのバランスを考慮し適切なwの値を予め定めておいてもよい。
また、補正値算出部104は、非音声モデルに対する尤度の補正値を、例えば、以下の式3により算出する。
(非音声モデルに対する尤度の)補正値 = w ×(θ−Xt) (式3)
ここでは、補正値が音声らしさを示す特徴量Xtの一次関数で算出される例について説明した。ただし、補正値算出部104が補正値を算出する方法は、音声らしさを示す特徴量Xtの一次関数を用いる場合に限定されない。補正値算出部104は、特徴量Xtが閾値θに比べて大きい場合に補正値を大きく算出し、特徴量Xtを閾値θに比べて小さく算出するという関係性が保たれていれば、他の関数を用いて補正値を算出してもよい。
また、ここでは、補正値算出部104が、語彙・音素モデルに対する尤度の補正値と非音声モデルに対する尤度の補正値のいずれも算出する場合について説明した。ただし、補正値算出部104は、語彙・音素モデルに対する尤度の補正値と非音声モデルに対する尤度の補正値の両方を算出しなくてもよい。例えば、補正値算出部104は、どちらか一方の補正値のみを算出し、もう一方の補正値を0としてもよい。
次に、特徴量算出部105は、フレームごとに切り出された入力音データから音声認識に用いる特徴量(音声認識特徴量)を算出する(ステップS104)。
サーチ部108は、フレームごとの特徴量(音声識別特徴量)と、語彙・音素モデルと、非音声モデルとを用いて、入力音データの時系列に対応する単語列を探索するとともに、第2の音声区間を判定する(ステップS105)。サーチ部108は、例えば、語彙・音素モデルおよび非音声モデルとして、隠れマルコフモデルを用いて単語列を探索する。
なお、各モデルのパラメータは、予め標準的な入力音データを用いて音声認識装置に学習させたパラメータでもよい。
次に、サーチ部108が第2の音声区間を判定する方法について、具体的に説明する。まず、サーチ部108は、音声の尤度及び非音声の尤度を算出する。一般的な音声認識では、特徴量と各モデルとの距離尺度として対数尤度が用いられる。そのため、ここでは、対数尤度を用いる場合について説明する。サーチ部108は、例えば、以下の式4に基づいて、音声及び非音声の対数尤度を計算してもよい。

Figure 2011070972
ここで、logL(y;θ)は、音声(非音声)のパターン列yが与えられたときの音声(非音声)の対数尤度であり、y(i)は、音声認識に用いられる特徴量(音声認識特徴量)である。また、μ及びσ(まとめてθと表わす。)は、モデルごとに設定されるパラメータである。なお、ここでは、nの値はn=1でもよい。このように、サーチ部108は、音声の尤度及び非音声の尤度を音声認識特徴量をもとに算出する。なお、上記説明では、サーチ部108が尤度として対数尤度を算出する場合について説明した。ただし、尤度として算出する内容は、対数尤度に限定されない。
ここで、フレームごとの特徴量の時系列と、上記語彙・音素モデルに含まれる各語彙・音素を表すモデルとの対数尤度をLs(j,t)と表す。jは、各語彙・音素モデルの一状態を示す。サーチ部108は、以下に例示する式5により、補正値算出部104が算出した補正値を用いて、対数尤度Ls(j,t)を補正する。
Ls(j,t)← Ls(j,t)+ w ×(Xt−θ) (式5)
また、フレームごとの特徴量の時系列と、上記非音声モデルに含まれる各非音声を表すモデルとの対数尤度をLn(j,t)と表す。jは、非音声モデルの一状態を示す。このとき、サーチ部108は、以下に例示する式6により、補正値算出部104が算出した補正値を用いて、対数尤度Ln(j,t)を補正する。
Ln(j,t)← Ln(j,t)+ w ×(θ−Xt) (式6)
サーチ部108は、補正された対数尤度の時系列のうち、対数尤度が最大になる音声の語彙もしくは音素のパターン、又は、非音声のパターンを探索することにより、入力音データの時系列に対応する図3に例示する音声3Cのような単語列を探索する。例えば、上述の式4を用いる場合、サーチ部108は、logL(y;θ)の値を最大化するθの値を求める。また、このとき、サーチ部108は、補正された語彙・音素モデルの対数尤度が、補正された非音声モデルの対数尤度より大きい区間を第2の音声区間と判定する。図3に示す例では、サーチ部108が、時系列3Bのうち破線で区切られた区間を第2の音声区間L2と判定したことを示す。
以上のように、サーチ部108は、対数尤度Ls及びLnを算出し、算出された対数尤度Ls及びLnを、尤度の補正値を用いて補正する。そして、サーチ部108は、補正されたLs及びLnが、Ls(j,t)>Ln(j,t)を満たす区間を、第2の音声区間と判断する。
なお、上記説明では、サーチ部108が式4を用いて対数尤度を算出し、第2の音声区間を判定する場合について説明した。ただし、サーチ部108がA*探索やビームサーチといった方法を用いて第2の音声区間を判定してもよい。すなわち、語彙・音素を表すモデル及び非音声を表すモデルを用いたときにA*探索やビームサーチなどにより算出されるスコアは、音声・非音声についての尤度である。そのため、サーチ部108は、算出した音声のスコアが非音声のスコアよりも高い区間を第2の音声区間と判定してもよい。
次に、パラメータ更新部109は、音声判定部103が判定した第1の音声区間と、サーチ部108が判定した第2の音声区間とを比較し、音声判定部103が用いるパラメータである閾値θの値を更新する(ステップS106)。具体的には、パラメータ更新部109は、第1の音声区間の長さと第2の音声区間の長さに応じて第1の音声区間を判定するための閾値θの値を更新する。
以下、図4及び図5を用いて、パラメータ更新部109が閾値θの値を更新する動作について説明する。図4は、第1の音声区間が第2の音声区間よりも長い場合の例を示す説明図である。また、図5は、第1の音声区間が第2の音声区間よりも短い場合の例を示す説明図である。図4に例示するように、第1の音声区間の長さL1が第2の音声区間の長さL2よりも長い場合、パラメータ更新部109は、閾値θをより大きくなるように更新する。反対に、図5に例示するように、第1の音声区間の長さL1が第2の音声区間の長さL2よりも短い場合、パラメータ更新部109は、閾値θをより小さくなるように更新する。具体的には、パラメータ更新部109は、以下に例示する式7を用いて閾値θを更新する。
θ ← θ+ε(L2−L1) (式7)
ここで、εはステップサイズを示す正の値であり、一度の更新で閾値θを変化させる量を調整するパラメータである。
上記説明では、パラメータ更新部109が音声区間の長さに基づいて閾値θを更新する場合について説明した。他にも、パラメータ更新部109は、非音声区間の長さに基づいて閾値θを更新してもよい。この場合、音声判定部103は、音声特徴量が閾値θよりも小さい区間を第1の音声区間と判定する。サーチ部108は、補正された非音声についての尤度Lnが、補正された音声についての尤度Lsよりも高い区間を第2の音声区間と判定する。
また、上記説明では、パラメータ更新部109が音声区間の長さの差異に応じて閾値θの値を更新する場合について説明した。他にも、パラメータ更新部109は、音声区間もしくは非音声区間の長さの大小を判定し、その大小に応じて予め定められた値ずつ閾値θを更新してもよい。
例えば、パラメータ更新部109は、第2の音声区間の長さL2>第1の音声区間の長さL1の場合に、θ←θ+εと補正し、第2の音声区間の長さL2<第1の音声区間の長さL1の場合に、θ←θ−εと補正してもよい。
パラメータ更新部109は、例えば、一発声ごとや、一つの音声区間を判定するごとに、閾値θを更新する。ただし、パラメータ更新部109が閾値θを更新するタイミングは、上記タイミングに限定されない。例えば、パラメータ更新部109は、発話者の指示に応じて閾値θを更新してもよい。そして、パラメータ更新部109は、更新された閾値θを用いて、次の発声や次の音声区間に対するステップS101からステップS106の処理を繰り返す。
なお、パラメータ更新部109は、更新された閾値θを用いて、同一の発声に対するステップS102からステップS106の処理を行ってもよい。また、パラメータ更新部109は、同一の発声に対するS102からステップS106の処理を1回だけでなく、複数回繰り返して行ってもよい。
次に、本実施形態における効果について説明する。以上のように、本実施形態における音声認識装置は、音声判定部103が、音声らしさを示す特徴量を時系列の入力音をもとに算出し、閾値θと音声らしさを示す特徴量とを比較して、音声の区間(もしくは非音声の区間)を判定し、第1の音声区間を決定する。また、サーチ部108が、音声認識に用いられる特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、第2の音声区間を決定する。そして、パラメータ更新部109が、第1の音声区間の長さと第2の音声区間の長さとの差異に応じて閾値θを更新し、音声判定部103が、更新された閾値θを用いて第1の音声区間を決定する。このような構成により、音声認識装置は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる。
すなわち、補正値算出部104が、音声らしさを示す特徴量と閾値θとから尤度の補正値を算出し、サーチ部108が、その補正値によって補正された尤度をもとに音声を識別する。そのため、サーチ部108が、認識対象となる音声を正しく認識し、それ以外を非音声と判定しやすくなる。このようにして、雑音に頑健な音声認識が実現される。
さらに、パラメータ更新部109が、第1の音声区間と第2の音声区間とを比較し、その比較結果に基づいて音声判定部103が用いる閾値を更新する。そのため、閾値が雑音環境に対して正しく設定されていない場合や、雑音環境が時刻に応じて変動するような場合であっても、尤度の補正値を正確に求めることが出来るため、より雑音に頑健な音声認識を実現できる。
一般に音声判定部103よりもサーチ部108の方がより正しく音声区間を判定できる。これは、サーチ部108が、単語・音素モデルや非音声モデルなど、より多くの情報を用いて音声区間を判定しているためである。これに対し、音声判定部103は、雑音の状況に応じて最適値の異なる閾値を用いて音声区間を判定するため、誤りの混入する可能性が高い。本実施形態における音声認識装置は、音声判定部103が判定した第1の音声区間をより正しくするために、パラメータ更新部109が、サーチ部108が判定した第2の音声区間を用いて閾値を更新する。そのため、音声判定部103は、より精度の高い探索を次の発声に対して行うことができる。以上のことから、本発明の目的を達成できる。
実施形態2.
次に、本発明による第2の実施形態について説明する。図6は、本発明の第2の実施形態における音声認識システムの例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本発明における音声認識システムは、マイクロフォン101と、フレーム化部102と、音声判定部113と、補正値算出部104と、特徴量算出部105と、非音声モデル格納部106と、語彙・音素モデル格納部107と、サーチ部108と、パラメータ更新部119とを備えている。すなわち、第2の実施形態における音声認識システムは、図6に例示するように、第1の実施形態における音声認識システムの構成の音声判定部103の代わりに、音声判定部113を、パラメータ更新部109の代わりに、パラメータ更新部119を、それぞれ備えている。
音声判定部113は、音声らしさを示す特徴量(すなわち、音声特徴量)を時系列の入力音をもとに算出する。そして、音声判定部113は、入力音を音声もしくは非音声に分類する閾値θと音声特徴量とを比較し、その閾値θをもとに決定される音声の区間もしくは非音声の区間に対して、その区間の前後にマージン(以下、マージンmと記す。)を付加した区間を第1の音声区間と決定する。具体的には、音声判定部113は、音声らしさを示す特徴量が、閾値θよりも大きい区間の前後にマージンmを付加した区間を第1の音声区間と決定する。このように、音声判定部113は、音声らしさを示す特徴量が閾値θよりも大きい音声の区間にマージンを加えた区間を第1の音声区間と判定する。閾値θの値は、予め定められた固定の値であってもよく、第1の実施形態に示すように、随時更新される値であってもよい。以下の説明では、閾値θの値として、予め定められた固定の値を用いるものとする。
パラメータ更新部119は、第1の音声区間の長さと第2の音声区間の長さの差異に応じてマージンmを更新する。すなわち、パラメータ更新部119は、第1の音声区間と第2の音声区間を比較し、音声判定部113が用いるマージンmの長さを更新する。このとき、音声判定部113は、更新されたマージンmを用いて第1の音声区間を決定する。このように、音声判定部113は、パラメータ更新部119が更新する値(パラメータ)を用いて第1の音声区間を決定する。パラメータ更新部119が更新するマージンmは、音声判定部113が第1の音声区間を決定する際に用いるパラメータである。
その他の構成(マイクロフォン101、フレーム化部102、補正値算出部104、特徴量算出部105、非音声モデル格納部106、語彙・音素モデル格納部107及びサーチ部108)については、第1の実施形態と同様である。
フレーム化部102と、音声判定部113と、補正値算出部104と、特徴量算出部105と、サーチ部108と、パラメータ更新部119とは、プログラム(音声認識プログラム)に従って動作するコンピュータのCPUによって実現される。また、フレーム化部102と、音声判定部113と、補正値算出部104と、特徴量算出部105と、サーチ部108と、パラメータ更新部119とは、それぞれが専用のハードウェアで実現されていてもよい。
次に、本実施の形態の動作について、図6及び図2を用いて説明する。本発明の本実施形態における動作は、図2におけるステップS102とステップS106が変更されている点で第1の実施形態の動作と異なる。
マイクロフォン101が集音した入力音をフレーム化部102がフレームごとに切り出すと(ステップS101)、音声判定部113は、フレームごとに切り出された入力音データの音声らしさを示す特徴量(すなわち、音声特徴量)を計算する。音声らしさを示す特徴量を計算する方法は、第1の実施形態と同様である。次に、音声判定部113は、音声らしさを示す特徴量と閾値θとを比較し、仮の音声区間を求める。仮の音声区間を求める方法は、第1の実施形態において、第1の音声区間を求める方法と同様である。例えば、音声判定部113は、音声らしさを示す特徴量が閾値θよりも大きい区間を仮の音声区間とする。そして、音声判定部113は、仮の音声区間の前後にマージンmを付与した区間を第1の音声区間と判定する(ステップS102)。
図7は、仮の音声区間にマージンを付与した例を示す説明図である。図7に示す例では、まず、音声判定部113が、時系列7Aが示す特徴量と閾値θとを比較し、閾値θよりも大きい部分を仮の音声区間71及び音声区間72とする。ここで、音声判定部113は、仮の音声区間の前後にマージンとして、マージン73a、マージン73b、マージン73cを付加した区間を第1の音声区間と判定する。
以降、補正値算出部104が尤度の補正値を算出し、特徴量算出部105が音声認識に用いられる特徴量を算出する処理、及び、サーチ部108が単語列を探索するとともに第2の音声区間を判定する処理は、第1の実施形態におけるステップS103〜ステップS105の処理と同様である。
次に、パラメータ更新部119は、音声判定部113が判定した第1の音声区間と、サーチ部108が判定した第2の音声区間とを比較し、音声判定部113が用いるパラメータであるマージンmの値を更新する(ステップS106)。ここでは、パラメータ更新部119は、第1の音声区間の長さと第2の音声区間の長さに応じて仮の音声区間に付与するマージンmの値を更新する。
以下、図4及び図5を用いて、パラメータ更新部119がマージンmの値を更新する動作について説明する。図4に例示するように、第1の音声区間の長さL1が第2の音声区間の長さL2よりも長い場合、パラメータ更新部119は、マージンmをより短くなるように更新する。反対に、図5に例示するように、第1の音声区間の長さL1が第2の音声区間の長さL2よりも短い場合には、パラメータ更新部119は、マージンmをより長くなるように更新する。具体的には、パラメータ更新部119は、以下に例示する式8を用いてマージンmを更新する。
m ← m+ε(L1−L2) (式8)
ここで、εはステップサイズを示す正の値であり、一度の更新でマージンmの長さを変化させる量を調整するパラメータである。
上記説明では、パラメータ更新部119が音声区間の長さに基づいてマージンmを更新する場合について説明した。他にも、パラメータ更新部119は、非音声区間の長さに基づいてマージンmを更新してもよい。この場合、音声判定部113が、閾値θよりも小さい音声の区間である仮の音声区間にマージンmを付与した第1の音声区間を判定し、サーチ部108が、補正された非音声についての尤度Lnが、補正された音声についての尤度Lsよりも高い区間を第2の音声区間と判定すればよい。
また、パラメータ更新部119は、マージンmの長さだけでなく、第1の実施形態における閾値θの値もあわせて更新してもよい。具体的には、パラメータ更新部119は、第1の音声区間の長さが第2の音声区間の長さよりも長い場合に、マージンmの長さをより短く更新するとともに、閾値θを増加させた値に更新する。また、パラメータ更新部119は、第1の音声区間の長さが第2の音声区間の長さよりも短い場合に、マージンmの長さをより長く更新するとともに、閾値θを減少させた値に更新する。なお、閾値を更新する方法は、第1の実施形態に記載した方法と同様である。
また、上記説明では、パラメータ更新部119が音声区間の長さの差異に応じてマージンmを更新する場合について説明した。他にも、パラメータ更新部119は、音声区間もしくは非音声区間の長さの大小を判定し、その大小に応じて予め定められた値ずつマージンmを更新してもよい。
例えば、パラメータ更新部119は、第2の音声区間の長さL2>第1の音声区間の長さL1の場合に、m←m+εと補正し、第2の音声区間の長さL2<第1の音声区間の長さL1の場合に、m←m−εと補正してもよい。
パラメータ更新部119は、例えば、一発声ごとのタイミングや、一つの音声区間を判定したこと契機としてマージンmを更新する。ただし、パラメータ更新部119がマージンmを更新するタイミングは、上記タイミングに限定されない。例えば、パラメータ更新部119は、発話者の指示に応じてマージンmを更新してもよい。そして、パラメータ更新部119は、更新されたマージンmを用いて、次の発声や次の音声区間に対するステップS101からステップS106の処理を繰り返す。
なお、パラメータ更新部119は、更新されたマージンmを用いて、同一の発声に対するステップS102からステップS106の処理を行ってもよい。また、パラメータ更新部119は、同一の発声に対するS102からステップS106の処理を1回だけでなく、複数回繰り返して行ってもよい。
次に、本実施形態における効果について説明する。以上のように、本実施形態における音声認識装置は、音声判定部113が、音声特徴量が閾値θよりも大きい区間の前後にマージンmを付加した区間を第1の音声区間と決定し、パラメータ更新部119が、区間の前後に付加するマージンmの長さを更新する。そして、音声判定部113が、更新されたマージンmを区間の前後に付加した区間を第1の音声区間と決定する。以上のような構成によっても、音声認識装置は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる。
一般的に子音は母音に比べてパワーが小さく、雑音と混同されやすい為、音声区間の前後が欠けやすい。このように、音声認識装置は、前後が欠けやすい音声区間を仮の音声区間とし、この仮の音声区間にマージンmを付与することにより、音声の欠落を防ぐことができる。
なお、マージンmの長さを長く設定しすぎると、音声認識の対象以外の音が音声と認識される可能性がある。そのため、マージンmの長さは、背景雑音に応じて適切に設定されることが望ましい。本実施形態における音声認識装置は、パラメータ更新部119が、第1の音声区間の長さと第2の音声区間の長さに基づいてマージンmの長さを適切に更新するため、雑音に頑健な音声認識が実現でき、本発明の目的を達成できる。
次に、本発明による音声認識システムの最小構成の例を説明する。図8は、本発明による音声認識システムの最小構成の例を示すブロック図である。本発明による音声認識システムは、音声らしさを示す特徴量である音声特徴量(例えば、振幅パワー)を時系列の入力音(例えば、フレームごとに切り出された入力音データ)をもとに算出し、音声もしくは非音声に入力音を分類する値として定められた閾値(例えば、閾値θ)と音声特徴量とを比較して音声の区間(例えば、音声特徴量が閾値θよりも大きい区間)もしくは非音声の区間(例えば、音声特徴量が閾値θよりも小さい区間)を判定し、それらの区間もしくは指定された長さのマージン(例えば、マージンm)をそれらの区間の前後に付加した区間を第1の音声区間と決定する音声判定手段81(例えば、音声判定部103)と、音声認識に用いられる特徴量である音声認識特徴量をもとに算出される(例えば、式4を用いて算出される)音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間(例えば、音声の尤度が非音声の尤度よりも高い区間)を第2の音声区間と決定するサーチ手段82(例えば、サーチ部108)と、第1の音声区間の長さと第2の音声区間の長さとの差異に応じて、音声判定手段81が第1の音声区間を決定する際に用いられる閾値及びマージンのうちの少なくとも一方を更新するパラメータ更新手段83(例えば、パラメータ更新部109、パラメータ更新部119)を備えている。
音声判定手段81は、パラメータ更新手段83が更新した閾値もしくはマージンを用いて、第1の音声区間を決定する。
上記の構成である音声認識装置は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる。
なお、少なくとも以下に示すような音声認識システムも、上記に示すいずれかの実施形態に開示されている。
(1)音声らしさを示す特徴量である音声特徴量(例えば、振幅パワー)を時系列の入力音(例えば、フレームごとに切り出された入力音データ)をもとに算出し、音声もしくは非音声に入力音を分類する値として定められた閾値(例えば、閾値θ)と音声特徴量とを比較して音声の区間(例えば、音声特徴量が閾値θよりも大きい区間)もしくは非音声の区間(例えば、音声特徴量が閾値θよりも小さい区間)を判定し、それらの区間もしくは指定された長さのマージン(例えば、マージンm)をそれらの区間の前後に付加した区間を第1の音声区間と決定する音声判定手段(例えば、音声判定部103)と、音声認識に用いられる特徴量である音声認識特徴量をもとに算出される(例えば、式4を用いて算出される)音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間(例えば、音声の尤度が非音声の尤度よりも高い区間)を第2の音声区間と決定するサーチ手段(例えば、サーチ部108)と、第1の音声区間の長さと第2の音声区間の長さとの差異に応じて、音声判定手段が第1の音声区間を決定する際に用いられる閾値及びマージンのうちの少なくとも一方を更新するパラメータ更新手段(例えば、パラメータ更新部109、パラメータ更新部119)を備え、音声判定手段が、パラメータ更新手段が更新した閾値もしくはマージンを用いて、第1の音声区間を決定する音声認識システム。
(2)パラメータ更新手段が、第1の音声区間の長さが第2の音声区間の長さよりも長い場合に閾値を増加させ、第1の音声区間の長さが第2の音声区間の長さよりも短い場合に閾値を減少させる音声認識システム。
(3)パラメータ更新手段が、第1の音声区間の長さが第2の音声区間の長さよりも長い場合にマージンの長さを短くし、第1の音声区間の長さが第2の音声区間の長さよりも短い場合にマージンの長さを長くする音声認識システム。
(4)音声認識の対象になる音声の語彙もしくは音素のパターンを表す語彙音素モデルを記憶する語彙音素モデル記憶手段(例えば、語彙・音素モデル格納部107)と、音声認識の対象になる非音声のパターンを表す非音声モデルを記憶する非音声音声モデル記憶手段(例えば、非音声モデル格納部106)とを備え、サーチ手段が、音声認識特徴量をもとに、音声の尤度である前記語彙音素モデルの尤度及び非音声の尤度である前記非音声モデルの尤度を算出し、音声の尤度の最大値が非音声の尤度の最大値よりも大きい場合、音声の尤度が最大になる音声の語彙もしくは音素のパターンを探索し、非音声の尤度の最大値が音声の尤度の最大値よりも大きい場合、非音声の尤度が最大になる非音声のパターンを探索する音声認識システム。
(5)音声特徴量と閾値との差異に応じて、語彙音素モデルの尤度と非音声モデルの尤度のうちの少なくとも1つの尤度を補正する値として用いられる補正値を算出する(例えば、式5もしくは式6を用いて算出する)補正値算出手段(例えば、サーチ部108)を備え、サーチ手段が、補正値をもとに補正された尤度に基づいて、第2の音声区間を判定する音声認識システム。
(6)補正値算出手段が、音声特徴量から閾値を減じた値を語彙音素モデルの尤度の補正値として算出し(例えば、式2を用いて補正値を算出し)、閾値から音声特徴量を減じた値を非音声モデルの尤度の補正値として算出する(例えば、式3を用いて補正値を算出する)音声認識システム。
(7)音声判定手段は、時系列の入力音をもとに、振幅パワー、信号雑音比、ゼロ交差数、ガウス混合分布モデルに基づく尤度比若しくはピッチ周波数又はこれらの組合せを音声特徴量として算出する音声認識システム。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
この出願は、2009年12月10日に出願された日本出願特願2009−280927を基礎とする優先権を主張し、その開示の全てをここに取り込む。
101 マイクロフォン
102 フレーム化部
103,113 音声判定部
104 補正値算出部
105 特徴量算出部
106 非音声モデル格納部
107 語彙・音素モデル格納部
108 サーチ部
109,119 パラメータ更新部

Claims (9)

  1. 音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしくは指定された長さのマージンを当該区間の前後に付加した区間を第1の音声区間と決定する音声判定手段と、
    音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第2の音声区間と決定するサーチ手段と、
    前記第1の音声区間の長さと前記第2の音声区間の長さとの差異に応じて、前記音声判定手段が第1の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新するパラメータ更新手段と、を備え、
    前記音声判定手段は、前記パラメータ更新手段が更新した閾値もしくはマージンを用いて、第1の音声区間を決定する
    音声認識システム。
  2. 前記パラメータ更新手段は、前記第1の音声区間の長さが前記第2の音声区間の長さよりも長い場合に前記閾値を増加させ、前記第1の音声区間の長さが前記第2の音声区間の長さよりも短い場合に前記閾値を減少させる
    請求項1に記載の音声認識システム。
  3. 前記パラメータ更新手段は、前記第1の音声区間の長さが前記第2の音声区間の長さよりも長い場合に前記マージンの長さを短くし、前記第1の音声区間の長さが前記第2の音声区間の長さよりも短い場合に前記マージンの長さを長くする
    請求項1または請求項2に記載の音声認識システム。
  4. 音声認識の対象になる音声の語彙もしくは音素のパターンを表す語彙音素モデルを記憶する語彙音素モデル記憶手段と、
    音声認識の対象になる非音声のパターンを表す非音声モデルを記憶する非音声モデル記憶手段と、を備え、
    前記サーチ手段は、前記音声認識特徴量をもとに、音声の尤度である前記語彙音素モデルの尤度及び非音声の尤度である前記非音声モデルの尤度を算出し、前記音声の尤度の最大値が前記非音声の尤度の最大値よりも大きい場合、前記音声の尤度が最大になる音声の語彙もしくは音素のパターンを探索し、前記非音声の尤度の最大値が音声の尤度の最大値よりも大きい場合、前記非音声の尤度が最大になる非音声のパターンを探索する
    請求項1から請求項3のうちのいずれか1項に記載の音声認識システム。
  5. 前記音声特徴量と前記閾値との差異に応じて、前記語彙音素モデルの尤度と前記非音声モデルの尤度のうちの少なくとも1つの尤度の補正値を算出する補正値算出手段を備え、
    前記サーチ手段は、前記補正値をもとに補正された尤度に基づいて、前記第2の音声区間を判定する
    請求項4に記載の音声認識システム。
  6. 前記補正値算出手段は、前記音声特徴量から前記閾値を減じた値を前記語彙音素モデルの尤度の前記補正値として算出し、前記閾値から前記音声特徴量を減じた値を前記非音声モデルの尤度の前記補正値として算出する
    請求項5記載の音声認識システム。
  7. 前記音声判定手段は、前記時系列の入力音をもとに、振幅パワー、信号雑音比、ゼロ交差数、ガウス混合分布モデルに基づく尤度比若しくはピッチ周波数又はこれらの組合せを音声特徴量として算出する
    請求項1から請求項6のうちのいずれか1項に記載の音声認識システム。
  8. 音声特徴量を時系列の入力音をもとに算出し、
    閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしく指定された長さのマージンを当該区間の前後に付加した区間を第1の音声区間と決定し、
    音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第2の音声区間と決定し、
    前記第1の音声区間の長さと前記第2の音声区間の長さとの差異に応じて、前記第1の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新し、
    前記第1の音声区間を判定する際に、更新された閾値もしくはマージンを用いて、第1の音声区間を決定する
    音声認識方法。
  9. コンピュータに、
    音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしくは指定された長さのマージンを当該区間の前後に付加した区間を第1の音声区間と決定する音声判定処理、
    音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第2の音声区間と決定するサーチ処理、および、
    前記第1の音声区間の長さと前記第2の音声区間の長さとの差異に応じて、前記音声判定処理で第1の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新するパラメータ更新処理を実行させ、
    前記音声判定処理で、前記パラメータ更新処理で更新した閾値もしくはマージンを用いて、第1の音声区間を決定させる
    音声認識プログラムを格納するプログラム記録媒体。
JP2011545189A 2009-12-10 2010-11-26 音声認識システム、音声認識方法および音声認識プログラム Active JP5621783B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009280927 2009-12-10
JP2009280927 2009-12-10
PCT/JP2010/071619 WO2011070972A1 (ja) 2009-12-10 2010-11-26 音声認識システム、音声認識方法および音声認識プログラム

Publications (2)

Publication Number Publication Date
JPWO2011070972A1 true JPWO2011070972A1 (ja) 2013-04-22
JP5621783B2 JP5621783B2 (ja) 2014-11-12

Family

ID=44145517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011545189A Active JP5621783B2 (ja) 2009-12-10 2010-11-26 音声認識システム、音声認識方法および音声認識プログラム

Country Status (3)

Country Link
US (1) US9002709B2 (ja)
JP (1) JP5621783B2 (ja)
WO (1) WO2011070972A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012020717A1 (ja) * 2010-08-10 2012-02-16 日本電気株式会社 音声区間判定装置、音声区間判定方法および音声区間判定プログラム
US9160837B2 (en) 2011-06-29 2015-10-13 Gracenote, Inc. Interactive streaming content apparatus, systems and methods
JP5812932B2 (ja) * 2012-04-24 2015-11-17 日本電信電話株式会社 音声聴取装置とその方法とプログラム
EP2842485B1 (en) 2012-04-24 2017-07-26 Panasonic Intellectual Property Management Co., Ltd. Speech-discrimination-ability evaluation system, speech-discrimination-ability evaluation method, and program
CN103971680B (zh) * 2013-01-24 2018-06-05 华为终端(东莞)有限公司 一种语音识别的方法、装置
CN103065631B (zh) 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置
JP6235280B2 (ja) * 2013-09-19 2017-11-22 株式会社東芝 音声同時処理装置、方法およびプログラム
WO2015059946A1 (ja) * 2013-10-22 2015-04-30 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
JP6400936B2 (ja) 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
US9633019B2 (en) 2015-01-05 2017-04-25 International Business Machines Corporation Augmenting an information request
WO2016143125A1 (ja) * 2015-03-12 2016-09-15 三菱電機株式会社 音声区間検出装置および音声区間検出方法
CN106601238A (zh) * 2015-10-14 2017-04-26 阿里巴巴集团控股有限公司 一种应用操作的处理方法和装置
US9984688B2 (en) 2016-09-28 2018-05-29 Visteon Global Technologies, Inc. Dynamically adjusting a voice recognition system
JP6553111B2 (ja) 2017-03-21 2019-07-31 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
US10811007B2 (en) * 2018-06-08 2020-10-20 International Business Machines Corporation Filtering audio-based interference from voice commands using natural language processing
WO2022198474A1 (en) 2021-03-24 2022-09-29 Sas Institute Inc. Speech-to-analytics framework with support for large n-gram corpora
US11138979B1 (en) * 2020-03-18 2021-10-05 Sas Institute Inc. Speech audio pre-processing segmentation
CN113409763B (zh) * 2021-07-20 2022-10-25 北京声智科技有限公司 语音纠正方法、装置及电子设备
WO2023181107A1 (ja) * 2022-03-22 2023-09-28 日本電気株式会社 音声検出装置、音声検出方法及び記録媒体

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH056193A (ja) * 1990-08-15 1993-01-14 Ricoh Co Ltd 音声区間検出方式及び音声認識装置
JPH0643895A (ja) * 1992-07-22 1994-02-18 Nec Corp 音声認識装置
JPH10254475A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JP2001013988A (ja) * 1999-06-29 2001-01-19 Toshiba Corp 音声認識方法及び装置
JP2002091468A (ja) * 2000-09-12 2002-03-27 Pioneer Electronic Corp 音声認識システム
JP2005181458A (ja) * 2003-12-16 2005-07-07 Canon Inc 信号検出装置および方法、ならびに雑音追跡装置および方法
WO2009069662A1 (ja) * 2007-11-27 2009-06-04 Nec Corporation 音声検出システム、音声検出方法および音声検出プログラム
JP2009175179A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4700392A (en) * 1983-08-26 1987-10-13 Nec Corporation Speech signal detector having adaptive threshold values
US5305422A (en) * 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
JP3255584B2 (ja) * 1997-01-20 2002-02-12 ロジック株式会社 有音検知装置および方法
US6718302B1 (en) * 1997-10-20 2004-04-06 Sony Corporation Method for utilizing validity constraints in a speech endpoint detector
JP4577543B2 (ja) 2000-11-21 2010-11-10 ソニー株式会社 モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置
JP2007017736A (ja) 2005-07-08 2007-01-25 Mitsubishi Electric Corp 音声認識装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH056193A (ja) * 1990-08-15 1993-01-14 Ricoh Co Ltd 音声区間検出方式及び音声認識装置
JPH0643895A (ja) * 1992-07-22 1994-02-18 Nec Corp 音声認識装置
JPH10254475A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JP2001013988A (ja) * 1999-06-29 2001-01-19 Toshiba Corp 音声認識方法及び装置
JP2002091468A (ja) * 2000-09-12 2002-03-27 Pioneer Electronic Corp 音声認識システム
JP2005181458A (ja) * 2003-12-16 2005-07-07 Canon Inc 信号検出装置および方法、ならびに雑音追跡装置および方法
WO2009069662A1 (ja) * 2007-11-27 2009-06-04 Nec Corporation 音声検出システム、音声検出方法および音声検出プログラム
JP2009175179A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法

Also Published As

Publication number Publication date
WO2011070972A1 (ja) 2011-06-16
JP5621783B2 (ja) 2014-11-12
US9002709B2 (en) 2015-04-07
US20120239401A1 (en) 2012-09-20

Similar Documents

Publication Publication Date Title
JP5621783B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
US9536525B2 (en) Speaker indexing device and speaker indexing method
JP5949550B2 (ja) 音声認識装置、音声認識方法、及びプログラム
US9165555B2 (en) Low latency real-time vocal tract length normalization
US8880409B2 (en) System and method for automatic temporal alignment between music audio signal and lyrics
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
WO2010070840A1 (ja) 音声検出装置、音声検出プログラムおよびパラメータ調整方法
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
WO2010070839A1 (ja) 音声検出装置、音声検出プログラムおよびパラメータ調整方法
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
JP2007017736A (ja) 音声認識装置
JP5621786B2 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
JPH11184491A (ja) 音声認識装置
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP2014092751A (ja) 音響モデル生成装置とその方法とプログラム
JP4749990B2 (ja) 音声認識装置
JP4576612B2 (ja) 音声認識方法および音声認識装置
JP6497651B2 (ja) 音声認識装置および音声認識プログラム
Wang et al. Improved Mandarin speech recognition by lattice rescoring with enhanced tone models
JP2006071956A (ja) 音声信号処理装置及びプログラム
JP2009025388A (ja) 音声認識装置
JP2004163448A (ja) 音声認識装置、方法、およびそのプログラム
JP2005284018A (ja) 音声認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140908

R150 Certificate of patent or registration of utility model

Ref document number: 5621783

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150