JPWO2008069308A1

JPWO2008069308A1 - 音声認識装置および音声認識方法

Info

Publication number: JPWO2008069308A1
Application number: JP2008548349A
Authority: JP
Inventors: 江森　正; 正江森; 祥史大西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-12-08
Filing date: 2007-12-07
Publication date: 2010-03-25
Anticipated expiration: 2027-12-07
Also published as: US20100324897A1; EP2096630A4; EP2096630A1; WO2008069308A1; US8706487B2; JP5240456B2

Abstract

音声データにおける発声区間の長さを表す発声長別に音響モデルおよび言語モデルを学習し、それら音響モデルおよび言語モデルを用いて音声認識処理を行う。音声認識装置は、音声データ（101）における発声区間を検出し該発声区間を表す区間情報を生成する手段（103）と、音声データと該音声データから書き起こされたテキストデータ（102）とにおける区間情報に対応するデータ部分を認識し該データ部分をその発声長に基づき分類する手段（104）と、分類されたデータ部分（105）を用いて音響モデルおよび言語モデル（107）を学習する手段（106）とを有する。

Description

本発明は、音声認識技術に関し、特に、音響モデル及び言語モデルを用いた音声認識技術、並びに、モデルの学習技術に関する。

近年、話し言葉の音声認識の研究が盛んに行われている。話し言葉は、発声の怠けといった音響的なあいまい性や、単語の並び方の多様性などの様々な要因から、高精度に認識することが困難である。話し言葉の認識精度を上げる技術として、話し言葉から捉えた現象を利用する技術が提案されている。その一例として、後述の非特許文献１のような発声速度に注目した技術が挙げられる。

人間の話し言葉は、機械的な読み上げ発声や単語発声のように、一定の発声速度で発声されることは少ない。よって、話し言葉の速度は、発声中に大きく揺らぐ。特に、発声速度が速い場合、発声に口の動きが追随し難いため、音声に変形が生じる。このような変形は、認識精度の劣化に大きくかかわると考えられる。

非特許文献１には、発声速度の速い音声に対し発声速度の速い音声だけで学習された専用の音響モデルや、発声変形が登録された辞書を使うという技術が記載されている。同文献の技術は、発声速度専用のモデルを用いることで、認識性能の改善を図るものである。
Takahiro Shinozaki, Sadaoki Furui、"HIDDEN MODE HMM USING BAYESIAN NETWORK FOR MODELING SPEAKING RATE FLUCTUATION"、Automatic Speech Recognition and Understanding (ASRU) workshop 2003、p.417-422 北著、「言語モデルと計算４：確率的言語モデル」、東京大学出版会、１９９９年、p.57-62 Steve Young et al.、"The HTK Book (for HTK Version 3.3)"、Cambrige University Engineering Department、April 2005、p.35-40, p.54-64, p.127-130

ところで、上記の発声速度は、発声の内容をもとに測定される特徴である。音声認識処理において、発声内容は、入力された音声データの認識結果を用いて推定される。しかしながら、認識結果には誤りが含まれる可能性があるため、そのような認識結果から得られた発声速度は精度に欠ける。よって、発声速度を用いてモデルを学習し、音声認識する手法では、認識精度を向上させ難いという問題がある。また、発声速度を測定した認識結果に実際に誤りが含まれる場合は、認識精度の劣化を招くおそれがある。

上記の問題点は、発声速度のように正確に測定し難い特徴量を、話し言葉の現象を表す特徴量として用いることに起因する。この類の特徴量を用いる音声認識の方法では、特徴量の正解が既知である理想的な条件下では、認識精度が顕著に改善する。しかしながら、実際の場面では、正解が不明であるから認識精度を改善し難い。また、元来、発声速度は音響的な特徴であるが、この発声速度の変化に、言語的特徴である発声内容は関係しない。そのため、発声速度を用いた音声認識の改善範囲は、音響的特徴に限定されることから、改善の絶対値は大きくないと考えられる。

本発明は、上記課題に鑑みてなされたものであり、話し言葉のように、正確な特徴量を捉え難い音声をより高精度に認識する音声認識技術を提供することを目的とする。

本発明に係る音声認識装置は、音響モデルおよび言語モデルを用いて音声認識処理を行う音声認識部と、音声データにおける発声区間の長さを表す発声長別に前記音響モデルおよび言語モデルを学習するモデル学習部とを備える。

本発明によれば、音声認識処理において、話し言葉のように正確な特徴量を捉え難い音声の認識精度を高めることができる。

本発明の第１の実施形態におけるモデル学習部のブロック図である。本発明の第１の実施形態における音声認識部のブロック図である。本発明の第２の実施形態におけるモデル学習部のブロック図である。本発明の第２の実施形態における音声認識部のブロック図である。本発明の実施形態の音声認識装置のブロック図である。

符号の説明

100 音声認識装置
100A、100A_1、100A_2 モデル学習部
100B、100B_1、100B_2 音声認識部
101 音声データ
102 書き起こしテキストデータ
103 区間検出手段
104 データ選別手段
105 発声長別データ
106 モデル学習手段
107 発声長別モデル
201 発声長判定手段
202、401 モデル選択手段
203 認識手段
301 発声時刻判定手段
302 発声長・発声時刻別データ
303 発声長・発声時刻別モデル

図５に、本発明の実施形態の音声認識装置の構成を示す。音声認識装置100は、音声認識に用いるモデルの学習処理を行うモデル学習部100Aと、入力された音声の認識処理を行いその認識結果を出力する音声認識部100Bとを備える。なお、図示の構成は、後述の第１及び第２の各実施形態に共通のものである。

図１に、第１の実施形態におけるモデル学習部100A_1の構成を示す。モデル学習部100A_1は、音声データ101と、書き起こしテキストデータ102と、区間検出手段103と、データ選別手段104と、発声長別データ105と、モデル学習手段106と、発声長別モデル107とで構成されている。なお、図中に鎖線で囲まれた共通要素110は、本実施形態と後述の第２の実施形態とで共通する構成要素である。

音声データ101は、音響モデルを学習するためのデータであり、例えば、サンプリング周波数を44.1kHzとして、１サンプルあたり16ビットでA/D変換されたデータである。音声データ101は、会話中に捕捉された音が全て含まれたものであるため、音声が発声されている区間と、発声以外の無音や雑音の区間とが混合している。

書き起こしテキストデータ102は、音声データ101を人が聞き取り、その内容を書き起こしたテキストデータである。

区間検出手段103は、入力される音声データ101を分析して音声の区間を検出し、それを音声区間情報として出力する。音声区間の検出方法は、例えば、音声のパワーを計算し、パワーがある閾値を越える区間を音声区間とする方法を用いることができる。音声のパワーは、例えば10msec程度の一定間隔で、音声データの振幅の２乗を足し合わせた値である。ここでは、音声区間の検出方法として、単純な方法を挙げたが、音声区間を検出する方法であれば、他の方法であってもよい。

データ選別手段104は、区間検出手段103により検出された音声区間に応じて音声データを切り出し、また、その区間に対応する書き起こしテキストデータ102を選択して出力する。その際、音声データ及び書き起こしテキストから切り出したデータ部分を、音声区間の長さ、すなわち発声長別に分類し、記憶装置に格納する。本実施形態における分類の単位は、「短い発声」、「長い発声」、「中位の発声」の３つとする。発声長別データ105は、これら３つの単位に分類された音声データ及び書き起こしテキストである。

発声長の分類に関し、上記の３つの単位について説明する。「短い発声」とは、例えば、相手の問いかけに対しての返答や相槌など、１〜２単語で構成される発声に対応する。また、その語彙は、「はい」や「えー」等の応答を表す単語と、問いに対する答えの単語とで構成される。このような発声は、通常、１秒程度であると考えられるため、本実施形態では「短い発声」の発声長を１秒未満と定義する。「中位の発声」とは、例えば、「ありがとうございました」などの定型文や、「あなたは１月１日にどこにいましたか」のような頭の中で整理された簡潔な問いかけなどに対応する。本実施形態では、このような「中位の発声」の発声長を１秒から３秒程度と定義する。「長い発声」とは、ある事象について説明する場合や、頭で整理されていない事項の説明に対応し、本実施形態では、その発声長を３秒以上と定義する。

モデル学習手段106は、発声長別データ105を用いて、音声認識に用いる音響モデル及び言語モデルを上記の分類別に学習する。発声長別モデル107は、発声長の単位別に学習された音響モデル及び言語モデルである。

ここで、言語モデルとその学習方法について説明する。言語モデルは、非特許文献２に記載されているようなNグラムによる近似で表されたモデルであり、その学習方法は、主に最尤推定によって行われる。Nグラムは、言語モデルのモデル化の手法であり、履歴のN-1個の単語を条件としたN個目の単語の出現確率（条件付き確率）を用いて、全単語の出現確率を近似するという手法である。

出現確率は、最尤推定法によると、学習コーパスの単語列の頻度を数えることによって計算することが出来る。例えば、「私」「は」という２単語連鎖の単語列の出現確率は、「私」「は」の出現数を２単語連鎖の総数で割ったものに相当する。音声認識の場合、デコードのプロセスにおいて条件付き確率を用いる。条件付き確率に関し、例えば、P(は|私)は、「私」の後に「は」の出現する確率を表す。このP(は|私)は、P(私,は)の２単語が連続して出現する同時確率と、「私」が出現する確率とを用いて、P(は|私)=P(私,は)/P(私)と計算することが出来る。

一方、音響モデルは、音声の音響的特徴を表現した確率モデルである。音響モデルとしては、例えば、HMM（Hidden Markov Model：隠れマルコフモデル）のツールキットのマニュアルである非特許文献３の35ページから40ページに書かれている、前後の音素コンテキストを考慮したトライフォンを音素として持つHMMが広く使われている。以下、音響モデルの学習について述べる。

音声の音響的特徴は、非特許文献３の54ページから64ページに記載されているように、音声データを10msec程度の一定区間で切り出し、プリエンファシス、FFT、フィルタバンクの処理を行った後、コサイン変換を行うことで抽出される。なお、抽出された特徴に加え、パワーや、前後の時刻の差分を用いることも出来る。

次に、抽出された特徴と、それに対応する書き起こしテキストとを用いて得られたラベルデータを用い、非特許文献３の127ページから130ページに記載されているフォワード・バックワード確率を求める。これにより、特徴とラベルデータとを対応付ける。ここで、ラベルデータとしては、前述のトライフォンなどが考えられる。例えば、「わたくし」と書き起こされた場合、ラベルデータは「*-w+a w-a+t a-t+a t-a+k a-k+u k-u+s s-i+*」のようになる。

モデル学習手段106は、発声長の３つの各単位について、上記のようなプロセスで音響モデル及び言語モデルを学習する。前述の例の場合、発声長が１秒以下の「短い発声」に対するモデル、発声長が１秒から３秒の「中位の発声」に対するモデル、及び、発声長が３秒以上の「長い発声」に対するモデルといった３種類のモデルが学習される。それら学習された音響モデル及び言語モデルが発声長別モデル107である。

図２に、第１の実施形態における音声認識部100B_1の構成を示す。音声認識部100B_1は、区間検出手段103と、発声長判定手段201と、発声長別モデル107と、モデル選択手段202と、認識手段203とで構成されている。

区間検出手段103は、基本的には前述のモデル学習部100A_1のものと同様の機能であり、入力された音声データから音声区間を検出し、その音声区間の開始時刻と終了時刻とを区間情報として出力する。

発声長判定手段201は、区間情報に基づいて、その区間の長さである発声長を計算する。そして、算出した発声長が、前述の「１秒以下」、「１秒から３秒」、「３秒以上」のような規定の単位のうちの何れに対応するかを判定する。

モデル選択手段202は、発声長判定手段201で判定された発声長の単位に対応する音響モデル及び言語モデルを、前述の発声長別モデル107から選択する。

認識手段203は、モデル選択手段202が選択した音響モデル及び言語モデルを用いて、入力音声の認識を行い、その認識結果を出力する。認識する方法は、おおまかには音響分析処理と探索処理とに分けられる。音響分析は、前述の音声の特徴量を計算する処理である。探索は、算出された特徴量と音響モデル及び言語モデルとを用いて単語のスコアを計算し、スコアの高いものを認識候補として出力するという処理である。

このように、第１の実施形態によれば、音声の特徴量としての発声長別に音響モデル及び言語モデルを学習し、そのモデルを用いて音声認識を行うことから、音声認識の精度を高めることができる。

一般に、話し言葉には、その発声長に応じて異なる現象がみられる。例えば、「短い発声」及び「中位の発声」は、「はい」や「ありがとうございます」といった事前に頭で整理された内容であるため、その発声は比較的明確である。一方、「長い発声」の場合は、考えながら発声されるため、途中で「えー」などのフィラーが挿入される、あるいは口籠るというように、発声があいまいになる現象がみられる。また、１〜２単語を発声する「短い発声」と、それ以上の単語を発声する「中位の発声」とでは、後者のほうがより多くの単語を発声しようとする分、口の動きに怠けが生じる可能性が高い。

このような現象を勘案すると、発声長とその発声にみられる現象との間には大きな相関があると考えられる。よって、本実施形態のように音響モデルおよび言語モデルを発声長別に学習し、学習したモデルにより音声認識を行うことで、高精度な音声認識が可能となる。また、発声長の計算には、パワー情報など、発声の内容に直接関与しない情報を用いるため、事前に発声内容を把握することは不要である。よって、学習時と認識時とで同じ精度の安定した音声認識システムを簡易に構築することができる。

なお、学習用のモデルとしては、上記実施形態のように、音響及び言語に分けて作成する以外にも、例えば、発声長を条件とした条件付き確率により表してもよい。また、音声認識時、例えば発声長が３秒の場合に、３秒のモデルだけを用いるのではなく、発声長が２秒や４秒のモデルとの線形和を用いてもよい。

次に、本発明の第２の実施形態について説明する。本実施形態では、音声の特徴量として、前述の発声長に加え、音声区間の先頭からの時刻である発声時刻に着目したモデル学習及び音声認識を行う。

図３に、第２の実施形態におけるモデル学習部の構成を示す。本実施形態のモデル学習部100A_2は、図１に示す前述の共通要素110により得られる発声長別データ105と、発声時刻判定手段301と、発声長・発声時刻別データ302と、モデル学習手段106と、発声長・発声時刻別モデル303とで構成されている。

発声時刻判定手段301は、発声長別に分類されている発声長別データ105の音声データ及び書き起こしデータについて、さらに、先頭から１秒間の部分、最後の１秒間の部分、残りの中央部分の３つに分類する。分類された部分は、本発明における詳細データ部分に対応する。なお、分類の数は、本実施形態のような３つに限らず、４つあるいは５つ等、他の数であってもよい。また、先頭の１秒間と最後の１秒間との組み合わせ等、複数の部分を組み合わせて１つの分類としてもよい。

発声長・発声時刻別データ302は、発声時刻判定手段301で切り分けられた音声データ及び書き起こしテキストを、発声長及び発声時刻別に分類したものである。モデル学習手段106は、発声長・発声時刻別データ302を用いて、発声長別及び発声時刻別に音響モデル及び言語モデルを学習する。学習した音響モデル及び言語モデルが、発声長・発声時刻別モデル303である。

図４に、本実施形態の音声認識部100B_2の構成を示す。音声認識部100B_2は、区間検出手段103と、発声長判定手段201と、発声時刻判定手段301と、発声長・発声時刻別モデル303と、モデル選択手段401と、認識手段203とで構成されている。

区間検出手段103及び発声長判定手段201は、図２に示す前述の音声認識部100B_1のものと同様である。すなわち、入力された音声データから音声区間を検出し、その区間の長さ、すなわち発声長が、何れの単位に対応するかを判定する。発声時刻判定手段301は、区間情報を元に、入力された音声の先頭から１秒間の部分、最後の１秒間の部分、残りの中央部分の３つを認識する。

モデル選択手段401は、発声長と発声時刻の情報とに基づいて、発声長・発声時刻別モデル303から認識対象の音声データに対応する音響モデル及び言語モデルを選択する。モデルの選択にあたっては、例えば、認識対象の音声波形が１秒未満であり、先頭から１秒間を認識したい場合、学習時に用いた音声データの発声長が１秒未満であり、かつ発声時刻が先頭から１秒間のモデルを選択する。

上記第２の実施形態によれば、発声長に発声時刻を加味したことにより、より高精度な音声認識が可能となる。

話し言葉における発声時刻別の語彙の性質は、次のように考えられる。１つの音声区間の先頭から１秒までに発声される単語は、「はい」などの応答や、「あー」などのフィラーの単語が多い傾向にある。また、区間の終盤に発声される単語としては、日本語の性質である「〜です」あるいは「でした」などの文末表現が多い。

このような性質を勘案すると、発声時刻別の音響モデルと言語モデルを作成し、入力された音声から観測された発声時刻に応じて、専用のモデルを使用して音声認識を行うことで、認識性能が向上すると考えられる。また、発声長に発声時刻を加味することで、認識した区間の冒頭部分は「はい」や「あー」などの語彙に絞込み、区間の終盤は「〜です」のような文末表現に絞込むという、処理の効率化を図ることができる。

また、音声の特徴量としての発声時刻は、確定した発声長の先頭からの時刻を計測することにより得られる情報である。よって、発声時刻は、発声長と同様に、発声の内容に直接関与しない情報であり、学習時と認識時とで観測値に差が生じる情報ではないため、安定した音声認識が実現できる。

なお、発声時刻を用いる学習用のモデルとしては、発声長と発声時刻とを条件とした条件付き確率により表してもよい。また、音声認識時、発声長及び発声時刻に基づき選択されたモデルだけを用いるのではなく、隣接する発声長や発声時刻のモデル、あるいは、その他のモデルとの重み付き線形和を用いてもよい。

上記各実施形態では、発声長の分類を「短い発声」、「長い発声」、「中位の発声」の３つとしたが、本発明を実施するにあたっては、発声長を２つあるいは４つ以上に分類してもよい。ただし、２つの場合は、分類が粗いことから認識精度を向上させ難く、また、単位数が増えるほど処理は複雑化する。よって、それらの兼ね合いを考慮して発声長の分類数を設定することが望ましい。

本発明は、高精度な音声認識を必要とされる種々の音声認識装置に好適である。また、本発明は、上記各実施形態における音声認識装置が備える手段に対応したコンピュータプログラムとして実施してもよい。

Claims

音響モデルおよび言語モデルを用いて音声認識処理を行う音声認識部と、
音声データにおける発声区間の長さを表す発声長別に前記音響モデルおよび言語モデルを学習するモデル学習部とを備えることを特徴とする音声認識装置。
前記モデル学習部は、
音声データにおける発声区間を検出し該発声区間を表す区間情報を生成する手段と、前記音声データと該音声データから書き起こされたテキストデータとにおける区間情報に対応するデータ部分を認識し該データ部分をその発声長に基づき分類する手段と、分類されたデータ部分を用いて音響モデルおよび言語モデルを学習する手段とを有することを特徴とする請求項１記載の音声認識装置。
前記音声認識部は、
音声認識処理の対象となる音声データの発声長を算出し該発声長に対応する分類を認識する手段と、認識した分類に対応する音響モデルおよび言語モデルを用いて前記音声データの音声認識処理を実行する手段とを有することを特徴とする請求項２記載の音声認識装置。
前記モデル学習部は、さらに、区間情報に対応するデータ部分から当該発声区間における所定の期間に対応する詳細データ部分を認識し該詳細データ部分を期間別に分類する手段を有し、
音響モデルおよび言語モデルを学習するとき、さらに、分類された詳細データ部分を用いて発声区間における所定の期間別に学習を実行することを特徴とする請求項３記載の音声認識装置。
前記音声認識部は、さらに、音声認識処理の対象となる音声データの発声長が表す発声区間における所定の期間を認識する手段を有し、
前記音声データの音声認識処理を実行するとき、さらに、認識した期間に対応する音響モデルおよび言語モデルを用いることを特徴とする請求項４記載の音声認識装置。
前記モデル学習部は、音声データにおいてパワーが閾値より大きな発声区間の長さを前記発声長として認識することを特徴とする請求項１乃至５のいずれか１項に記載の音声認識装置。
前記モデル学習部は、発声長を１秒未満と１秒から３秒未満と３秒以上とに分類することを特徴とする請求項１乃至６のいずれか１項に記載の音声認識装置。
前記モデル学習部は、発声区間における前記所定の期間を該発声区間の先頭からの時刻により認識することを特徴とする請求項４乃至７のいずれか１項に記載の音声認識装置。
前記モデル学習部は、発声区間における前記所定の期間として、発声区間の先頭から１秒間の期間と、発声区間の終尾の１秒間の期間と、前記両期間に挟まれた中央の期間とのうちの２つ以上の組み合わせを適用することを特徴とする請求項８記載の音声認識装置。
コンピュータを請求項１乃至９のいずれか１項に記載の音声認識装置として機能させることを特徴とするプログラム。
音声認識装置が、音声データにおける発声区間の長さを表す発声長別に音響モデルおよび言語モデルを学習し、前記音響モデルおよび言語モデルを用いて音声認識処理を行うことを特徴とする音声認識方法。
前記音声認識装置が、
音響モデルおよび言語モデルを学習するとき、音声データにおける発声区間を検出し該発声区間を表す区間情報を生成し、前記音声データと該音声データから書き起こされたテキストデータとにおける区間情報に対応するデータ部分を認識し該データ部分をその発声長に基づき分類し、分類されたデータ部分を用いて音響モデルおよび言語モデルを学習することを特徴とする請求項１１記載の音声認識方法。
前記音声認識装置が、
音声認識処理を行うとき、音声認識処理の対象となる音声データの発声長を算出し該発声長に対応する分類を認識し、認識した分類に対応する音響モデルおよび言語モデルを用いて前記音声データの音声認識処理を実行することを特徴とする請求項１２記載の音声認識方法。
前記音声認識装置が、
音響モデルおよび言語モデルを学習するとき、さらに、区間情報に対応するデータ部分から当該発声区間における所定の期間に対応する詳細データ部分を認識し該詳細データ部分を期間別に分類し、
音響モデルおよび言語モデルを学習するとき、さらに、分類された詳細データ部分を用いて発声区間における所定の期間別に学習を実行することを特徴とする請求項１３記載の音声認識方法。
前記音声認識装置が、音声認識処理を行うとき、さらに、音声認識処理の対象となる音声データの発声長が表す発声区間における所定の期間を認識し、
前記音声データの音声認識処理を実行するとき、さらに、認識した期間に対応する音響モデルおよび言語モデルを用いることを特徴とする請求項１４記載の音声認識方法。
前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、音声データにおいてパワーが閾値より大きな発声区間の長さを前記発声長として認識することを特徴とする請求項１１乃至１５のいずれか１項に記載の音声認識方法。
前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、発声長を１秒未満と１秒から３秒未満と３秒以上とに分類することを特徴とする請求項１１乃至１６のいずれか１項に記載の音声認識方法。
前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、発声区間における前記所定の期間を該発声区間の先頭からの時刻により認識することを特徴とする請求項１４乃至１７のいずれか１項に記載の音声認識方法。
前記音声認識装置が、音響モデルおよび言語モデルを学習するとき、発声区間における前記所定の期間として、発声区間の先頭から１秒間の期間と、発声区間の終尾の１秒間の期間と、前記両期間に挟まれた中央の期間とのうちの２つ以上の組み合わせを適用することを特徴とする請求項１８記載の音声認識方法。