WO2019156101A1 - 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム - Google Patents
音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム Download PDFInfo
- Publication number
- WO2019156101A1 WO2019156101A1 PCT/JP2019/004149 JP2019004149W WO2019156101A1 WO 2019156101 A1 WO2019156101 A1 WO 2019156101A1 JP 2019004149 W JP2019004149 W JP 2019004149W WO 2019156101 A1 WO2019156101 A1 WO 2019156101A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- speech recognition
- speech
- frame
- acoustic
- feature amount
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
音声認識誤りにつながる音響的な要因を推定することができる音声認識精度劣化要因推定装置を提供する。入力された音声からフレーム毎の音響特徴量を抽出する音響特徴量抽出部と、劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の音響特徴量の音響イベント毎の事後確率を計算する事後確率計算部と、音響イベント毎の事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とするフィルタリング部と、認識スコア付き音声認識結果の集合を出力する音声認識部と、各フレームの音声認識結果特徴量を出力する音声認識結果特徴量抽出部と、補正事後確率と、各フレームの音声認識結果特徴量と、各フレームの音響特徴量に基づいて音声認識精度の主たる劣化要因クラスをフレームごとに算出して出力する劣化要因出力部を含む。
Description
本発明は、音声認識誤りにつながる音響的な要因を推定する音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラムに関する。
未知語や同音異義語等の音声認識誤り原因を検出、訂正する方法が提案されている(非特許文献1、2)。
Taichi Asami, Ryo Masumura, Yushi Aono, Koichi Shinoda, "Recurrent Out-of-Vocabulary Word Detection Using Distribution of Features", [online], 平成 28 年9 月、ISCA, [平成 29 年 5 月 18 日検索]、インターネット〈 URL:http://t2r2.star.titech.ac.jp/rrws/file/CTT100716848/ATD100000413/ 〉
垣智、隅田英一郎、飯田仁、"文字連鎖の統計的特徴を利用した音声認識誤り訂正手法"、[online]、平成 10 年 3 月、言語処理学会、[平成29 年 5 月18 日検索]、インターネット〈URL:http://www.anlp.jp/proceedings/annual_meeting/1998/pdf_dir/Q1-5.pdf 〉
Srikanth R Madikeri, Hema A Murthy, "Mel filter bank energy-based slope feature and its application to speaker recognition", [online], 平成 23 年 1 月、ISCA, [平成 29 年 5 月 18 日検索]、インターネット〈 URL:http://ieeexplore.ieee.org/abstract/document/5734713/ 〉
非特許文献1では音素認識と単語認識を並列で実行し、単語認識において生成されるコンフュージョンネットワークの遷移毎の特徴量を用いて未知語を検出するが、必ず音声認識を行う必要があり、かつ検出できるのは未知語に限られる。非特許文献2では、音声認識誤りパターンを類型化し、パターンに当てはまる部分を訂正するが、言語的な誤りパターンのみにしか対応できない。
そこで、本発明では、音声認識誤りにつながる音響的な要因を推定することができる音声認識精度劣化要因推定装置を提供することを目的とする。
本発明の音声認識精度劣化要因推定装置は、音響特徴量抽出部と、事後確率計算部と、フィルタリング部と、音声認識部と、音声認識結果特徴量抽出部と、劣化要因出力部を含む。
音響特徴量抽出部は、入力された音声からフレーム毎の音響特徴量を抽出する。事後確率計算部は、劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の音響特徴量の音響イベント毎の事後確率を計算する。フィルタリング部は、音響イベント毎の事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とする。音声認識部は、入力された音声に対して音声認識を行い、認識スコア付き音声認識結果の集合を出力する。音声認識結果特徴量抽出部は、認識スコア付き音声認識結果の集合の各単語の単語表記および品詞を分散表現で表される単語品詞ベクトルに変換し、当該単語品詞ベクトルに認識スコアの各数値を連結して音声認識結果特徴量とし、当該音声認識結果特徴量をフレームごとに出力する。劣化要因出力部は、前記補正事後確率と、各フレームの前記音声認識結果特徴量と、各フレームの音響特徴量に基づいて、音声認識精度の主たる劣化要因クラスをフレームごとに算出して出力する。
本発明の音声認識精度劣化要因推定装置によれば、音声認識誤りにつながる音響的な要因を推定することができる。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、図1を参照して実施例1の音声認識精度劣化要因推定装置の構成を説明する。同図に示すように本実施例の音声認識精度劣化要因推定装置1は、音響特徴量抽出部11と、事後確率計算部12と、フィルタリング部13と、音声認識部14と、音声認識結果特徴量抽出部15と、劣化要因出力部16と、第1モデル記憶部17と、第2モデル記憶部18と、第1モデル学習部10と、第2モデル学習部19を含む。以下、図2を参照しながら各構成要件の動作について詳細に説明する。
<音響特徴量抽出部11>
入力:音声
出力:各フレームの音響特徴量
処理:音響特徴量抽出部11は、入力された音声からフレーム毎の音響特徴量を抽出する(S11)。音響特徴量抽出部11は、例えば非特許文献3に記載の公知の技術により、各フレームの音響特徴量を抽出する。
入力:音声
出力:各フレームの音響特徴量
処理:音響特徴量抽出部11は、入力された音声からフレーム毎の音響特徴量を抽出する(S11)。音響特徴量抽出部11は、例えば非特許文献3に記載の公知の技術により、各フレームの音響特徴量を抽出する。
≪用語の定義:フレーム≫
入力音声を音響分析する際、分析対象の波形は一定の性質を持つという前提、すなわち分析対象の始めと終わりでその性質が変わらないものであるという前提を置く場合が多い。そのため、分析対象の音声波形を非常に短い時間幅で切り出すことにより、そのごく短い時間幅では音声は同じ特性を持つと言えるようにする。ここでいう時間幅としては、20~30ミリ秒と言った値が採用されることが多い。
入力音声を音響分析する際、分析対象の波形は一定の性質を持つという前提、すなわち分析対象の始めと終わりでその性質が変わらないものであるという前提を置く場合が多い。そのため、分析対象の音声波形を非常に短い時間幅で切り出すことにより、そのごく短い時間幅では音声は同じ特性を持つと言えるようにする。ここでいう時間幅としては、20~30ミリ秒と言った値が採用されることが多い。
上記のように音声を短い時間幅で切り出す際、音響分析結果の急激な変化を避け、音響分析結果を連続的に変化させることを目的に、切り出し位置を時間幅より短い幅でずらすことにより、切り出された音声波形を一部オーバーラップさせ、オーバーラップさせた部分においては共通の音声波形が含まれるようにする。このとき、ずらす時間幅をフレームシフトと呼ぶことが多い。フレームシフトとして、10~15ミリ秒といった値が採用されることが多い。非特許文献3のFig.1を参照のこと。
<事後確率計算部12>
入力:入力された音声における発話全体の、各フレームの音響特徴量
出力:各フレームの、音響イベント毎の事後確率
処理:事後確率計算部12は、劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の音響特徴量の音響イベント毎の事後確率を計算する(S12)。事後確率計算部12は、後述する第1モデル学習部10により事前に学習済みのモデルであって、第1モデル記憶部17に記憶済みの音響イベント推定モデルに各フレームの音響特徴量を入力し、フレーム毎に音響イベント毎の事後確率を計算して出力する。
入力:入力された音声における発話全体の、各フレームの音響特徴量
出力:各フレームの、音響イベント毎の事後確率
処理:事後確率計算部12は、劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の音響特徴量の音響イベント毎の事後確率を計算する(S12)。事後確率計算部12は、後述する第1モデル学習部10により事前に学習済みのモデルであって、第1モデル記憶部17に記憶済みの音響イベント推定モデルに各フレームの音響特徴量を入力し、フレーム毎に音響イベント毎の事後確率を計算して出力する。
音響イベントの例として、例えば下表がある。
音響イベントは、音声認識に悪影響を及ぼす(認識精度が劣化する)要因と考えられるクラスである劣化要因クラスと、音声認識に悪影響を及ぼさないと考えられるクラスである非劣化要因クラスの何れかのクラスに予め分類されているものとする。
上表に示した音響イベントの例において、各音響イベントは以下のように分類される。
音響イベント推定モデルとして、例えば深層ニューラルネットワーク(DNN:Deep Neural Netword)や畳込みニューラルネットワーク(CNN:Convolutional Neural Network)、混合正規分布(Gaussian Mixture Model)などを用いてもよい。
<フィルタリング部13>
入力:各フレームの、音響イベント毎の事後確率
出力:各フレームの、音響イベント毎の補正事後確率
処理:フィルタリング部13は、音響イベント毎の事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とし、これを出力する(S13)。フィルタリング部13は、事後確率計算部12で計算された音響イベント毎の事後確率について、イベント毎に時系列フィルタリング処理を行う。
入力:各フレームの、音響イベント毎の事後確率
出力:各フレームの、音響イベント毎の補正事後確率
処理:フィルタリング部13は、音響イベント毎の事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とし、これを出力する(S13)。フィルタリング部13は、事後確率計算部12で計算された音響イベント毎の事後確率について、イベント毎に時系列フィルタリング処理を行う。
フィルタリング部13の具体的手順として、以下のような方法が挙げられる。まず、フィルタリング部13は、発話区間全体(入力された音声全体)に対し、フィルタ窓を設定する。フィルタ窓は発話区間全体よりも短い時間幅(例えばフレームシフト長の10倍など)を設定する。次に、フィルタリング部13は、フィルタ窓に包含されるフレーム毎の事後確率を取得する。上記の例に当てはめれば、10フレーム分の事後確率=10個の事後確率の数値である。フィルタリング部13は、取得した音響イベント毎の事後確率に対して、時系列フィルタを掛ける。ここで時系列フィルタは、時間方向に重みづけ係数が展開されたフィルタであって、例えば、移動平均フィルタ、メディアンフィルタなどでよい。
上記方法では、発話区間の最初と最後にフィルタ窓長に満たないフレームが生じる場合がある。その場合はフィルタリング部13が下記のような処理を実行することにより、フィルタリングができない状態を回避する。
発話の最初:最初のフレームの事後確率をコピーし、フィルタ窓長に満たない分はそのコピーした値を使用する。
発話の最後:最後のフレームの事後確率をコピーし、フィルタ窓長に満たない分はそのコピーした値を使用する。
発話の最初:最初のフレームの事後確率をコピーし、フィルタ窓長に満たない分はそのコピーした値を使用する。
発話の最後:最後のフレームの事後確率をコピーし、フィルタ窓長に満たない分はそのコピーした値を使用する。
<音声認識部14>
入力:音声
出力:認識スコア付き音声認識結果の集合
処理:音声認識部14は、入力された音声(S11で使用する音声と同じ音声)に対して音声認識を行い、認識スコア付き音声認識結果の集合を生成する(S14)。各音声認識結果の各単語には、単語表記、品詞、認識スコア(信頼度、音響スコア、言語スコア)、単語開始時刻、単語終了時刻、が付与されているものとする。
入力:音声
出力:認識スコア付き音声認識結果の集合
処理:音声認識部14は、入力された音声(S11で使用する音声と同じ音声)に対して音声認識を行い、認識スコア付き音声認識結果の集合を生成する(S14)。各音声認識結果の各単語には、単語表記、品詞、認識スコア(信頼度、音響スコア、言語スコア)、単語開始時刻、単語終了時刻、が付与されているものとする。
<音声認識結果特徴量抽出部15>
入力:認識スコア付き音声認識結果の集合出力:各フレームの、音声認識結果特徴量
処理:音声認識結果特徴量抽出部15は、認識スコア付き音声認識結果の集合の各単語の単語表記および品詞を分散表現で表される単語品詞ベクトルに変換し、当該単語品詞ベクトルに認識スコアの各数値を連結して音声認識結果特徴量とし、当該音声認識結果特徴量をフレームごとに出力する(S15)。なお、単語品詞ベクトルは、単語が継続するフレーム間で同じ値をとる。なお、上述のステップS14、S15は、ステップS11~S13と並行して実行することができる。
入力:認識スコア付き音声認識結果の集合出力:各フレームの、音声認識結果特徴量
処理:音声認識結果特徴量抽出部15は、認識スコア付き音声認識結果の集合の各単語の単語表記および品詞を分散表現で表される単語品詞ベクトルに変換し、当該単語品詞ベクトルに認識スコアの各数値を連結して音声認識結果特徴量とし、当該音声認識結果特徴量をフレームごとに出力する(S15)。なお、単語品詞ベクトルは、単語が継続するフレーム間で同じ値をとる。なお、上述のステップS14、S15は、ステップS11~S13と並行して実行することができる。
<劣化要因出力部16>
入力1:各フレームの、音響イベント毎の補正事後確率
入力2:各フレームの、音声認識結果特徴量
入力3:各フレームの、音響特徴量
出力1:音声認識精度の主たる劣化要因クラス(のラベル)
出力2:劣化要因クラスが支配的である発話区間情報(開始時刻、終了時刻)
処理:劣化要因出力部16は、ステップS13において時系列フィルタリング処理された補正事後確率(入力1)と、各フレームの音声認識結果特徴量(入力2)と、各フレームの音響特徴量(入力3)に基づいて、音声認識精度の主たる劣化要因クラス(出力1)と、劣化要因クラスが支配的である発話区間情報(開始時刻、終了時刻)(出力2)をフレームごとに算出して出力する(S16)。具体的には劣化要因出力部16は、後述する第2モデル学習部19により予め学習しておいたDNN(Deep Neural Network)やLSTM(Long Short-Term Memory)などの統計モデル(以下、音声認識精度劣化要因推定用モデルという)に、入力1、入力2、入力3を連結して入力し(図3参照)、出力される劣化要因クラスの事後確率が最も高いクラスを出力1とする。出力1が所定のフレームに渡り連続して同一クラスである場合に、当該区間の情報を出力2として出力する。
入力1:各フレームの、音響イベント毎の補正事後確率
入力2:各フレームの、音声認識結果特徴量
入力3:各フレームの、音響特徴量
出力1:音声認識精度の主たる劣化要因クラス(のラベル)
出力2:劣化要因クラスが支配的である発話区間情報(開始時刻、終了時刻)
処理:劣化要因出力部16は、ステップS13において時系列フィルタリング処理された補正事後確率(入力1)と、各フレームの音声認識結果特徴量(入力2)と、各フレームの音響特徴量(入力3)に基づいて、音声認識精度の主たる劣化要因クラス(出力1)と、劣化要因クラスが支配的である発話区間情報(開始時刻、終了時刻)(出力2)をフレームごとに算出して出力する(S16)。具体的には劣化要因出力部16は、後述する第2モデル学習部19により予め学習しておいたDNN(Deep Neural Network)やLSTM(Long Short-Term Memory)などの統計モデル(以下、音声認識精度劣化要因推定用モデルという)に、入力1、入力2、入力3を連結して入力し(図3参照)、出力される劣化要因クラスの事後確率が最も高いクラスを出力1とする。出力1が所定のフレームに渡り連続して同一クラスである場合に、当該区間の情報を出力2として出力する。
<第1モデル学習部10>
図4に示すように、第1モデル学習部10は、事後確率計算部12が出力する各フレームの、音響イベント毎の事後確率と、これに対応して(例えば人手などで)入力される正解ラベルに基づき、誤差関数によって両者の誤差を測定し、測定された誤差に基づいて音響イベント推定モデルの重みを修正し、音響イベント推定モデルを修正、学習する(S10)。ステップS10のモデル学習動作は、ステップS12の前に予め実行されているものとする。
図4に示すように、第1モデル学習部10は、事後確率計算部12が出力する各フレームの、音響イベント毎の事後確率と、これに対応して(例えば人手などで)入力される正解ラベルに基づき、誤差関数によって両者の誤差を測定し、測定された誤差に基づいて音響イベント推定モデルの重みを修正し、音響イベント推定モデルを修正、学習する(S10)。ステップS10のモデル学習動作は、ステップS12の前に予め実行されているものとする。
<第2モデル学習部19>
同図に示すように、第2モデル学習部19は、劣化要因出力部16の出力と、(例えば人手などで)入力される正解ラベルに基づき、誤差関数によって両者の誤差を測定し、測定された誤差に基づいて音声認識精度劣化要因推定用モデルに設定される重みを修正し、音声認識精度劣化要因推定用モデルを修正、学習する(S19)。ステップS19のモデル学習動作は、ステップS16の前に予め実行されているものとする。図3に、音声認識精度劣化要因推定用モデルの構造例を示す。
同図に示すように、第2モデル学習部19は、劣化要因出力部16の出力と、(例えば人手などで)入力される正解ラベルに基づき、誤差関数によって両者の誤差を測定し、測定された誤差に基づいて音声認識精度劣化要因推定用モデルに設定される重みを修正し、音声認識精度劣化要因推定用モデルを修正、学習する(S19)。ステップS19のモデル学習動作は、ステップS16の前に予め実行されているものとする。図3に、音声認識精度劣化要因推定用モデルの構造例を示す。
<効果>
本実施例の音声認識精度劣化要因推定装置1は、音声認識精度が劣化する要因を音声の特徴から推定したため、次のような効果を奏する。1)音声認識結果のスコアを考慮することにより、推定された精度劣化要因の信頼性を評価することができ、より妥当な劣化要因を提示することができる。2)劣化要因をユーザに提示することにより、再度音声を発声した場合の音声認識の正答率の向上が期待できる。3)音声認識誤りが含まれると推定される結果を除外することにより、音声認識結果を用いた検索等の精度向上が期待できる。
本実施例の音声認識精度劣化要因推定装置1は、音声認識精度が劣化する要因を音声の特徴から推定したため、次のような効果を奏する。1)音声認識結果のスコアを考慮することにより、推定された精度劣化要因の信頼性を評価することができ、より妥当な劣化要因を提示することができる。2)劣化要因をユーザに提示することにより、再度音声を発声した場合の音声認識の正答率の向上が期待できる。3)音声認識誤りが含まれると推定される結果を除外することにより、音声認識結果を用いた検索等の精度向上が期待できる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (5)
- 入力された音声からフレーム毎の音響特徴量を抽出する音響特徴量抽出部と、
劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の前記音響特徴量の前記音響イベント毎の事後確率を計算する事後確率計算部と、
前記音響イベント毎の前記事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とするフィルタリング部と、
入力された音声に対して音声認識を行い、認識スコア付き音声認識結果の集合を出力する音声認識部と、
前記認識スコア付き音声認識結果の集合の各単語の単語表記および品詞を分散表現で表される単語品詞ベクトルに変換し、当該単語品詞ベクトルに前記認識スコアの各数値を連結して音声認識結果特徴量とし、当該音声認識結果特徴量をフレームごとに出力する音声認識結果特徴量抽出部と、
前記補正事後確率と、各フレームの前記音声認識結果特徴量と、各フレームの前記音響特徴量に基づいて、音声認識精度の主たる劣化要因クラスをフレームごとに算出して出力する劣化要因出力部
を含む音声認識精度劣化要因推定装置。 - 請求項1に記載の音声認識精度劣化要因推定装置であって、
前記劣化要因出力部は、
前記劣化要因クラスに加え、前記劣化要因クラスが支配的である発話区間情報を算出して出力する
音声認識精度劣化要因推定装置。 - 音声認識精度劣化要因推定装置が実行する音声認識精度劣化要因推定方法であって、
入力された音声からフレーム毎の音響特徴量を抽出するステップと、
劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の前記音響特徴量の前記音響イベント毎の事後確率を計算するステップと、
前記音響イベント毎の前記事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とするステップと、
入力された音声に対して音声認識を行い、認識スコア付き音声認識結果の集合を出力するステップと、
前記認識スコア付き音声認識結果の集合の各単語の単語表記および品詞を分散表現で表される単語品詞ベクトルに変換し、当該単語品詞ベクトルに前記認識スコアの各数値を連結して音声認識結果特徴量とし、当該音声認識結果特徴量をフレームごとに出力するステップと、
前記補正事後確率と、各フレームの前記音声認識結果特徴量と、各フレームの前記音響特徴量に基づいて、音声認識精度の主たる劣化要因クラスをフレームごとに算出して出力するステップ
を含む音声認識精度劣化要因推定方法。 - 請求項3に記載の音声認識精度劣化要因推定方法であって、
前記劣化要因クラスに加え、前記劣化要因クラスが支配的である発話区間情報を算出して出力する
音声認識精度劣化要因推定方法。 - コンピュータを請求項1または2に記載の音声認識精度劣化要因推定装置として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/968,120 US11227580B2 (en) | 2018-02-08 | 2019-02-06 | Speech recognition accuracy deterioration factor estimation device, speech recognition accuracy deterioration factor estimation method, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-021030 | 2018-02-08 | ||
JP2018021030A JP6812381B2 (ja) | 2018-02-08 | 2018-02-08 | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019156101A1 true WO2019156101A1 (ja) | 2019-08-15 |
Family
ID=67548983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/004149 WO2019156101A1 (ja) | 2018-02-08 | 2019-02-06 | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11227580B2 (ja) |
JP (1) | JP6812381B2 (ja) |
WO (1) | WO2019156101A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112750445A (zh) * | 2020-12-30 | 2021-05-04 | 标贝(北京)科技有限公司 | 语音转换方法、装置和系统及存储介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7272455B2 (ja) * | 2019-10-23 | 2023-05-12 | 富士通株式会社 | 検出方法、検出プログラム及び情報処理装置 |
JPWO2022162767A1 (ja) * | 2021-01-27 | 2022-08-04 | ||
CN112951211B (zh) * | 2021-04-22 | 2022-10-18 | 中国科学院声学研究所 | 一种语音唤醒方法及装置 |
CN114229637B (zh) * | 2021-12-03 | 2024-02-27 | 北京声智科技有限公司 | 电梯楼层确定方法、装置、设备及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6336091B1 (en) * | 1999-01-22 | 2002-01-01 | Motorola, Inc. | Communication device for screening speech recognizer input |
EP1385148A1 (en) * | 2002-07-27 | 2004-01-28 | Swisscom AG | Method for improving the recognition rate of a speech recognition system, and voice server using this method |
US20080101556A1 (en) * | 2006-10-31 | 2008-05-01 | Samsung Electronics Co., Ltd. | Apparatus and method for reporting speech recognition failures |
JP2008122483A (ja) * | 2006-11-08 | 2008-05-29 | Canon Inc | 情報処理装置及び方法並びにプログラム |
JP2008256802A (ja) * | 2007-04-02 | 2008-10-23 | Fujitsu Ten Ltd | 音声認識装置および音声認識方法 |
JP2010210816A (ja) * | 2009-03-09 | 2010-09-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6985858B2 (en) * | 2001-03-20 | 2006-01-10 | Microsoft Corporation | Method and apparatus for removing noise from feature vectors |
US7089178B2 (en) * | 2002-04-30 | 2006-08-08 | Qualcomm Inc. | Multistream network feature processing for a distributed speech recognition system |
FR2842014B1 (fr) * | 2002-07-08 | 2006-05-05 | Lyon Ecole Centrale | Procede et appareil pour affecter une classe sonore a un signal sonore |
US7149687B1 (en) * | 2002-07-29 | 2006-12-12 | At&T Corp. | Method of active learning for automatic speech recognition |
US7890325B2 (en) * | 2006-03-16 | 2011-02-15 | Microsoft Corporation | Subword unit posterior probability for measuring confidence |
US8131543B1 (en) * | 2008-04-14 | 2012-03-06 | Google Inc. | Speech detection |
EP2638542B1 (en) * | 2010-11-08 | 2014-08-06 | Google, Inc. | Generating acoustic models |
US9984678B2 (en) * | 2012-03-23 | 2018-05-29 | Microsoft Technology Licensing, Llc | Factored transforms for separable adaptation of acoustic models |
US9202464B1 (en) * | 2012-10-18 | 2015-12-01 | Google Inc. | Curriculum learning for speech recognition |
US9477753B2 (en) * | 2013-03-12 | 2016-10-25 | International Business Machines Corporation | Classifier-based system combination for spoken term detection |
CN104080024B (zh) * | 2013-03-26 | 2019-02-19 | 杜比实验室特许公司 | 音量校平器控制器和控制方法以及音频分类器 |
CN104078050A (zh) * | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
CN104079247B (zh) * | 2013-03-26 | 2018-02-09 | 杜比实验室特许公司 | 均衡器控制器和控制方法以及音频再现设备 |
US9280968B2 (en) * | 2013-10-04 | 2016-03-08 | At&T Intellectual Property I, L.P. | System and method of using neural transforms of robust audio features for speech processing |
US9648430B2 (en) * | 2013-12-13 | 2017-05-09 | Gn Hearing A/S | Learning hearing aid |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
KR101975057B1 (ko) * | 2015-03-20 | 2019-05-03 | 한국전자통신연구원 | 잡음 환경에서의 음성 인식을 위한 특징 보상 장치 및 방법 |
US10013981B2 (en) * | 2015-06-06 | 2018-07-03 | Apple Inc. | Multi-microphone speech recognition systems and related techniques |
US9754607B2 (en) * | 2015-08-26 | 2017-09-05 | Apple Inc. | Acoustic scene interpretation systems and related methods |
US10726326B2 (en) * | 2016-02-24 | 2020-07-28 | International Business Machines Corporation | Learning of neural network |
US9984683B2 (en) * | 2016-07-22 | 2018-05-29 | Google Llc | Automatic speech recognition using multi-dimensional models |
US10832664B2 (en) * | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
-
2018
- 2018-02-08 JP JP2018021030A patent/JP6812381B2/ja active Active
-
2019
- 2019-02-06 US US16/968,120 patent/US11227580B2/en active Active
- 2019-02-06 WO PCT/JP2019/004149 patent/WO2019156101A1/ja active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6336091B1 (en) * | 1999-01-22 | 2002-01-01 | Motorola, Inc. | Communication device for screening speech recognizer input |
EP1385148A1 (en) * | 2002-07-27 | 2004-01-28 | Swisscom AG | Method for improving the recognition rate of a speech recognition system, and voice server using this method |
US20080101556A1 (en) * | 2006-10-31 | 2008-05-01 | Samsung Electronics Co., Ltd. | Apparatus and method for reporting speech recognition failures |
JP2008122483A (ja) * | 2006-11-08 | 2008-05-29 | Canon Inc | 情報処理装置及び方法並びにプログラム |
JP2008256802A (ja) * | 2007-04-02 | 2008-10-23 | Fujitsu Ten Ltd | 音声認識装置および音声認識方法 |
JP2010210816A (ja) * | 2009-03-09 | 2010-09-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112750445A (zh) * | 2020-12-30 | 2021-05-04 | 标贝(北京)科技有限公司 | 语音转换方法、装置和系统及存储介质 |
CN112750445B (zh) * | 2020-12-30 | 2024-04-12 | 标贝(青岛)科技有限公司 | 语音转换方法、装置和系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2019139010A (ja) | 2019-08-22 |
US20210035553A1 (en) | 2021-02-04 |
JP6812381B2 (ja) | 2021-01-13 |
US11227580B2 (en) | 2022-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019156101A1 (ja) | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム | |
WO2005069158A2 (ja) | テキスト処理方法/プログラム/プログラム記録媒体/装置 | |
JP2005208648A (ja) | スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法 | |
WO2019065263A1 (ja) | 発音誤り検出装置、発音誤り検出方法、プログラム | |
US10410622B2 (en) | Systems and methods for automatic repair of speech recognition engine output using a sliding window mechanism | |
JP4594885B2 (ja) | 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 | |
US11495245B2 (en) | Urgency level estimation apparatus, urgency level estimation method, and program | |
US20220270637A1 (en) | Utterance section detection device, utterance section detection method, and program | |
JP4981579B2 (ja) | 誤り訂正モデルの学習方法、装置、プログラム、このプログラムを記録した記録媒体 | |
JP5253317B2 (ja) | 要約文作成装置、要約文作成方法、プログラム | |
JP6353408B2 (ja) | 言語モデル適応装置、言語モデル適応方法、プログラム | |
WO2020162238A1 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP4537970B2 (ja) | 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体 | |
JP6695830B2 (ja) | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム | |
US9449085B2 (en) | Pattern matching of sound data using hashing | |
JP6588874B2 (ja) | 単語予測装置、プログラム | |
JP6852167B2 (ja) | コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム | |
US11894017B2 (en) | Voice/non-voice determination device, voice/non-voice determination model parameter learning device, voice/non-voice determination method, voice/non-voice determination model parameter learning method, and program | |
JP7160170B2 (ja) | 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム | |
JP7176629B2 (ja) | 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム | |
JP5755603B2 (ja) | 言語モデル作成装置、言語モデル作成方法、プログラム | |
JP4801107B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 | |
JP2017090731A (ja) | 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム | |
JP4801108B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 | |
JP5980143B2 (ja) | ポーズ付与モデル生成装置、ポーズ付与モデル生成方法、ポーズ付与装置、ポーズ付与方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19751185 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19751185 Country of ref document: EP Kind code of ref document: A1 |