JPWO2012131822A1

JPWO2012131822A1 - 音声認識結果整形装置、音声認識結果整形方法及びプログラム

Info

Publication number: JPWO2012131822A1
Application number: JP2013506858A
Authority: JP
Inventors: 祐北出; 三木　清一; 清一三木
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-03-30
Filing date: 2011-11-29
Publication date: 2014-07-24
Also published as: WO2012131822A1; US20140074475A1

Abstract

音声データを音声認識した結果である文字列データを参照し、前記文字列データの中に含まれる認識誤りの単語列を前記文字列データから除去するとともに、前記認識誤りの単語列の前及び／又は後に付属語列が位置する場合には、少なくとも一方の前記付属語列を、前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、出力する認識結果出力手段（１０６）を有する音声認識結果整形装置（１０）を提供する。

Description

本発明は、音声認識結果整形装置、音声認識結果整形方法及びプログラムに関する。

音声データを音声認識した結果には、認識誤りが含まれる可能性がある。このような認識誤りが含まれた文章は意味が通じないものとなる可能性があるので、当該不都合を改善する技術が望まれる。

特許文献１には、音声認識部と、ＧＷＰＰ計算処理部と、単語削除部と、しきい値記憶部と、再スコアリング部とを有する音声認識装置が記載されている。

当該音声認識装置は次のように動作する。すなわち、音声認識部は、音響モデル及び言語モデルを用いた統計的手法により音声認識を行い、所定の個数の仮説を出力する。ＧＷＰＰ計算処理部は、音声認識部より送られたＮ個の仮説の各々に含まれる単語各々について信頼尺度を算出し、各単語にその値を付与して単語削除部に出力する。単語削除部は、Ｎ個の仮説中の各単語に付与された信頼尺度の値が、しきい値記憶部に記憶されたしきい値よりも低い値であったときに、当該単語を仮説より削除する。しきい値記憶部は、単語を削除する際に参照するしきい値を格納する。再スコアリング部は、単語削除部より送られてきたＮ個の仮説各々について、各単語の信頼尺度の積を算出し、その値が最も大きな仮説を出力する。

特許文献２には、音声認識装置によって認識された認識結果文から認識誤り箇所を検出する第１ステップと、予め用意した用例コーパスから第１ステップによって認識誤り箇所が検出された認識結果文に類似する用例文を検索し、検索した各用例文から認識誤り箇所に対応する代替候補を抽出する第２ステップと、第２ステップで抽出された各代替候補から最適候補を選択する第３ステップと、を備えている音声認識における認識誤り箇所の訂正方法が開示されている。

特許文献３には、入力されたテキスト中の述語または動作性名詞についての項構造を出力する言語処理装置であって、述語または動作性名詞とそれ以外の単語または単語属性間の係り受け状態を述語または動作性名詞とそれ以外の単語との格関係へ変換する規則を記憶した格変換規則記憶手段と、テキストの係り受け状態及び格変換規則記憶手段の格関係へ変換する規則を適用して、入力されたテキストを述語及び動作性名詞の項構造へ変換して出力する格変換手段と、を備えることを特徴とする言語処理装置が開示されている。

特許文献４には、日本語文字列中の単語の表記を自動的に訂正する装置の単語訂正方法において、文書作成者が訂正したい単語の情報を保持する手段と、該訂正情報を登録する手段と、活用語尾や助動詞などの基本用語について、訂正に必要な情報を保持する手段と、入力された日本語文書に対し、日本語単語辞書を用いて単語分割および品詞活用認定を行う手段と、該訂正情報保持手段で指示された訂正対象単語を検出する手段と、単語の訂正を行う手段とを備え、予め文書作成者は、訂正情報保持手段を用いて訂正対象単語と置換単語とを指定し、活用語尾や助動詞等の付属語について置換後の品詞活用に応じた見出しを基本用語訂正情報保持手段に格納しておき、該単語分割・品詞活用認定手段で行った単語分割および品詞活用認定の結果と訂正対象単語とを照合して一致する箇所を検出し、検出した箇所について訂正対象単語を置換単語と置換するとともに、その訂正対象単語に付随する付属語を、基本用語訂正情報保持手段を検索して置換する日本語文書の単語訂正方法が開示されている。

特開２００８−５８５０３号公報特開２００３−３０８０９４号公報特開２００９−１７６１６８号公報特開平４−１９９３５９号公報

J. Lafferty, A. McCallum, and F. Pereira.Conditional random fields: Probabilistic models for segmenting and labeling sequence data, In Proc. of ICML, pp.282-289, 2001.

特許文献１に開示の音声認識装置は、単語削除部にて音声認識により得られた仮説の各単語について信頼尺度に基づき単語単位で削除の判定を行い、さらに、再リスコアリング部にて単語が削除された仮説に対して再リスコアリングを行って、最尤の仮説を選択、出力している。このため、削除されるのは、信頼尺度により誤りと判定された単語そのもの、もしくは１つの仮説全体となる。よって、最終的に再リスコアリング部により出力された仮説も、元の認識結果から信頼尺度により認識誤りと判定された単語のみが除かれた文であり、その単語が削除されたことにより、例えば付属語が連続するなど、日本語として不自然な文となったり、文意が通らない文となったりすることがある。

また、特許文献４に開示の単語訂正方法は、事前に訂正すべき単語を指定した訂正情報を参照して、入力文から置換単語を検出する。また、入力文中に含まれる同一の単語に対しては、同一の処理が行われる。このように、特許文献４に開示の技術の場合、訂正内容の幅が狭小になってしまうため、十分な訂正が行えない。特許文献２及び３に記載の技術においても、訂正の内容は十分なものといえない。

そこで、本発明では、音声データを音声認識した結果である文字列データを、適切に整形する手段を提供することを課題とする。

本発明によれば、音声データを音声認識した結果である文字列データを参照し、前記文字列データの中に含まれる認識誤りの単語列を前記文字列データから除去するとともに、前記認識誤りの単語列の前及び／又は後に付属語列が位置する場合には、少なくとも一方の前記付属語列を、前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、出力する認識結果出力手段を有する音声認識結果整形装置が提供される。

また、本発明によれば、音声データを音声認識した結果である文字列データを参照し、前記文字列データの中に含まれる認識誤りの単語列を前記文字列データから除去するとともに、前記認識誤りの単語列の前及び／又は後に付属語列が位置する場合には、少なくとも一方の前記付属語列を、前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、出力する認識結果出力手段としてコンピュータを、機能させるためのプログラムが提供される。

また、本発明によれば、音声データを音声認識した結果である文字列データを参照し、前記文字列データの中に含まれる認識誤りの単語列を前記文字列データから除去するとともに、前記認識誤りの単語列の前及び／又は後に付属語列が位置する場合には、少なくとも一方の前記付属語列を、前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、出力する処理を、コンピュータが行う音声認識結果整形方法が提供される。

また、本発明によれば、音声データを音声認識した結果である文字列データであって、単語列ごとに分割され、各単語列に認識結果信頼度が対応付けられている認識結果データを参照し、前記認識結果信頼度に基づいて、前記文字列データから除去する低信頼度単語列を決定するとともに、当該低信頼度単語列の前後に位置する単語列である除去検討単語列を前記文字列データから除去もしくは他のデータに置換するか否か決定する変換単語決定手段と、前記認識結果データを基に、前記変換単語決定手段が除去もしくは他のデータに置換するよう決定した単語列を前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、前記音声データの音声認識の結果として出力する認識結果出力手段と、を有する音声認識結果整形装置が提供される。

また、本発明によれば、音声データを音声認識した結果である文字列データであって、単語列ごとに分割され、各単語列に認識結果信頼度が対応付けられている認識結果データを参照し、前記文字列データを文節ごとに分割するとともに、前記文節ごとに、他の文節との係り受け関係を判断する単語依存度算出手段と、前記認識結果データを参照し、前記認識結果信頼度に基づいて、前記文字列データから除去する低信頼度単語列及び当該低信頼度単語列を含む文節を前記文字列データから除去するよう決定するとともに、当該文節が係り受け先である文節を前記文字列データから除去もしくは他のデータに置換するよう決定する変換単語決定手段と、前記認識結果データを基に、前記変換単語決定手段が除去もしくは他のデータに置換するよう決定した単語列を前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、前記音声データの音声認識の結果として出力する認識結果出力手段と、を有する音声認識結果整形装置が提供される。

本発明によれば、音声データを音声認識した結果である文字列データを、適切に整形することが可能となる。

上述した目的、および、その他の目的、特徴および利点は、以下に述べる好適な実施の形態、および、それに付随する以下の図面によって、さらに明らかになる。
本実施形態の音声認識結果整形装置の機能ブロック図の一例である。本実施形態の音声認識結果整形方法の処理の流れの一例を示したフローチャートである。本実施形態の作用効果を説明するための図である。本実施形態の作用効果を説明するための図である。

以下、本発明の実施の形態について図面を用いて説明する。

なお、本実施形態の各部は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされたプログラム（あらかじめ機器を出荷する段階からメモリ内に格納されているプログラムのほか、ＣＤ等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムも含む）、そのプログラムを格納するハードディスク等の記憶ユニット、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、機器にはいろいろな変形例があることは、当業者には理解されるところである。

また、本実施形態の説明において利用する機能ブロック図は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。これらの図においては、本実施形態の各装置は１つの機器により実現されるよう記載されているが、その実現手段はこれに限定されない。すなわち、物理的に分かれた構成であっても、論理的に分かれた構成であっても構わない。

図１を参照すると、本実施形態の音声認識結果整形装置１０は、認識結果記憶手段１０１と、単語依存度算出モデル記憶手段１０２と、単語依存度算出手段１０３と、変換ルール記憶手段１０４と、変換単語決定手段１０５と、認識結果出力手段１０６とを有する。以下、各手段について説明する。

認識結果記憶手段１０１は、認識結果データを保持する。認識結果データは、音声データを音声認識した結果である文字列データ（以下、単に「文字列データ」という）を含む。文字列データは単語列（１つ以上の単語）ごとに分割され、各単語列には音声認識の認識結果信頼度が対応付けられている。なお、音声認識結果整形装置１０は、音声データを取得し、音声認識する音声認識手段をさらに有してもよい（図示せず）。そして、当該音声認識手段が生成した認識結果データを、認識結果記憶手段１０１に保持させてもよい。音声認識手段は従来技術に準じて実現することができる。

なお、認識結果記憶手段１０１は、その他、各単語列に対する形態素情報や、文字列データを構文解析した結果情報、具体的には、文字列データを文節に分解した結果を示す情報や、文節ごとに、他の文節との係り受け関係を示した情報や、単語列ごとに自立語か付属語かを示した情報などを記憶してもよい。これらの情報は、従来技術を利用して、コンピュータが自動で解析することができる。音声認識結果整形装置１０は、これらの情報を解析する手段を備えておき（図示せず）、認識結果データである文字列データを取得すると、従来技術を利用して当該文字列データを自動で解析し、解析結果を、認識結果記憶手段１０１に保持させてもよい。

単語依存度算出モデル記憶手段１０２は、単語列ごとに、他の単語列との結びつき度合を示す単語依存度を判断するための情報を記憶している。例えば、単語依存度算出モデル記憶手段１０２は、隣接する単語列との文脈の依存関係を数値化した単語依存度を求めるための単語依存度算出モデルを記憶してもよい。また、単語依存度算出モデル記憶手段１０２は、文節同士の係り受け関係を基に単語依存度を求めるための単語依存度算出モデルを記憶してもよい。

単語依存度算出モデルとしては、例えば、識別モデルや単語列の属性に基づく関数等が考えられる。以下、単語依存度算出モデルの例を示す。

「単語依存度算出モデル１」：一例としては、数１のように、単語列の属性に基づいて求めるモデルが考えられる。すなわち、ある単語列Ｗｉが付属語である場合には１、自立語である場合には０とする関数を含むモデルである。

「単語依存度算出モデル２」：別の一例としては、係り受け先の文節の有無に基づいて単語依存度を求める単語依存度算出モデルも考えられる。例えば、「想定の範囲」という単語列があったとき、「想定の」は「範囲」に掛かる連体修飾節である。この時、「想定」および「の」は係り受け元の文節（単語列）が存在しないため単語依存度を０、「範囲」は係り受け元の文節が存在するため、単語依存度を１と設定するモデルである。

上述の２つの例では、単語依存度を｛０、１｝の二値（離散値）で表現したが、単語依存度を連続値で表現することも考えられる。例えば、ＣＲＦ（非特許文献１）などの識別モデルを扱うことが考えられる。すなわち、隣接単語列が削除されたときに当該単語列が削除もしくは置換されるかのラベルが付与された学習データを用意し、これらを用いて単語列の表記や品詞などを素性とする識別モデルを学習することで、入力のテキスト（認識結果）の各単語列について、隣接単語列が削除もしくは置換されたときに当該単語列が削除もしくは置換される尤度（確率）を算出可能となる。

単語依存度算出手段１０３は、文字列データに含まれる単語列ごとに、他の単語列との結びつき度合を示す単語依存度を算出する。単語依存度算出手段１０３は、単語依存度算出モデル記憶手段１０２に記憶された単語依存度算出モデルを参照して、各単語列の単語依存度を求める。

例えば、単語依存度算出モデルが上述の数１の場合は、単語依存度算出手段１０３は、単語列ごとに自立語であるか付属語であるかを判断し、付属語である場合は１（単語依存度）、自立語である場合は０（単語依存度）を出力して、各単語列に対応付ける。その他、単語依存度算出手段１０３は、単語列ごとに当該単語列を含む文節と係り受け関係にある、係り受け元の文節があるか否か求め、係り受け元（の文節）がある場合には１（単語依存度）、係り受け元（の文節）がない場合には０（単語依存度）を出力して、各単語列に対応付ける。この時、各単語列に、係り受け元の文節を特定する情報を付与してもよい。なお、単語依存度算出手段１０３は、認識結果記憶手段１０１に記憶されている情報を利用して、単語情報、具体的には、各単語列が自立語であるか付属語であるかや、文節の係り受け関係などを求めることができる。

変換ルール記憶手段１０４は、文字列データから単語列を除去もしくは他のデータに置換するか否かを判定するルールを記述した変換ルールを記憶する。変換ルールは大きく２つに分けることができる。

「変換ルール１」：認識結果信頼度が所定値（設計的事項）より低い単語列である低信頼度単語列を、認識結果データである文字列データから除去もしくは他のデータに置換する。なお、認識結果信頼度は０から１の値を取り、前記所定値は予め別のデータにて求めた最適な値を用いてもよい。

「変換ルール２」：所定の条件を満たす場合、低信頼度単語列の前後に位置する単語列である除去検討単語列を除去もしくは他のデータに置換する。

なお、「低信頼度単語列の前後に位置する」とは、文字列データにおいて、低信頼度単語列の前後に位置することを意味する。

変換ルール２の具体例としては、次のようなものが考えられる。

「変換ルール２−１」：低信頼度単語列が自立語である場合、すなわち、単語依存度が１のとき、当該低信頼度単語列の後ろに位置する除去検討単語列が付属語列ならば、当該除去検討単語列を除去もしくは他のデータに置換する。

「変換ルール２−２」：低信頼度単語列が付属語である場合、すなわち、単語依存度が０のとき、当該低信頼度単語列の前に位置する除去検討単語列が付属語列（１つ以上の付属語が連続した列）ならば、当該除去検討単語列を除去もしくは他のデータに置換する。

「変換ルール２−３」：低信頼度単語列が付属語である場合、すなわち、単語依存度が０のとき、当該低信頼度単語列の後ろに位置する除去検討単語列が付属語列（１つ以上の付属語が連続した列）ならば、当該除去検討単語列を除去もしくは他のデータに置換する。

上記変換ルール１、２、２−１乃至２−３は、単語依存度算出モデル１を適用することを前提にしたものである。単語依存度算出モデル２を適用した場合、変換ルールは以下のように読み替えられる。

「変換ルール１´」：認識結果信頼度が所定値（設計的事項）より低い単語列である低信頼度単語列を含む文節を、認識結果データである文字列データから除去もしくは他のデータに置換する。なお、認識結果信頼度は０から１の値を取り、前記所定値は予め別のデータにて求めた最適な値を用いてもよい。

「変換ルール２´」：低信頼度単語列を含む文節を係り受け先の文節とする文節に含まれる単語列を除去もしくは他のデータに置換する。

変換単語決定手段１０５は、変換ルール記憶手段１０４が保持する変換ルールに基づいて、認識結果記憶手段１０１が保持する文字列データから、所定の単語列を除去もしくは他のデータに置換するか否かを決定する。具体的には二段階で処理を行う。

変換単語決定手段１０５は、まず、以下の段階１の処理を行う。

「段階１」：変換ルール１に従い、認識結果信頼度が所定値（設計的事項）より低い単語列（低信頼度単語列）を特定し、当該低信頼度単語列を文字列データから除去もしくは他のデータに置換するよう決定する。

例えば、変換単語決定手段１０５は、予め、上記所定値を保持しておき、当該所定値と、文字列データに含まれる各単語列に対応付けられた認識結果信頼度とを大小比較していくことで、低信頼度単語列を特定する。そして、特定した低信頼度単語列を、文字列データから除去もしくは他のデータに置換するよう決定する。

段階１の処理の後、変換単語決定手段１０５は、以下の段階２の処理を行う。

「段階２」：変換ルール２に従い、所定の条件を満たす場合、低信頼度単語列の前後に位置する単語列である除去検討単語列を除去もしくは他のデータに置換するよう決定する。

例えば、変換単語決定手段１０５は、低信頼度単語列が自立語か付属語かを単語依存度より判断し、自立語である場合には、上記変換ルール２−１を適用して、以下の処理を行う。すなわち、変換単語決定手段１０５は、低信頼度単語列の後ろの除去検討単語列が付属語列か否かを判断し、付属語列である場合には、当該除去検討単語列を除去もしくは他のデータに置換するよう決定する。そして、低信頼度単語列の後ろの除去検討単語列が自立語である場合には、当該除去検討単語列は除去もしくは他のデータに置換せず、そのまま文字列データに残すことを決定する。なお、かかる場合、低信頼度単語列の前の除去検討単語列は処理対象外である。すなわち、そのまま文字列データに残される。

一方、低信頼度単語列が付属語列である場合には、変換単語決定手段１０５は上記変換ルール２−２及び２−３を適用して、以下の処理を行う。すなわち、変換単語決定手段１０５は、低信頼度単語列の前及び後ろの除去検討単語列各々が付属語列か否かを判断し、付属語列である場合には、その除去検討単語列を除去もしくは他のデータに置換するよう決定する。そして、除去検討単語列が自立語である場合には、当該除去検討単語列は除去もしくは他のデータに置換せず、そのまま文字列データに残すことを決定する。

なお、上記段階１及び２は、単語依存度算出モデル１を適用することを前提にしたものである。単語依存度算出モデル２を適用した場合、変換単語決定手段１０５は、以下の二段階で処理を行う。

「段階１´」：変換ルール１´に従い、認識結果信頼度が所定値（設計的事項）より低い単語列である低信頼度単語列を含む文節を、認識結果データである文字列データから除去もしくは他のデータに置換するよう決定する。

例えば、変換単語決定手段１０５は、予め、上記所定値を保持しておき、当該所定値と、文字列データに含まれる各単語列に対応付けられた認識結果信頼度とを大小比較していくことで、低信頼度単語列を特定する。その後、低信頼度単語列を含む文節を特定し、特定した文節を、文字列データから除去もしくは他のデータに置換するよう決定する。

段階１´の処理の後、変換単語決定手段１０５は、以下の段階２´の処理を行う。

「段階２´」：変換ルール２´に従い、低信頼度単語列を含む文節を係り受け先の文節とする文節に含まれる単語列を除去もしくは他のデータに置換するよう決定する。

例えば、変換単語決定手段１０５は、認識結果記憶手段１０１が保持する情報を利用して、低信頼度単語列を含む文節を係り受け先の文節とする文節を特定し、当該文節に含まれる単語列を除去もしくは他のデータに置換するよう決定する。なお、除去もしくは置換される単語列は、１単語であっても複数単語であってもよい。

認識結果出力手段１０６は、認識結果データの文字列データを基に、変換単語決定手段が除去もしくは他のデータに置換するよう決定した単語列を前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、前記音声データの音声認識の結果として出力する。なお、置換するデータ、すなわち、置換される単語列に代えて新たに文字列データに追加するデータは、１つまたは複数の単語であってもよいし、句読点や「＊」などの記号や改行、空白文字、数字等でもよい。

認識結果出力手段１０６による出力手段は特段制限されず、ディスプレイ、印刷装置、スピーカなどのあらゆる出力装置を利用することができる。

次に、図２及び３を用いて、本実施形態の動作例を説明する。

ここでは、単語依存度算出手段１０３は単語依存度算出モデル１に基づいて単語依存度を算出する。また、変換単語決定手段１０５は、変換ルール１、２、２−１乃至２−３に基づき、所定の処理を実行する。

図３において「認識」として示す文章は、「正解」として示す文章の音声データを音声認識した結果（文字列データ）である。当該文字列データは、縦線で示されるように、単語列ごとに分割されている。

図３において「正解」及び「認識」として示す文章を比較すると、「期初」を「記帳」と間違って音声認識したことが分かる。かかる場合、音声認識結果の文章全文は「売上高はほぼ記帳の想定の範囲に収まった。」と理解不能な文章となっている。本実施形態によれば、当該文字列データを以下のように整形する。

まず、単語依存度算出手段１０３は、単語依存度算出モデル１に基づいて単語依存度を算出する（図２のＳ２０１）。

具体的には、単語列ごとに自立語か付属語かを判断し、付属語である場合には１、自立語である場合には０を当該単語列に対応付ける。結果、図３に示すような単語依存度のデータが作成される。

その後、変換単語決定手段１０５は、変換ルール１に従い、認識結果信頼度が所定値（設計的事項）より低い単語列（低信頼度単語列）を特定し、当該低信頼度単語列を文字列データから除去するよう決定する（図２のＳ２０２）。

具体的には、ここでは、変換単語決定手段１０５は予め所定値「０．５」を保持しているとする。変換単語決定手段１０５は、所定値「０．５」と、文字列データに含まれる各単語列に対応付けられた認識結果信頼度とを大小比較していき、所定値より小さい認識結果信頼度が対応付けられている「記帳」（認識結果信頼度：０．３）を、低信頼度単語列として特定する。そして、変換単語決定手段１０５は、低信頼度単語列である「記帳」を文字列データから除去するよう決定する。

その後、変換単語決定手段１０５は、変換ルール２に従い、所定の条件を満たす場合、低信頼度単語列の前後に位置する単語列である除去検討単語列を除去するよう決定する（図２のＳ２０３）。

具体的には、変換単語決定手段１０５は、まず、低信頼度単語列である「記帳」の単語依存度を参照する。ここで、変換単語決定手段１０５は、「記帳」の単語依存度は１であることから「自立語」と判断する。すると、変換単語決定手段１０５は変換ルール２−１に従い、「記帳」（低信頼度単語列）の後ろに位置する除去検討単語列「の」が付属語か否かを判断する。ここで、単語依存度が０であるため、「付属語」と判断する。そして、変換単語決定手段１０５は、変換ルール２−１に従い、除去検討単語列「の」を除去すると決定する。

その後、認識結果出力手段１０６は、文字列データから、図２のＳ２０２及びＳ２０３で変換単語決定手段１０５が除去すると決定した単語列を除去した整形後文字列データを作成し、出力する（図２のＳ２０４）。

具体的には、認識結果出力手段１０６は、図３に「認識」として示す文字列データ「売上高はほぼ記帳の想定の範囲に収まった。」から、変換単語決定手段１０５が除去すると決定した「記帳」及び「の」を除去し、図３に「認識結果」として示すように、整形後文字列データ「売上高はほぼ想定の範囲に収まった。」を作成して、出力する。

ここで、Ｓ２０３においては、Ｓ２０３で除去すると決定した除去検討単語列の前後に位置する単語列を新たな除去検討単語列とし、変換ルール２、２−１乃至２−３を利用して、同様の処理を行うこともできる。なお、かかる場合、これらの変換ルールに含まれる「低信頼度単語列」の文言は、「除去すると決定した除去検討単語列」と読み替える。

具体的には、変換単語決定手段１０５は、上記Ｓ２０３で除去すると決定した除去検討単語列「の」の前後に位置する単語列を、新たな除去検討単語列とし、まず、Ｓ２０３で除去すると決定した除去検討単語列「の」の単語依存度を参照し、変換単語決定手段１０５は「付属語」と判断する。すると、変換単語決定手段１０５は変換ルール２−３に従い、「の」の後ろに位置する除去検討単語列「想定」の単語依存度を求め、変換単語決定手段１０５は「自立語」と判断する。そして、変換単語決定手段１０５は、変換ルール２−３に従い、除去検討単語列「想定」を除去しないよう決定する。なお、除去すると決定した除去検討単語列「の」の前に位置する「記帳」はすでに除去することが決定しているので、除去検討単語列から外すことができる。

次に、図４を用いて、本実施形態の他の動作例を説明する。

ここでは、単語依存度算出手段１０３は単語依存度算出モデル２に基づいて単語依存度を算出する。また、変換単語決定手段１０５は、変換ルール１´及び２´に基づき、所定の処理を実行する。

図４において「認識」として示す文章は、「正解」として示す文章の音声データを音声認識した結果（文字列データ）である。当該文字列データは、縦線で示されるように、単語列ごとに分割されている。また、カッコで示すように、文節ごとに分割されている。さらに、矢印で示すように、文節同士の係り受け関係が示されている。例えば、文節「売上高は」は、文節「収まった」を係り受け先とすることが示されている。

図４において「正解」及び「認識」として示す文章を比較すると、「期初」を「記帳」と間違って音声認識したことが分かる。かかる場合、音声認識結果の文章全文は「売上高はほぼ記帳の想定の範囲に収まった。」と理解不能な文章となっている。本実施形態によれば、当該文字列データを以下のように整形する。

まず、単語依存度算出手段１０３は、単語依存度算出モデル２に基づいて単語依存度を算出する。

具体的には、単語依存度算出手段１０３は、文節ごとに、係り受け元の文節の有無を判断し、係り受け元がある文節に含まれる単語列の単語依存度を１、係り受け元の文節が存在しない文節に含まれる単語列の単語依存度を０とする。結果、図４に示すような単語依存度のデータが作成される。

その後、変換単語決定手段１０５は、変換ルール１´に従い、認識結果信頼度が所定値（設計的事項）より低い単語列（低信頼度単語列）を特定し、当該低信頼度単語列を含む文節を文字列データから除去するよう決定する。

具体的には、ここでは、変換単語決定手段１０５は予め所定値「０．５」を保持しているとする。変換単語決定手段１０５は、所定値「０．５」と、文字列データに含まれる各単語列に対応付けられた認識結果信頼度とを大小比較していき、所定値より小さい認識結果信頼度が対応付けられている「記帳」（認識結果信頼度：０．３）を、低信頼度単語列として特定する。そして、変換単語決定手段１０５は、低信頼度単語列である「記帳」を含む文節「記帳の」を、文字列データから除去するよう決定する。

その後、変換単語決定手段１０５は、変換ルール２´に従い、低信頼度単語列を含む文節を係り受け先の文節とする文節に含まれる単語列を除去するよう決定する。

具体的には、変換単語決定手段１０５は、文節「記帳の」を係り受け先の文節とする文節があるかを単語依存度より判定する。ここでは、文節「記帳の」の単語依存度は０であるため、これを係り受け先の文節とする文節はない。そこで、変換単語決定手段１０５は、変換ルール２´に従い、他の文節は除去せず、そのまま文字列データに残すことを決定する。

その後、認識結果出力手段１０６は、文字列データから、変換単語決定手段１０５が除去すると決定した単語列を除去した整形後文字列データを作成し、出力する。

具体的には、認識結果出力手段１０６は、図４に「認識」として示す文字列データ「売上高はほぼ記帳の想定の範囲に収まって」から、変換単語決定手段１０５が除去すると決定した単語列「記帳」及び「の」を除去し、図４に「認識結果」として示すように、整形後文字列データ「売上高はほぼ想定の範囲に収まった。」を作成して、出力する。

本実施形態は、認識結果データである文字列データが英語である場合も同様に処理することができる。

なお、本実施形態の音声認識結果整形装置は、以下のプログラムをコンピュータにインストールすることで実現することができる。

音声データを音声認識した結果である文字列データを参照し、前記文字列データの中に含まれる認識誤りの単語列を前記文字列データから除去するとともに、前記認識誤りの単語列の前及び／又は後に付属語列が位置する場合には、少なくとも一方の前記付属語列を、前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、出力する認識結果出力手段、
としてコンピュータを、機能させるためのプログラム。

認識結果及び認識結果信頼度を入力とし、
隣接する単語列との文脈の依存関係を示す単語依存度算出手段、
単語依存度を算出する単語依存度算出モデルを記憶した単語依存度算出モデル記憶手段、
単語列を削除もしくは置換する際に、その単語列を変換するルールを記述した変換ルール記憶手段、
認識結果信頼度と単語依存度と変換ルールに従って、出力表記を決定する変換単語決定手段、
としてコンピュータを機能させるためのプログラム。

コンピュータを、
音声データを音声認識した結果である文字列データを保持する認識結果記憶手段、
前記文字列データの中に含まれる認識誤りの単語列を前記文字列データから除去するとともに、前記認識誤りの単語列の前及び／又は後に付属語列が位置する場合には、少なくとも一方の前記付属語列を、前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、出力する認識結果出力手段、
として機能させるためのプログラム。

コンピュータを、
音声データを音声認識した結果である文字列データであって、単語列ごとに分割され、各単語列に認識結果信頼度が対応付けられている認識結果データを保持する認識結果記憶手段、
前記認識結果データを参照し、認識結果信頼度が所定値より低い単語列である低信頼度単語列を前記文字列データから除去するよう決定するとともに、当該単語列の前後に位置する単語列である除去検討単語列を前記文字列データから除去もしくは他のデータに置換するか否か決定する変換単語決定手段、
前記認識結果データを基に、前記変換単語決定手段が除去もしくは他のデータに置換するよう決定した単語列を前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、前記音声データの音声認識の結果として出力する認識結果出力手段、
して機能させるためのプログラム。

コンピュータを、
音声データを音声認識した結果である文字列データであって、単語列ごとに分割され、各単語列に認識結果信頼度が対応付けられている認識結果データを保持する認識結果記憶手段、
前記文字列データを文節ごとに分割するとともに、前記文節ごとに、他の文節との係り受け関係を判断する単語依存度算出手段、
前記認識結果データを参照し、認識結果信頼度が所定値より低い単語列である低信頼度単語列が含まれる文節を前記文字列データから除去するよう決定するとともに、当該文節が係り受け先である文節に含まれる単語列を前記文字列データから除去もしくは他のデータに置換するよう決定する変換単語決定手段、
前記認識結果データを基に、前記変換単語決定手段が除去もしくは他のデータに置換するよう決定した単語列を前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、前記音声データの音声認識の結果として出力する認識結果出力手段、
として機能させるためのプログラム。

本実施形態の音声認識結果整形装置、音声認識結果整形方法及びプログラムによれば、音声データを音声認識した結果である文字列データを、適切に整形することが可能となる。結果、音声データを音声認識した結果である文字列データを、自然な日本語の文章に変換することができる。

なお、上記説明によれば、以下の発明の説明もなされている。
＜発明１＞
音声データを音声認識した結果である文字列データであって、単語列ごとに分割され、各単語列に認識結果信頼度が対応付けられている認識結果データを保持する認識結果記憶手段と、
前記認識結果データを参照し、認識結果信頼度が所定値より低い単語列である低信頼度単語列を前記文字列データから除去するよう決定するとともに、当該単語列の前後に位置する単語列である除去検討単語列を前記文字列データから除去もしくは他のデータに置換するか否か決定する変換単語決定手段と、
前記認識結果データを基に、前記変換単語決定手段が除去もしくは他のデータに置換するよう決定した単語列を前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、前記音声データの音声認識の結果として出力する認識結果出力手段と、
を有する音声認識結果整形装置。
＜発明２＞
発明１に記載の音声認識結果整形装置において、
前記認識結果データに含まれる単語列ごとに、他の単語列との結びつき度合を示す単語列依存度を判断する単語依存度算出手段をさらに有し、
前記変換単語決定手段は、前記単語列依存度を利用して、前記除去検討単語列を除去もしくは他のデータに置換するか否かを決定する音声認識結果整形装置。
＜発明３＞
発明２に記載の音声認識結果整形装置において、
前記変換単語決定手段は、除去もしくは他のデータに置換するよう決定した前記除去検討単語列の前後に位置する単語列を新たな除去検討単語列とし、前記文字列データから除去もしくは他のデータに置換するか否か決定する音声認識結果整形装置。
＜発明４＞
発明２または３に記載の音声認識結果整形装置において、
前記単語依存度算出手段は、単語列ごとに自立語か付属語かを判断し、
前記変換単語決定手段は、前記低信頼度単語列が自立語及び付属語のいずれであるか、及び、当該低信頼度単語列の前後に位置する前記除去検討単語列が自立語及び付属語のいずれであるか、に基づいて、当該除去検討単語列を除去もしくは他のデータに置換するか否かを決定する音声認識結果整形装置。
＜発明５＞
発明４に記載の音声認識結果整形装置において、
前記変換単語決定手段は、前記低信頼度単語列が自立語である場合、当該低信頼度単語列の後ろに位置する前記除去検討単語列が付属語か否かを判断し、付属語である場合は、当該除去検討単語列を除去もしくは他のデータに置換するよう決定する音声認識結果整形装置。
＜発明６＞
発明４または５に記載の音声認識結果整形装置において、
前記変換単語決定手段は、前記低信頼度単語列が付属語である場合、当該低信頼度単語列の前後に位置する前記除去検討単語列が付属語か否かを判断し、付属語である場合は、当該除去検討単語列を除去もしくは他のデータに置換するよう決定する音声認識結果整形装置。
＜発明７＞
音声データを音声認識した結果である文字列データであって、単語列ごとに分割され、各単語列に認識結果信頼度が対応付けられている認識結果データを保持する認識結果記憶手段と、
前記文字列データを文節ごとに分割するとともに、前記文節ごとに、他の文節との係り受け関係を判断する単語依存度算出手段と、
前記認識結果データを参照し、認識結果信頼度が所定値より低い単語列である低信頼度単語列が含まれる文節に含まれる単語列を前記文字列データから除去するよう決定するとともに、当該文節が係り受け先である文節に含まれる単語列を前記文字列データから除去もしくは他のデータに置換するよう決定する変換単語決定手段と、
前記認識結果データを基に、前記変換単語決定手段が除去もしくは他のデータに置換するよう決定した単語列を前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、前記音声データの音声認識の結果として出力する認識結果出力手段と、
を有する音声認識結果整形装置。
＜発明８＞
コンピュータを、
音声データを音声認識した結果である文字列データであって、単語列ごとに分割され、各単語列に認識結果信頼度が対応付けられている認識結果データを保持する認識結果記憶手段、
前記認識結果データを参照し、認識結果信頼度が所定値より低い単語列である低信頼度単語列を前記文字列データから除去するよう決定するとともに、当該単語列の前後に位置する単語列である除去検討単語列を前記文字列データから除去もしくは他のデータに置換するか否か決定する変換単語決定手段、
前記認識結果データを基に、前記変換単語決定手段が除去もしくは他のデータに置換するよう決定した単語列を前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、前記音声データの音声認識の結果として出力する認識結果出力手段、
として機能させるためのプログラム。
＜発明９＞
コンピュータを、
音声データを音声認識した結果である文字列データであって、単語列ごとに分割され、各単語列に認識結果信頼度が対応付けられている認識結果データを保持する認識結果記憶手段、
前記文字列データを文節ごとに分割するとともに、前記文節ごとに、他の文節との係り受け関係を判断する単語依存度算出手段、
前記認識結果データを参照し、認識結果信頼度が所定値より低い単語列である低信頼度単語列が含まれる文節を前記文字列データから除去するよう決定するとともに、当該文節が係り受け先である文節に含まれる単語列を前記文字列データから除去もしくは他のデータに置換するよう決定する変換単語決定手段、
前記認識結果データを基に、前記変換単語決定手段が除去もしくは他のデータに置換するよう決定した単語列を前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、前記音声データの音声認識の結果として出力する認識結果出力手段、
として機能させるためのプログラム。
＜発明１０＞
音声データを音声認識した結果である文字列データであって、単語列ごとに分割され、各単語列に認識結果信頼度が対応付けられている認識結果データを保持しておき、
前記認識結果データを参照し、認識結果信頼度が所定値より低い単語列である低信頼度単語列を前記文字列データから除去するよう決定するとともに、当該単語列の前後に位置する単語列である除去検討単語列を前記文字列データから除去もしくは他のデータに置換するか否か決定する変換単語列決定ステップと、
前記認識結果データを基に、前記変換単語決定ステップで除去もしくは他のデータに置換するよう決定した単語列を前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、前記音声データの音声認識の結果として出力する認識結果出力ステップと、
をコンピュータが実行する音声認識結果整形方法。
＜発明１１＞
音声データを音声認識した結果である文字列データであって、単語列ごとに分割され、各単語列に認識結果信頼度が対応付けられている認識結果データを保持しておき、
前記文字列データを文節ごとに分割するとともに、前記文節ごとに、他の文節との係り受け関係を判断する単語依存度算出ステップと、
前記認識結果データを参照し、認識結果信頼度が所定値より低い単語列である低信頼度単語列が含まれる文節を前記文字列データから除去するよう決定するとともに、当該文節が係り受け先である文節に含まれる単語列を前記文字列データから除去もしくは他のデータに置換するよう決定する変換単語決定ステップと、
前記認識結果データを基に、前記変換単語決定ステップで除去もしくは他のデータに置換するよう決定した単語列を前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、前記音声データの音声認識の結果として出力する認識結果出力ステップと、
をコンピュータが実行する音声認識結果整形方法。
＜発明１２＞
音声データを音声認識した結果である文字列データを保持する認識結果記憶手段と、
前記文字列データの中に含まれる認識誤りの単語列を前記文字列データから除去するとともに、前記認識誤りの単語列の前及び／又は後に付属語列が位置する場合には、少なくとも一方の前記付属語列を、前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、出力する認識結果出力手段と、
を有する音声認識結果整形装置。
＜発明１３＞
発明１２に記載の音声認識結果整形装置において、
前記認識結果出力手段は、
前記認識誤りの単語列が自立語である場合、その後に位置する付属語列を前記文字列データから除去もしくは他のデータに置換した前記整形後文字列データを出力し、
前記認識誤りの単語列が付属語である場合、その前及び後に位置する付属語列を前記文字列データから除去もしくは他のデータに置換した前記整形後文字列データを出力する音声認識結果整形装置。
＜発明１４＞
発明１２または１３に記載の音声認識結果整形装置において、
前記文字列データに含まれる単語列ごとに、他の単語列との結びつき度合を示す単語列依存度を判断する単語依存度算出手段と、
前記単語列依存度を利用して、前記認識誤りの単語列の前後に位置する単語列を、前記文字列データから除去もしくは他のデータに置換するか否かを決定する変換単語決定手段と、
をさらに有し、
前記認識結果出力手段は、前記変換単語決定手段の決定内容に従い、前記整形後文字列データを作成する音声認識結果整形装置。
＜発明１５＞
コンピュータを、
音声データを音声認識した結果である文字列データを保持する認識結果記憶手段、
前記文字列データの中に含まれる認識誤りの単語列を前記文字列データから除去するとともに、前記認識誤りの単語列の前及び／又は後に付属語列が位置する場合には、少なくとも一方の前記付属語列を、前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、出力する認識結果出力手段、
として機能させるためのプログラム。
＜発明１６＞
音声データを音声認識した結果である文字列データを保持しておき、
前記文字列データの中に含まれる認識誤りの単語列を前記文字列データから除去するとともに、前記認識誤りの単語列の前及び／又は後に付属語列が位置する場合には、少なくとも一方の前記付属語列を、前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、出力する処理を、コンピュータが行う音声認識結果整形方法。

この出願は、２０１１年３月３０日に出願された日本特許出願特願２０１１−０７５２５７号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

音声データを音声認識した結果である文字列データを参照し、前記文字列データの中に含まれる認識誤りの単語列を前記文字列データから除去するとともに、前記認識誤りの単語列の前及び／又は後に付属語列が位置する場合には、少なくとも一方の前記付属語列を、前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、出力する認識結果出力手段を有する音声認識結果整形装置。
請求項１に記載の音声認識結果整形装置において、
前記認識結果出力手段は、
前記認識誤りの単語列が自立語である場合、その後に位置する前記付属語列を前記文字列データから除去もしくは他のデータに置換した前記整形後文字列データを出力し、
前記認識誤りの単語列が付属語である場合、その前及び後に位置する前記付属語列を前記文字列データから除去もしくは他のデータに置換した前記整形後文字列データを出力する音声認識結果整形装置。
請求項１または２に記載の音声認識結果整形装置において、
前記文字列データに含まれる単語列ごとに、他の単語列との結びつき度合を示す単語列依存度を判断する単語依存度算出手段と、
前記単語列依存度を利用して、前記認識誤りの単語列の前及び／又は後に位置する単語列を、前記文字列データから除去もしくは他のデータに置換するか否かを決定する変換単語決定手段と、
をさらに有し、
前記認識結果出力手段は、前記変換単語決定手段の決定内容に従い、前記整形後文字列データを作成する音声認識結果整形装置。
音声データを音声認識した結果である文字列データを参照し、前記文字列データの中に含まれる認識誤りの単語列を前記文字列データから除去するとともに、前記認識誤りの単語列の前及び／又は後に付属語列が位置する場合には、少なくとも一方の前記付属語列を、前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、出力する認識結果出力手段、
としてコンピュータを機能させるためのプログラム。
音声データを音声認識した結果である文字列データを参照し、前記文字列データの中に含まれる認識誤りの単語列を前記文字列データから除去するとともに、前記認識誤りの単語列の前及び／又は後に付属語列が位置する場合には、少なくとも一方の前記付属語列を、前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、出力する処理を、コンピュータが行う音声認識結果整形方法。
音声データを音声認識した結果である文字列データであって、単語列ごとに分割され、各単語列に認識結果信頼度が対応付けられている認識結果データを参照し、前記認識結果信頼度に基づいて、前記文字列データから除去する低信頼度単語列を決定するとともに、当該低信頼度単語列の前後に位置する単語列である除去検討単語列を前記文字列データから除去もしくは他のデータに置換するか否か決定する変換単語決定手段と、
前記認識結果データを基に、前記変換単語決定手段が除去もしくは他のデータに置換するよう決定した単語列を前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、前記音声データの音声認識の結果として出力する認識結果出力手段と、
を有する音声認識結果整形装置。
請求項６に記載の音声認識結果整形装置において、
前記認識結果データに含まれる単語列ごとに、他の単語列との結びつき度合を示す単語列依存度を判断する単語依存度算出手段をさらに有し、
前記変換単語決定手段は、前記単語列依存度を利用して、前記除去検討単語列を除去もしくは他のデータに置換するか否かを決定する音声認識結果整形装置。
請求項７に記載の音声認識結果整形装置において、
前記変換単語決定手段は、前記低信頼度単語列が自立語である場合、当該低信頼度単語列の後ろに位置する前記除去検討単語列が付属語か否かを判断し、付属語である場合は、当該除去検討単語列を除去もしくは他のデータに置換するよう決定する音声認識結果整形装置。
請求項７または８に記載の音声認識結果整形装置において、
前記変換単語決定手段は、前記低信頼度単語列が付属語である場合、当該低信頼度単語列の前後に位置する前記除去検討単語列が付属語か否かを判断し、付属語である場合は、当該除去検討単語列を除去もしくは他のデータに置換するよう決定する音声認識結果整形装置。
音声データを音声認識した結果である文字列データであって、単語列ごとに分割され、各単語列に認識結果信頼度が対応付けられている認識結果データを参照し、前記文字列データを文節ごとに分割するとともに、前記文節ごとに、他の文節との係り受け関係を判断する単語依存度算出手段と、
前記認識結果データを参照し、前記認識結果信頼度に基づいて、前記文字列データから除去する低信頼度単語列及び当該低信頼度単語列を含む文節を前記文字列データから除去するよう決定するとともに、当該文節が係り受け先である文節を前記文字列データから除去もしくは他のデータに置換するよう決定する変換単語決定手段と、
前記認識結果データを基に、前記変換単語決定手段が除去もしくは他のデータに置換するよう決定した単語列を前記文字列データから除去もしくは他のデータに置換した整形後文字列データを作成し、前記音声データの音声認識の結果として出力する認識結果出力手段と、
を有する音声認識結果整形装置。