JPWO2014033855A1

JPWO2014033855A1 - 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法

Info

Publication number: JPWO2014033855A1
Application number: JP2014532631A
Authority: JP
Inventors: 龍武田; 直之神田; 康成大淵; 貴志住吉
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2012-08-29
Filing date: 2012-08-29
Publication date: 2016-08-08
Anticipated expiration: 2032-08-29
Also published as: JP5897718B2; WO2014033855A1

Abstract

検索対象となる第１音声データからユーザによって入力されたキーワードに対応する部分を検索する音声検索装置であって、第２音声データを用いて、音響特徴を示す音響モデル及び言語特徴を示す言語モデルを生成し、第２音声データを第１サブワード列に変換し、想定キーワードを第２サブワード列に変換し、第１サブワード列の第２サブワード列に対する誤認識傾向を算出し、第１音声データを第３サブワード列に変換し、キーワードを第４サブワード列に変換し、第１音声データから、キーワードに対応する部分を検索候補として検索し、誤認識傾向に基づいて、候補検索部によって検索された検索候補の第３サブワード列の第４サブワード列に対するサブワードスコアに基づくスコアを算出し、スコアとスコアに対応する検索候補とを含む検索結果を出力することを特徴とする音声検索装置。

Description

本発明は、検索対象となる音声データからユーザによって入力されたキーワードに対応する部分を検索する音声検索装置に関する。

近年のストレージデバイスの大容量化に伴って、大量の音声データが音声データベースに蓄積される。例えば、コールセンタでは一日に何千時間もの音声データが録音される。音声データベースにはオペレータの教育及び受け付け内容の確認のために音声データが録音され、必要に応じて音声データベースが利用される。従来の音声データベースでは、音声データには音声が録音された時刻情報が付与されており、時刻情報に基づいて所望の音声データが検索される。時刻情報に基づく検索では、所望の音声が発話された時刻を予め把握する必要がある。このため、時刻情報に基づく検索は、特定の発話がなされた音声を検索する用途には不向きであった。特定の発話がなされた音声を検索する場合、従来の検索方法では、音声データを始めから終わりまで聞く必要があった。

音声データベースにおいて、特定のキーワードが発話された位置を検索する技術が開発されている。代表的な方法の一つであるサブワード検索法について説明する。まず、音声データはサブワード認識処理によってサブワード列に変換される。サブワードは、単語よりも細かい単位系（例えば、音素及び音節等）一般を指す名称である。サブワード検索法では、入力されたキーワードが変換されたサブワード列と音声データのサブワード列とが比較され、二つのサブワード列のサブワード同士の距離がスコアとして算出される。算出されたスコアの降順に検索結果がソートされて出力されることによって、音声データ上でキーワードが発話された時刻が検出可能となる。

本技術分野の背景技術として、特開２０１０−２６７０１２号公報（特許文献１）及び特開２０１１−１７５０４６号公報（特許文献２）がある。特許文献１の公報には「サブワード認識によって、音声データを、音素を単位とする第１サブワード列に変換し、ユーザによって入力された検索キーワードを、音素を単位とする第２サブワード列に変換し、第１サブワード列において、第２サブワード列との編集距離が最も小さくなる少なくとも一以上の区間を、検索キーワードの検索結果に決定し、検索キーワードが発話された時刻を検出し、ユーザによって選択された正解又は不正解のデータを検索結果に付与し、正解又は不正解のデータに基づいて、サブワード置換確率を算出する」（要約参照）と記載されている。

また、特許文献２の公報には、「前記音素・音節認識ステップは、少なくとも一つ以上の検出候補に対して、音素間および音節間のバタチャリヤ距離を用いて索引を付与し、第１の検出候補との音響的類似度に基づいて、第２の検出候補あるいは第３の検出候補との距離により検出候補を提示する機能を有することを特徴とする。なお、音素間および音節間の距離の定義は、種々考えられ、通常は、認識システムで使用する尺度と対応するものを使用する」と記載されている（［００２４］参照）。

特開２０１０−２６７０１２号公報特開２０１１−１７５０４６号公報

背景技術では、検索キーワードのサブワードと検索候補のサブワードとの間の距離は、一般的な認識誤りの傾向（誤認識傾向）及び一般的な音響類似度を用いて算出されている。キーワード毎に誤認識傾向が異なっていても、一般的な誤認識傾向を用いて距離が算出されるので、音声データの誤認識を原因とする検索候補の誤検出が増加する。そのため、検索キーワードに一致しない検索候補が上位にソートされる等、検索精度が低下するという欠点があった。

本発明の目的は、検索キーワード毎のサブワードの誤認識傾向を事前に学習することによって、キーワードの検索精度を向上させる音声検索装置を提供することである。

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、検索対象となる第１音声データからユーザによって入力されたキーワードに対応する部分を検索する音声検索装置であって、第２音声データを用いて、音響特徴を示す音響モデル及び言語特徴を示す言語モデルを生成する音響・言語モデル生成部と、前記第２音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第１サブワード列に変換する第１サブワード列変換部と、前記キーワードとして指定される可能性のある想定キーワードを、サブワードを単位する第２サブワード列に変換する第２サブワード列変換部と、前記第１サブワード列と前記第２サブワード列とを比較し、前記第１サブワード列の前記第２サブワード列に対する誤認識傾向を算出する誤認識傾向算出部と、前記第１音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第３サブワード列に変換する第３サブワード列変換部と、前記キーワードを、サブワードを単位とする第４サブワード列に変換する第４サブワード列変換部と、前記第１音声データから、前記キーワードに対応する部分を検索候補として検索する候補検索部と、前記誤認識傾向算出部によって算出された誤認識傾向に基づいて、前記候補検索部によって検索された検索候補の第３サブワード列の前記第４サブワード列に対するサブワードスコアに基づくスコアを算出するスコア算出部と、前記スコア算出部によって算出されたスコアと前記スコアに対応する検索候補とを含む検索結果を出力する検索結果出力部と、を備えることを特徴とする。

本発明の一態様よれば、検索キーワード毎のサブワードの誤認識傾向を事前に学習することによって、キーワードの検索精度を向上させることができる。

本発明の第１実施例の音声データ検索装置の構成図である。本発明の第１実施例の音響モデル及び言語モデルのパラメータ設定処理のフローチャートである。本発明の第１実施例のインデックステーブル生成処理のフローチャートである。本発明の第１実施例の想定キーワードサブワード変換処理のフローチャートである。本発明の第１実施例の想定キーワードサブワード変換処理のフローチャートである。本発明の実施例の想定キーワードのサブワード列への変換の説明図である。本発明の第１実施例のクエリサブワード列誤りテーブル学習部によるクエリサブワード列誤りテーブルの生成処理のフローチャートである。本発明の第１実施例の想定キーワードサブワード列及び対応サブワード列の説明図である。本発明の第１実施例の想定キーワードサブワード列と対応サブワード列とのアラインメントの説明図である。本発明の第１実施例のサブワード誤り確率算出処理の具体的な説明図である。本発明の第１実施例のクエリサブワード列誤りテーブルの説明図である。本発明の第１実施例のｊｏｉｎｔ２−Ｇｒａｍを用いて想定キーワードサブワード列と対応サブワード列とのサブワード誤り数を算出する処理の説明図である。本発明の実施例のすべての想定キーワードを一つのクラスに割り当てた場合のクエリサブワード列誤りテーブルの説明図である。本発明の第１実施例の候補検索部の処理のフローチャートである。本発明の第１実施例の３−ｇｒａｍ毎に分割されたキーワードサブワード列の説明図である。本発明の第１実施例のサブワード列距離評価部の処理のフローチャートである。本発明の第１の実施形態の検索結果統合部の処理を示すフローチャートである。本発明の第１実施例の検索結果表示部の処理を示すフローチャートである。本発明の第１実施例の検索画面の説明図である。本発明の第２実施例の音声データ検索装置の構成図である。本発明の第２実施例の検索結果統合部の処理を示すフローチャートである。本発明の第３実施例の音声データ検索装置の構成図である。本発明の第３実施例の検索画面の説明図である。本発明の第３実施例の音素列誤りテーブル更新部の処理を示すフローチャートである。本発明の第４実施例の音声データ検索システムの構成図である。本発明の第４実施例の音声データのフォーマットの一例の説明図である。一般的なコンテンツクラウドシステムの説明図である。本発明の第５実施例のコンテンツクラウドシステムの説明図である。

以下、図面を参照しつつ、本発明を実施するための形態を説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略及び簡略化がなされている。又、各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略されている。

（第１実施例）
以下において、本発明の第１実施例について図１〜図１９用いて説明する。

図１は、本発明の第１実施例の音声データ検索装置１の構成図である。

音声データ検索装置１は、想定キーワード毎の誤認識傾向を事前に算出する事前処理部と、入力されたキーワードに基づいて音声データを検索する検索処理部と、を備える。

具体的には、事前処理部は、学習用ラベル付き音声データ１０１、音響・言語モデル学習部１０２、音響モデル１０３、言語モデル１０４、音声認識部１０５、想定キーワード生成部１０６、クエリサブワード列誤りテーブル学習部１０７、クエリサブワード列誤りテーブル１０８、検索対象音声データ１０９、インデキシング部１１０、及びインデックステーブル１１１を有する。また、検索処理部は、キーワード入力部１１２、サブワード列変換部１１３、候補検索部１１４、サブワード列距離評価部１１５、検索結果統合部１１６、及び検索結果表示部１１７を有する。

なお、音響・言語モデル学習部１０２、音声認識部１０５、想定キーワード生成部１０６、クエリサブワード列誤りテーブル学習部１０７、インデキシング部１１０、サブワード列変換部１１３、候補検索部１１４、サブワード列距離評価部１１５、検索結果統合部１１６、及び検索結果表示部１１７は、音声データ検索装置１の図示しないＣＰＵが図示しないメモリに記憶されたプログラムを実行することによって実現される。

まず、事前処理部について説明する。

学習用ラベル付き音声データ１０１には、発話内容を示すテキスト、及び音声波形等が格納される。発話内容を示すテキストは、例えば、テレビから抽出された音声トラック、読み上げ音声コーパス、及び通常の会話等を書き起こしたテキストであってもよい。また、学習用ラベル付き音声データ１０１には、発話者の識別情報（ＩＤ）、及び雑音の有無等を示す情報も格納されてもよい。

音響・言語モデル学習部１０２は、学習用ラベル付き音声データ１０１を用いて、音声特徴を表現した統計モデルのパラメータ及び言語特徴を表現した統計モデルのパラメータを設定する。音響モデル１０３には、音声特徴を表現した統計モデルのパラメータが格納される。言語モデル１０４には、言語特徴を表現した統計モデルのパラメータが格納される。

音声認識部１０５は、音響モデル１０３及び言語モデル１０４を参照し、学習用ラベル付き音声データ１０１を音声認識し、サブワード列（例えば、音声認識した音素列）を出力する。

想定キーワード生成部１０６は、検索キーワードとなり得る想定キーワードのサブワード列を出力する。例えば、想定キーワードは予め設定されているものとする。

クエリサブワード列誤りテーブル学習部１０７は、音声認識部１０５が出力した学習用ラベル付き音声データ１０１のサブワード列（以下、学習用サブワード列という）、学習用ラベル付き音声データ１０１に含まれる発話内容を示すテキスト、及び想定キーワード生成部１０６が出力した想定キーワードのサブワード列（以下、想定キーワードサブワード列という）を用いて、想定キーワード毎に、想定キーワードサブワード列に対する学習用サブワード列の誤認識傾向を数値化して、クエリサブワード列誤りテーブル１０８に記録する。

検索対象音声データ１０９は、検索対象となる音声データである。検索対象音声データ１０９は、例えば、テレビから抽出した音声データ、会議で録音された音声データ、及び電話回線の通話を録音した音声データ等である。なお、検索対象音声データ１０９は種類別に複数のファイルであってもよい。また、検索対象音声データ１０９は発話者の識別情報等の情報が付与されていてもよい。インデキシング部１１０は、検索対象音声データ１０９を音響モデル１０３及び言語モデル１０４を用いてサブワード列に変換する。そして、インデキシング部１１０は、検索対象音声データ１０９のサブワード列（以下、検索対象サブワード列）、検索対象音声データ１０９の音響尤度、検索対象音声データ１０９のサブワードによるＮ−ｇｒａｍ索引、及びその他の情報を含むインデックステーブル１１１を生成し、生成したインデックステーブル１１１を図示しない記憶領域に記憶する。

次に、検索処理部について説明する。

キーワード入力部１１２は、ユーザによって入力されたキーワードを受け付ける。サブワード列変換部１１３は、キーワード入力部１１２によって受け付けられたキーワードをサブワード列（以下、キーワードサブワード列）に変換し、キーワードサブワード列を候補検索部１１４に出力する。

候補検索部１１４は、サブワード列変換部１１３が出力したキーワードサブワード列及びインデックステーブル１１１を参照し、検索対象音声データ１０９において、キーワードが発話されたらしい部分を検索候補として特定し、特定した検索候補をサブワード列距離評価部１１５に出力する。

サブワード列距離評価部１１５では、サブワード列変換部１１３が出力したキーワードサブワード列と候補検索部１１４が出力した各検索候補に対応するサブワード列（検索候補サブワード列）との距離（スコア）を、クエリサブワード列誤りテーブル１０８及び言語モデル1０４を参照して、算出する。そして、サブワード列距離評価部１１５は、検索候補及び算出したスコアを検索結果統合部１１６に出力する。

検索結果統合部１１６は、サブワード列距離評価部１１５が出力した検索候補を、検索候補のスコアに基づいてソートし、検索結果として検索結果表示部１１７に出力する。検索結果表示部１１７は、検索結果統合部１１６が出力した検索候補のファイル名、時刻、及びスコアの表示領域を含み、検索候補をスコア順にソートした検索結果表示画面を生成し、生成した検索結果表示画面を出力デバイスに送信する。

なお、図１では、音声データ検索装置１の各構成部が同一の計算機に実装されるものとして説明したが、各構成部が他の計算機に実装されてもよい。例えば、音声データ検索装置１は、端末とサーバとを備えるシステムによって構成されており、端末は、キーワード入力部１１２及び検索結果表示部１１７を有し、サーバは、他の構成部を有してもよい。

また、事前処理部と検索処理部とが別々の計算機で実装されてもよい。この場合、検索対象音声データ１０９が外部のストレージに保存され、インデックステーブル１１１、クエリサブワード列誤りテーブル１０８、音響モデル１０３、及び言語モデル１０４が事前に別の計算機で生成され、生成されたインデックステーブル１１１、クエリサブワード列誤りテーブル１０８、音響モデル１０３、及び言語モデル１０４が検索処理を実行する計算機に複製される。

以下、各処理部によって実行される処理について説明する。

まず、音声データ検索装置１は、音声データを認識可能にするために音響・言語モデル学習部１０２で、音声特徴を表現した統計モデル（音響モデル）及び言語特徴を表現した統計モデル（言語モデル）のパラメータ設定処理を実行する。

図２は、本発明の第１実施例の音響モデル及び言語モデルのパラメータ設定処理のフローチャートである。

ここで、音声データを認識する問題は、例えば事後確率最大化探索問題（ＭａｘｉｍｕｍＡＰｏｓｔｅｒｉｏｒｉＰｒｏｂｌｅｍ）に帰着する。この事後確率最大化探索問題では、大量の学習用の音声データから学習された音響モデル及び言語モデルに基づいて音声データの認識結果である解が求められる。

本処理では、音響・言語モデル学習部１０２は、学習用ラベル付き音声データ１０１を用いて、音響モデル及び言語モデルのパラメータを設定し（２０１）、処理を終了する。音響モデルのパラメータの設定には、例えば、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：ＨＭＭ）が採用可能である。また、言語モデルのパラメータの設定には、例えば、Ｎ−Ｇｒａｍが採用可能である。音声データの認識技術、並びに、音響モデル及び言語モデルのパラメータの設定技術は広く知られた技術であるので、説明を省略する。

音声データ検索装置１は、インデキシング部１１０で、検索対象音声データ１０９を検索可能にするためにインデックステーブル１１１を生成するインデックステーブル生成処理を実行する。

図３は、本発明の第１実施例のインデックステーブル生成処理のフローチャートである。

まず、インデキシング部１１０は、検索対象音声データ１０９を構成する複数の音声ファイルの音声データを適当な長さに分割する（３０１）。例えば、インデキシング部１１０は、検索対象音声データ１０９の音声パワーが所定の閾値θｐ以下である時間が所定の閾値θｔ以上連続した場合、この位置で検索対象音声データ１０９を分割する。なお、分割された各音声データ（音声区間）には、分割元のファイルを示す情報、並びに分割された音声区間の開始時刻及び終了時刻を示す情報が付与される。

なお、検索対象音声データ１０９の分割方法には、音声パワーによる分割方法の他に、例えば、ゼロ交差数を用いる方法、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）を用いる方法、及び音声認識技術を用いる方法などの様々な方法が広く知られている。本実施例では、これらのどの方法を用いてもよい。

次に、インデキシング部１１０は、ステップ３０１の処理で分割されたすべての音声区間に対してサブワード認識処理を実行し、ステップ３０１の処理で分割されたすべての音声区間をサブワード列に変換する（３０２及び３０３）。具体的には、インデキシング部１１０は、ステップ３０１の処理で分割された音声区間を音節又は音素単位でサブワードに変換し、サブワード列を生成する。インデキシング部１１０は、変換されたサブワード列（サブワード認識結果）と、当該サブワード列に対応する時刻をインデックステーブル１１１に登録する。

また、インデキシング部１１０は、検索を高速化する目的でＮ−Ｇｒａｍインデックス情報をインデックステーブル１１１に登録し（３０４）、処理を終了する。Ｎ−Ｇｒａｍインデックス情報は、通常のテキスト検索技術でよく知られた方法であるので説明を省略する。ステップ３０４の処理は必ずしも実行されなくてもよい。

インデックステーブル生成処理が完了すると、検索対象音声データ１０９のキーワード検索が可能となる。本実施例では、いわゆる１−ベストのサブワード認識結果のみがインデックステーブル１１１に登録される前提で説明するが、複数のサブワード認識結果がＮ−ベスト形式又はネットワーク形式でインデックステーブル１１１に登録されてもよい。

なお、インデックステーブル生成処理は、例えば、初回動作時に一回実行されるだけでよい。

音声データ検索装置１は、想定キーワード生成部１０６で、想定キーワードをサブワード列に変換する想定キーワードサブワード列変換処理を実行する。なお、想定キーワード生成部１０６は、図４に示す処理及び図５に示す処理を採用可能である。

図４は、本発明の第１実施例の想定キーワードサブワード変換処理のフローチャートである。

想定キーワード生成部１０６は、予め設定されたすべての想定キーワードをサブワード列に変換し（４０１、４０２）、処理を終了する。

例えば、想定キーワード「ｒｅｓｅａｒｃｈ」のサブワード列への変換について図６を用いて説明する。図６は、本発明の実施例の想定キーワードのサブワード列への変換の説明図である。

サブワード列への変換処理は、予め設定された変換ルール及び一般的な辞書に基づいて実行される。例えば、変換ルールが、「ｒｅ」が「ｒ−ｉ」に変換され、「ｓｅａｒｃｈ」が「ｓ−３｀−ｔＳ」に変換されるように設定されているとすると、「ｒｅｓｅａｒｃｈ」は「ｒ−ｉ−ｓ−３｀−ｔＳ」に変換される。

なお、変換ルール及び一般的な辞書に基づいて自動的にサブワード列に変換されない場合、人手で変換ルール及び辞書が追加されることによって、所定の単語がサブワード列へ変換される。

図５は、本発明の第１実施例の想定キーワードサブワード変換処理のフローチャートである。

想定キーワード生成部１０６は、予め設定されたすべての想定キーワードをサブワード列に変換し、また、音声データ検索装置１に記憶された関連語辞書を参照して、想定キーワードに対応付けられた関連語を想定キーワードに追加し、追加した想定キーワードもサブワード列に変換する（５０１，５０２）。これによって、検索される可能性のあるキーワードを拡張することができる。

想定キーワード生成部１０６は、大量のテキストデータから統計的に各単語の関連度を算出し、予め設定された想定キーワードの関連度の高い上位Ｎ件を関連語としてもよい。なお、大量のテキストデータから統計的に各単語の関連度を算出する方法は、自然言語処理分野において広く研究されており、任意の方法を採用することができる。

図７は、本発明の第１実施例のクエリサブワード列誤りテーブル学習部１０７によるクエリサブワード列誤りテーブル１０８の生成処理のフローチャートである。

クエリサブワード列誤りテーブル学習部１０７は、想定キーワード生成部１０６によって想定キーワードが変換された想定キーワードサブワード列、及び、音声認識部１０５によって学習用ラベル付き音声データ１０１が変換された学習用サブワード列が入力された場合、当該処理を実行する。

まず、クエリサブワード列誤りテーブル学習部１０７は、学習用サブワード列から各想定キーワードサブワード列の出現位置を検索する。学習用サブワード列の検索された出現位置から始まる想定キーワードサブワード列に対応するサブワード列を対応サブワード列という。そして、クエリサブワード列誤りテーブル学習部１０７は、各想定キーワードサブワード列と対応サブワード列との編集距離が最小となるようにアライメントを設定する（７０１、７０２）。

編集距離とは、一方の語句を他方の語句に一致させるために、文字の挿入、削除、及び置換が何回必要かを示すものである。クエリサブワード列誤りテーブル学習部１０７は、想定キーワードサブワード列と対応サブワード列との編集距離の算出に動的計画法を利用してもよい。クエリサブワード列誤りテーブル学習部１０７は、動的計画法を利用することによって、想定キーワードサブワード列と対応サブワード列との編集距離を効率的に算出することができる。なお、動的計画法については、広く知られた技術であるので説明を省略する。

次に、クエリサブワード列誤りテーブル学習部１０７は、想定キーワード毎に、ステップ７０２の処理で設定されたアラインメントに基づいてサブワード誤り数をカウントする（７０３）。ステップ７０１〜７０３の処理は図８及び図９で詳細を説明する。

次に、クエリサブワード列誤りテーブル学習部１０７は、ステップ７０３の処理でカウントされたサブワード誤り数に基づいてサブワード誤り確率を想定キーワード毎に算出し、クエリサブワード列誤りテーブル１０８に登録し（７０４）、処理を終了する。ステップ７０４の処理は図１０〜図１３で詳細を説明する。

図８は、本発明の第１実施例の想定キーワードサブワード列及び対応サブワード列の説明図である。

図８では、音声認識部１０５が出力する学習サブワード列（サブワード認識結果）が１−ベスト認識結果である場合を例について説明するが、学習サブワード列がＮ−ベスト認識結果である場合についても本実施例を適用可能である。

図８の正解音素列「ｒｉｓ３｀ｔＳ」は想定キーワードサブワード列であり、音声認識結果１〜３は対応サブワード列である。音声認識結果１では想定キーワードサブワード列の「ｉ」が「Ｉ」に置換され、音声認識結果２では想定キーワードサブワード列の「ｔＳ」が削除され、音声認識結果３では「ｔ」及び「ｒ」が挿入され、想定キーワードサブワード列の「３｀」が「Ｅ」に置換されている。

図９は、本発明の第１実施例の想定キーワードサブワード列と対応サブワード列とのアラインメントの説明図である。

図９では、想定キーワードサブワード列「ｒｉｓ３｀ｔＳ」と図８に示す音声認識結果１である対応サブワード列とのアラインメントについて説明する。

図７で説明したように、想定キーワードサブワード列と対応サブワード列とのアラインメントは、編集距離が最小となるように設定される。図９では、想定キーワードサブワード列の「ｒ」と音声認識結果１の「ｒ」とにアラインメントが設定され、「ｉ」と「Ｉ」とにアラインメントが設定され、「ｓ」と「ｓ」とにアラインメントが設定され、「−」と「ｔ」とにアラインメントが設定され、「３｀」と「３｀」とにアラインメントが設定され、「ｔＳ」と「ｔＳ」とにアラインメントが設定される。

そして、クエリサブワード列誤りテーブル学習部１０７は、設定されたアライメントのサブワード同士を比較して、サブワード同士が一致しないアライメントの数をサブワード誤り回数としてカウントする。

図９では、「ｉ」と「Ｉ」とのアラインメントが、想定キーワードサブワード列の「ｉ」が「Ｉ」に誤認識されたことを示し、「−」と「ｔ」とのアラインメントは「ｔ」が誤って挿入されたことを示す。このため、図９に示す例では、サブワード誤り回数は２回とカウントされる。

次に、クエリサブワード列誤りテーブル学習部１０７は、ステップ７０４の処理でサブワード誤り確率を算出する。このサブワード誤り確率算出処理について図１０〜図１３用いて説明する。

まず、ステップ７０４の処理の概略について説明する。

クエリサブワード列誤りテーブル学習部１０７が最尤推定法を利用してサブワード誤り確率を算出する場合を例に説明する。ある想定キーワードサブワード列のある一つのサブワード「ａ」が対応サブワード列でサブワード「ｂ」に誤認識されるサブワード誤り確率の算出方法について説明する。まず、クエリサブワード列誤りテーブル学習部１０７は、ある想定キーワードサブワード列中にサブワード「ａ」が出現する回数に当該想定キーワードサブワード列の数を乗算して、サブワード「ａ」の出現回数「Ｎａ」を算出する。また、クエリサブワード列誤りテーブル学習部１０７は、想定キーワードサブワード列のサブワード「ａ」が対応サブワード列でサブワード「ｂ」に誤認識された回数「Ｎｂ」を算出する。そして、クエリサブワード列誤りテーブル学習部１０７は、Ｎｂ／Ｎａを計算し、サブワード誤り確率を算出する。

図１０は、本発明の第１実施例のサブワード誤り確率算出処理の具体的な説明図である。

図１０では、想定キーワードサブワード列１００１は、「ｒ−ｉ−ｓ−３｀−ｔＳ」及び「ｆ−Ｏ−ｒ−ｋ−｛−ｓ−ｔ」である。そして、各想定キーワードサブワード列１００１の対応サブワード列におけるサブワード「ｓ」の誤認識パターンが図１０に示す１００２に登録される。

従来の方法では、サブワード誤り確率は、図１０に示す全体誤り確率１００３に示すように、想定キーワードサブワード列に関係なく、サブワード「ｓ」があるサブワードに誤認識された全体での回数を全体でのサブワード「ｓ」の出現回数で除算することによって算出される。図１０における「ｓ」の全体での出現回数は「１９」であるので、全体誤り確率１００３を算出するための分母は１９となる。例えば、サブワード「ｓ」がサブワード「Ｉ」に誤認識される回数は、想定キーワードサブワード列「ｒ−ｉ−ｓ−３｀−ｔＳ」で４回、想定キーワードサブワード列「ｆ−Ｏ−ｒ−ｋ−｛−ｓ−ｔ」で１回であるので、サブワード「ｓ」がサブワード「Ｉ」に誤認識される全体のサブワード誤り確率は、「５／１９」となる。

一方、本願発明では、上述したように、サブワード誤り確率は想定キーワード毎に算出される。図１０では、想定キーワードサブワード列１００１「ｒ−ｉ−ｓ−３｀−ｔＳ」ではサブワード「ｓ」の出現回数は９回であり、サブワード「ｓ」がサブワード「Ｉ」に誤認識された回数は４回であるので、１００４に示すように、サブワード「ｓ」をサブワード「Ｉ」に誤る確率は４／９となる。また、想定キーワードサブワード列１００１「ｆ−Ｏ−ｒ−ｋ−｛−ｓ−ｔ」ではサブワード「ｓ」の出現回数は１０回であり、サブワード「ｓ」がサブワード「Ｉ」に誤認識される回数は１回であるので、１００４に示すように、サブワード「ｓ」をサブワード「Ｉ」に誤る確率は１／１０となる。

このように、本発明では、サブワード誤り確率を想定キーワード毎に算出する点がポイントとなる。語句毎にサブワードの誤認識の傾向が違うので、想定キーワード毎にサブワード誤り確率を算出することによって、この誤認識の傾向の違いを正確に算出することができる。

なお、図１０では、学習サブワード列が１−ベスト認識結果である場合を列に説明したが、学習サブワード列がＮ−ベスト認識結果である場合であっても、クエリサブワード列誤りテーブル学習部１０７は同じ手順で想定キーワード毎のサブワード誤り確率を算出可能である。この場合、クエリサブワード列誤りテーブル学習部１０７が扱うデータ量はＮ倍となる。

なお、本実施例では、クエリサブワード列誤りテーブル学習部１０７は、図１０の全体誤り確率１００３を算出する必要はないが、当該全体誤り確率１００３を算出し、クエリサブワード列誤りテーブル１０８に登録してもよい。

図１１は、本発明の第１実施例のクエリサブワード列誤りテーブル１０８の説明図である。

クエリサブワード列誤りテーブル１０８には、想定キーワードサブワード列毎に、想定キーワードサブワード列を構成する各サブワードが他のサブワードに誤認識されるサブワード誤り確率が登録される。

クエリサブワード列誤りテーブル１０８は、想定キーワードサブワード列１１０１、想定キーワードサブワード１１０２、及びサブワード１１０３を含む。

想定キーワードサブワード列１１０１には、想定キーワードサブワード列が登録される。想定キーワードサブワード１１０２には、想定キーワードサブワード列を構成するサブワードが登録される。サブワード１１０３には、すべてのサブワードが登録される。ある想定キーワードサブワード１１０２の行と、あるサブワード１１０３の列とに対応する項目には、ある想定キーワードサブワード１１０２があるサブワード１１０３に誤認識されるサブワード誤り確率が登録される。例えば、想定キーワードサブワード列「ｒｉｓ３｀ｔＳ」のサブワード「ｒ」がサブワード「ｍ」に誤認識されるサブワード誤り確率は０．０２である。

次に、クエリサブワード列誤りテーブル学習部１０７が、ｊｏｉｎｔＮ−Ｇｒａｍを用いてサブワード誤り数をカウントする方法について図１２を用いて説明する。

図１２は、本発明の第１実施例のｊｏｉｎｔ２−Ｇｒａｍを用いて想定キーワードサブワード列と対応サブワード列とのサブワード誤り数を算出する処理の説明図である。

クエリサブワード列誤りテーブル学習部１０７は、ｊｏｉｎｔＮ−Ｇｒａｍを用いてサブワード誤り数を算出することによって、想定キーワードサブワード列と対応サブワード列との間で一致するか否かを判定するサブワードと当該サブワードのＮ−１個前のサブワードとの関係を考慮してサブワード誤り数を算出することができる。すなわち、クエリサブワード列誤りテーブル学習部１０７は、想定キーワードサブワード列のサブワードのうち一致するか否かを判定する着目サブワード、想定キーワードサブワード列の当該サブワードのＮ−１個前までのサブワード、及び、対応サブワード列のＮ−１個前までのサブワードとアライメントが設定されたサブワードが与えられた場合、対応サブワード列の着目サブワードとアライメントが設定されたサブワードがどのサブワードに誤って認識されたかをカウントする。

例えば、ｊｏｉｎｔ２−Ｇｒａｍを用いる場合について説明する。図１２の「ｒ、ｉ、ｒ→Ｉ」は、想定キーワードサブワード列の着目サブワード「ｉ」、想定キーワードサブワード列の着目サブワードの一つ前のサブワード「ｒ」、及び、対応サブワード列のサブワード「ｒ」が与えられた場合、着目サブワード「ｉ」がサブワード「Ｉ」に誤認識されたことを示す。

クエリサブワード列誤りテーブル学習部１０７は、図１２に示す「ｒ、ｉ、ｒ→Ｉ」のようなサブワード遷移を記憶し、サブワード誤り数をカウントする。

次に、クエリサブワード列誤りテーブル学習部１０７は、サブワード遷移に基づいてサブワード誤り確率を算出する。具体的には、クエリサブワード列誤りテーブル学習部１０７は、サブワード遷移「ｒ、ｉ、ｒ→Ｉ」のサブワード誤り確率は、想定キーワードサブワード列「ｒｉｓ３｀ｔＳ」の対応サブワード列から取得されたサブワード遷移から「ｒ、ｉ、ｒ」の組が出現する回数Ｎａとし、これらの組の中で、想定キーワードサブワード列の着目サブワード「ｉ」とアライメントが取られたサブワードが「Ｉ」となる回数Ｎｂとし、Ｎｂ／Ｎａを計算することによって、サブワード誤り確率を算出することができる。

なお、ｊｏｉｎｔＮ−Ｇｒａｍを用いるとサブワード遷移が細分化されすぎてしまい、クエリサブワード列誤りテーブル学習部１０７が想定キーワード毎にサブワード誤り確率を算出しても、信頼性の高い確率が算出されるために十分な数のデータが揃わない可能性もある。この場合、クエリサブワード列誤りテーブル学習部１０７は、想定キーワードをクラスタリングし、同じクラス同士でサブワード遷移を共有して、サブワード誤り確率を算出してもよい。クエリサブワード列誤りテーブル学習部１０７は、想定キーワードサブワード列同士の編集距離に基づいて想定キーワードをクラスタリングしてもよいし、ｋ−ｍｅａｎｓ法等を用いて想定キーワードをクラスタリングしてもよい。

編集距離に基づくクラスタリングでは、想定キーワードＡ内に想定キーワードＢが含まれていれば、想定キーワードＡのサブワード列内の想定キーワードＢのサブワード列に対応するサブワードと、想定キーワードＢのサブワードとの編集距離が近いので、想定キーワードＡ内の想定キーワードＢに対応する部分と想定キーワードＢとは同じクラスに割り当てられる。例えば、想定キーワード「ｒｅｓｅａｒｃｈ」と想定キーワード「ｓｅａｒｃｈ」とでは、「ｓｅａｒｃｈ」が同じクラスに割り当てられる。そして、クエリサブワード列誤りテーブル学習部１０７は、同じクラス内におけるサブワード遷移に基づいてサブワード誤り確率を算出する。なお、ｋ−ｍｅａｎｓ法を用いたクラスタリングについてはよく知られているので説明を省略する。

データ不足に対応する方法として、ｊｏｉｎｔＮ−Ｇｒａｍを用いて算出するサブワード誤り確率をｊｏｉｎｔ（Ｎ−１）−Ｇｒａｍを用いて算出したサブワード誤り確率に代用する方法、及びサブワード遷移が出現しないサブワード誤り確率を他のサブワード誤り確率に基づき近似する方法がある。これらの方法は音声認識分野の言語モデル学習で広く研究されているので、具体的な説明を省略する。

図１３は、本発明の実施例のすべての想定キーワードを一つのクラスに割り当てた場合のクエリサブワード列誤りテーブル１０８の説明図である。

クエリサブワード列誤りテーブル１０８は、サブワード遷移１３０１及び認識結果１３０２を含む。

サブワード遷移１３０１には、想定キーワードサブワード列の着目サブワードと、想定キーワードサブワード列の着目サブワードの一つ目のサブワードと、対応サブワード列の着目サブワードとの組が登録される。認識結果１３０２には、想定キーワードサブワード列の着目サブワードの対応サブワード列における認識結果が登録される。あるサブワード遷移１３０１とある認識結果１３０２とに対応する項目には、あるサブワード遷移１３０１において想定キーワードサブワード列の着目サブワードがある認識結果１３０２に認識されるサブワード誤り確率が登録される。

すべての想定キーワードを一つのクラスに割り当てた場合であっても、一般的なサブワード誤り確率を算出することにはならない。なぜなら、想定キーワードサブワード列に対応する対応サブワード列からサブワード誤り確率が算出される、つまり、想定キーワードに関するサブワード誤り確率を算出するという制限があるので、想定キーワードの誤認識の傾向が算出されるためである。

なお、図１０では、一つのサブワード単位で算出されたサブワード誤り確率を説明したが、このサブワード誤り確率は、換言すれば、ｊｏｉｎｔ１−Ｇｒａｍによるサブワード誤り確率である。

また、図１３に示すクエリサブワード列誤りテーブル１０８には、図１０に示す全体誤り確率１００３が登録されてもよい。

クエリサブワード列誤りテーブル学習部１０７によってクエリサブワード列誤りテーブル１０８が生成され、インデキシング部１１０によってインデックステーブル１１１が生成されると、音声データ検索装置１はユーザからキーワードの入力を受付可能となる。

以下、音声データ検索装置１の検索処理部について説明する。

まず、図１に示すキーワード入力部１１２は、ユーザによって入力されたキーワードを受け付ける。キーワード入力部１１２は、入力デバイス（例えば、キーボード及びタッチパッドなど）を介してキーワードを直接受け付けてもよいし、他の計算機で入力されたキーワードをネットワークを介して受け付けてもよい。また、キーワード入力部１１２は、音声によって入力されたキーワードを受け付け、音声認識を用いてキーワード文字列に変換してもよい。

キーワード入力部１１２は、受け付けたキーワードをサブワード列変換部１１３に出力する。

サブワード列変換部１１３は、キーワード入力部１１２から入力されたキーワードをサブワード列（キーワードサブワード列）に変換し、候補検索部１１４に出力する。なお、サブワード列変換部１１３によるキーワードのサブワード列への変換方法は、想定キーワード生成部１０６による想定キーワードのサブワード列への変換方法と同じであるので、説明を省略する。

図１４は、本発明の第１実施例の候補検索部１１４の処理のフローチャートである。

候補検索部１１４は、サブワード列変換部１１３からキーワードサブワード列が入力されると、インデックステーブル１１１を参照し、検索対象音声データ１０９からキーワードの発話箇所の候補（検索候補）を検索し（１４０１）、処理を終了する。候補検索部１１４は、例えば、オーバーラップを許容して、キーワードサブワード列をＮ−ｇｒａｍ毎に分割し、分割したＮ―ｇｒａｍに対応するインデックステーブル１１１におけるＮ−ｇｒａｍインデックスを検索候補とする。

図１５は、本発明の第１実施例の３−ｇｒａｍ毎に分割されたキーワードサブワード列の説明図である。

キーワードサブワード列「ｒｉｓ３｀ｔＳ」は、「ｒｉｓ」、「ｉｓ３｀」、及び「ｓ３｀ｔＳ」のように、３−ｇｒａｍ毎に分割される。インデックステーブル１１１のＮ−ｇｒａｍインデックスについては、文書検索の分野で広く一般的に用いられている技術であるので、説明を省略する。

図１６は、本発明の第１実施例のサブワード列距離評価部１１５の処理のフローチャートである。

サブワード列距離評価部１１５は、クエリサブワード列誤りテーブル１０８を参照し、キーワードサブワード列と候補検索部１１４が検索したすべての検索候補に対応するサブワード列（検索候補サブワード列）との距離を算出し（１６０１、ｌ６０２）、処理を終了する。

図１１に示すクエリサブワード列誤りテーブル１０８を用いる距離の算出方法について具体的に説明する。

まず、サブワード列距離評価部１１５は、キーワードサブワード列と検索候補サブワード列との間で、編集距離が最小となるようにアライメントを設定する。また、サブワード列距離評価部１１５は、クエリサブワード列誤りテーブル１０８に登録されたレコードから、キーワードサブワード列に対応するレコードを取得する。そして、サブワード列距離評価部１１５は、キーワードサブワード列から処理対象の一つのサブワードを選択し、選択したサブワード（第１サブワード）にアライメントが設定された検索候補サブワード列のサブワード（第２サブワード）と、選択したサブワードとが一致するか否かを判定する。第１サブワードと第２サブワードが一致する場合、サブワード列距離評価部１１５はスコアに「１」を加算する。

一方、第１サブワードと第２サブワードとが一致しない場合、サブワード列距離評価部１１５は、取得したクエリサブワード列誤りテーブル１０８のレコードから第１サブワードの行と、第２サブワードに対応する列とに対応する項目からサブワード誤り確率を取得する。そして、サブワード列距離評価部１１５は、取得したサブワード誤り確率をスコアに加算する。

そして、サブワード列距離評価部１１５は、キーワードサブワード列のすべてのサブワードに対して処理が実行された場合には処理を終了し、キーワードサブワード列のすべてのサブワードに対して処理が実行されていない場合、処理が未実行のサブワードを処理対象のサブワードに選択し、当該処理対象のサブワードに処理を実行する。

つまり、本処理では、第１サブワードと第２サブワードとが一致しない場合であっても、第１サブワードが第２サブワードに誤認識される確率が高ければ、これらのサブワードは本来一致する可能性が高いと判断でき、また、第１サブワードが第２サブワードに誤認識される確率が低ければ、これらのサブワードは本来一致する可能性が低く、別のサブワードである可能性が高いと判断できる。この観点から、スコアが高い検索候補ほどキーワードと一致する可能性が高いと言うことができる。

上述した例では、スコアが高い検索候補ほどキーワードと一致する可能性が高いことを示す例について説明したが、スコアが低い検索候補ほどキーワードと一致する可能性が高いことを示すようにしてもよい。具体的には、第１サブワードと第２サブワードが一致する場合、サブワード列距離評価部１１５はスコアをそのままにする。一方、第１サブワードと第２サブワードとが一致しない場合、サブワード列距離評価部１１５は、これらのサブワードに対応するサブワード誤り確率を「１」から減算した値をスコアに加算する。これによって、スコアが低い検索候補ほどキーワードと一致する可能性が高いことを示すようになる。

なお、図１３に示すクエリサブワード列誤りテーブル１０８を用いる場合には、第１サブワード、当該第１サブワードの一つ前のサブワード、及び第２サブワードの一つ前のサブワードを含むサブワード遷移１３０１の行と、第２サブワードと一致する認識結果１３０２の列とに対応する項目に登録されたサブワード誤り確率を取得する処理が異なり、他の処理は上述した図１１にクエリサブワード列誤りテーブル１０８を用いる場合と同じ処理である。

また、サブワード列距離評価部１１５は、キーワードサブワード列と検索候補サブワード列とのスコアの算出に、端点フリーのビタビアルゴリズム又は動的計画法を用いてもよい。なお、端点フリーのビタビアルゴリズム及び動的計画法の詳細については、説明を省略する。

キーワードサブワード列がクエリサブワード列誤りテーブル１０８に登録されていない場合、サブワード列距離評価部１１５は、キーワード全体を一つのクラスとし、１サブワード誤り確率、又はｊｏｉｎｔ１，２，３−ｇｒａｍに基づくサブワード誤り確率を算出し、算出したサブワード誤り確率をスコアの算出に用いてもよい。音声認識分野では、未知の単語の出現確率をＮ−ｇｒａｍや既知のサブワード誤り確率で近似する方法は広く知られているので、説明を省略する。

また、サブワード列距離評価部１１５は、キーワードサブワード列の出現確率と候補区間のサブワード列出現確率とをＮ−ｇｒａｍ確率で近似し、近似したＮ−ｇｒａｍ確率を事前確率及び正規化項として制約を設定し、ビタビアルゴリズムを用いてスコアを算出してもよい。また、Ｎ−ベスト認識結果のように一つの区間に複数の認識結果が存在する場合、サブワード列距離評価部１１５は、各認識結果に対してスコアを算出し、算出したスコアの重み付き和を当該区間のスコアとする。以上により、各検索候補に対して、距離によるスコアが付与される。

図１７は、本発明の第１の実施形態の検索結果統合部１１６の処理を示すフローチャートである。サブワード列距離評価部１１５で算出された各検索候補のサブワード列のスコアに基づいて、検索候補をキーワードの一致度順にソートした検索結果を検索結果表示部１１７に出力し（１７０１）、処理を終了する。

ステップ１７０１の処理には、広く知られたクイックソート又は基数ソート等を用いることができる。なお、検索結果は、各検索候補のファイル名、時刻、及びスコアを含む。検索結果統合部１１６は、検索結果を他のアプリケーションに出力してもよいし、他の計算機に出力してもよい。

図１８は、本発明の第１実施例の検索結果表示部１１７の処理を示すフローチャートである。

検索結果表示部１１７は、検索結果統合部１１６から入力された検索結果をキーワードとの一致度が高い順に表示する検索画面１９００（図１９参照）を生成し、生成した検索画面を図示しない表示装置に表示し（１８０１）、処理を終了する。

図１９は、本発明の第１実施例の検索画面１９００の説明図である。

検索画面１９００は、ファイル名１９０１、時刻１９０２、スコア１９０３、及び再生ボタン１９０４を含む。

ファイル名１９０１には検索候補のファイルの名称が表示され、時刻１９０２にはファイルにおいて検索候補が出現する時刻が表示され、スコア１９０３には検索候補のスコアが表示される。再生ボタン１９０４が押下操作されると、音声データ検索装置１は、押下操作された再生ボタン１９０４に対応する時刻１９０２に表示された時刻付近の音声データを再生する。ユーザは、再生された音声データを実際に聞くことによって、検索候補付近の音声の内容を確認することができる。また、検索画面１９００は、表示装置ではなく他の出力装置（プリンタ又は記憶装置等）及び他の計算機に出力されてもよい。

以上説明したように、本実施例の音声データ検索装置１は、想定キーワード毎にサブワード誤認識傾向を事前に学習することによって、語句毎の誤認識傾向を考慮してサブワードキーワードのサブワード列と検索候補のサブワード列とのスコアを算出でき、音声データ検索の精度を向上することができる。

（第２実施例）
以下において、本発明の第２実施例を図２０及び図２１を用いて説明する。

本実施例の音声データ検索装置１は、キーワードと検索候補との音響に関するスコア（音響スコア）を算出し、算出した音響スコアと第１実施例の図１６で算出したサブワードに関するスコア（サブワードスコア）とに基づいて、検索対象音声データ１０９からキーワードを検索する。これによって、音声データ検索装置１は検索精度をさらに向上させることができる。

図２０は、本発明の第２実施例の音声データ検索装置１の構成図である。

図２０に示す音声データ検索装置１の構成のうち、第１実施例の図１に示す音声データ検索装置１の構成と同じ構成は同じ符号を付与し、説明を省略する。

本実施例の音声データ検索装置１は、第１実施例の音声データ検索装置１の他に音響距離評価部２０１６を備え、検索結果統合部２０１７が第１実施例の検索結果統合部１１６と異なる。

音響距離評価部２０１６は、音響モデル１０３及び言語モデル１０４を参照し、キーワードと検索候補との音響的な距離（近さ）を示す音響スコアを算出し、算出した音響スコアを検索結果統合部２０１７に出力する。音響スコアは、例えば、キーワードの音響尤度（又は出現確率）と検索候補の音響尤度（出現確率）との比を用いて表現できる。音響スコアの算出法は、各種方法を用いることができるため、説明を省略する。

検索結果統合部２０１７は、サブワード列距離評価部１１５によって算出されたサブワードスコア及び音響距離評価部２１０６によって算出された音響スコアを統合した検索スコアを算出し、検索スコアに基づいて検索候補をキーワードの一致度順にソートした検索結果を検索結果表示部１１７に出力する。なお、検索結果統合部２０１７の詳細は図２１で説明する。

図２１は、本発明の第２実施例の検索結果統合部２１０７の処理を示すフローチャートである。検索結果統合部２１０７の処理のうち、図１７に示す検索結果統合部１１６と同じ処理は同じ符号を付与し、説明を省略する。

検索結果統合部２１０７は、サブワード列距離評価部１１５によって算出されたサブワードスコアと音響距離評価部２０１６によって算出された音響スコアとに重み付けをして加算することによって、サブワードスコアと音響スコアとを統合した検索スコアを算出する（２１０１）。

例えば、検索スコアは、検索結果統合部２１０７が式１を計算することによって算出される。
Ｓ＝Ａｗ＋Ｂ（１−ｗ）・・・（式１）
なお、サブワードスコアをＡとし、音響スコアをＢとし、検索スコアをＳとし、重み付け係数をｗとする。重み付け係数は予め設定された値である。

また、検索対象音声データ１０９の音声認識結果が、Ｎ−ベスト認識結果のように一区間に複数存在する場合は、それぞれの認識結果についてサブワードスコアと音響スコアとを重み付けて加算して検索スコアを算出する。

音響スコアは、検索候補の音響尤度（又は出現確率）を用いて算出されるため、検索候補のサブワード列の出現確率とみることができる。サブワードスコアは、二つのサブワード間の距離を測ることができるが、サブワード列の出現確率を考慮していない。

例えば、二つの検索候補Ａ及びＢのサブワード列とキーワードサブワード列とのサブワードスコアが両方とも同じ値であった場合を考える。この場合、検索候補Ａのサブワード列に認識される可能性（つまり、検索候補Ａのサブワード列の出現確率）が非常に小さく、検索候補Ｂのサブワード列に認識される可能性（つまり、検索候補Ｂのサブワード列の出現確率）が高ければ、検索候補Ａは誤認識された可能性が高い。このため、検索候補Ａ及びＢのソート順は、検索候補Ａを上位にするより、検索候補Ｂを上位にしたほうが、検索精度が向上する可能性は高い。

また、音声データ検索装置１は、音響スコアのみを用いて検索候補をソートすると、クエリサブワード列誤りテーブル１０８を参照することによって、誤認識傾向を考慮することができない。

本実施例の音声データ検索装置１は、音響スコア及びサブワードスコアに基づいて検索候補をソートするため、検索候補の出現確率及び誤認識傾向を考慮して検索候補をソートすることが可能であり、検索精度を向上させることができる。

（第３実施例）
以下において、本発明の第３実施例を図２２〜図２４を用いて説明する。

本実施例の音声データ検索装置１は、想定キーワード毎のサブワード誤認識傾向を事前に学習し、当該サブワード誤認識傾向を利用して検索対象音声データ１０９からキーワードを検索するだけでなく、検索候補が正しいか否かの指定をユーザから受け付け、正しいと指定された検索候補のサブワード列とキーワードサブワード列とを比較して誤認識傾向を算出し、算出した誤認識傾向をクエリサブワード列誤りテーブル１０８に登録する。これによって、誤認識傾向がさらに正確になり、検索精度を向上させることができる。

図２２は、本発明の第３実施例の音声データ検索装置１の構成図である。

図２２に示す音声データ検索装置１の構成のうち、第１実施例の図１に示す音声データ検索装置１の構成と同じ構成は同じ符号を付与し、説明を省略する。

本実施例の音声データ検索装置１は、検索結果表示部１１７の代わりに検索結果表示訂正部２２１７を備え、第１実施例の音声データ検索装置１の構成の他に音素列誤りテーブル更新部２２１８を備える。

検索結果表示訂正部２２１７は、検索結果表示部１１７の機能の他に、検索候補がキーワードと一致するか否かのユーザによる判定を受け付けるインターフェースを備え、各検索候補がキーワードと一致するか否かのユーザによる判定を示すラベルを各検索候補に付与する。

音素列誤りテーブル更新部２２１８は、キーワードと一致すると判定された検索候補のサブワード列とキーワードサブワード列との間でサブワード誤り確率を算出し、算出したサブワード誤り確率をクエリサブワード列誤りテーブル１０８に登録する。音素列誤りテーブル更新部２２１８の詳細は図２４で説明する。

図２３は、本発明の第３実施例の検索画面２３００の説明図である。

検索画面２３００は、検索結果表示訂正部２２１７によって表示される。検索画面２３００の構成うち、図１９に示す検索画面１９００と同じ構成は同じ符号を付与し、説明を省略する。

検索画面２３００は、ファイル名１９０１、時刻１９０２、スコア１９０３、再生ボタン１９０４、及び正誤判定ボタン２３０１を含む。

正誤判定ボタン２３０１は、検索候補がキーワードと一致することを示す第１ボタンと、検索候補がキーワードと一致しないことを示す第２ボタンとを含む。ユーザは、再生ボタン１９０４を押下操作して、検索候補に対応する音声データを再生した後、当該検索候補がキーワードと一致する場合、第１ボタンを押下操作する。一方、ユーザは、検索候補がキーワードと一致しない場合、第２ボタンを押下操作する。なお、検索結果表示訂正部２２１７は、検索画面２３００においてユーザの操作を一定時間受け付けなければ、ユーザによる検索候補がキーワードに一致するか否かの判定が終了したとみなし、ユーザの判定結果をラベルとして検索候補に付与し、ラベルを付与した検索候補を音素列誤りテーブル更新部２２１８に出力する。

図２４は、本発明の第３実施例の音素列誤りテーブル更新部２２１８の処理を示すフローチャートである。

音素列誤りテーブル更新部２２１８は、ラベルが付与された検索候補が検索結果表示訂正部２２１７から入力された場合、ラベルがキーワードと一致することを示すすべての検索候補のサブワード列（検索候補サブワード列）に対して、キーワードのサブワード列（キーワードサブワード列）と検索候補サブワード列との編集距離が最小となるように、アライメントを設定する（２４０１、２４０２）。

次に、音素列誤りテーブル更新部２２１８は、クエリサブワード列誤りテーブル１０８のフォーマットに従って、サブワード又はｊｏｉｎｔＮ−ｇｒａｍの組合せに従って、サブワード誤り数をカウントする（２４０３）。ステップ２４０３の処理は、図７に示すクエリサブワード列誤りテーブル学習部１０７によるステップ７０３の処理と同じなので、説明を省略する。

次に、音素列誤りテーブル更新部２２１８は、ステップ２４０３の処理でカウントしたサブワード誤り数に基づいてサブワード誤り確率を算出し、算出したサブワード誤り確率に基づいてクエリサブワード列誤りテーブル１０８の該当箇所のサブワード誤り確率を更新し（２４０４）、処理を終了する。

ＭＡＰ推定に基づくクエリサブワード列誤りテーブル１０８のサブワード誤り確率の更新方法について具体的に説明する。

例えば、キーワードサブワード列に含まれるあるサブワード「ｒ」が検索候補サブワード列のサブワード「ｓ」に誤認識されるサブワード誤り確率が２０／１４２０と算出されたとする。このサブワード誤り確率の分母はサブワード「ｒ」の出現回数を示し、分子は「ｒ」が「ｓ」に誤認識された回数を示す。また、クエリサブワード列誤りテーブル１０８には、キーワードと一致する想定キーワードにおけるサブワード「ｒ」がサブワード「ｓ」に誤認識されるサブワード誤り確率として０．０５が登録されていたとする。

この場合、音素列誤りテーブル更新部２２１８は、予め設定された値Ｎを用いて、式２を計算することによって算出された値に、クエリサブワード列誤りテーブル１０８のサブワード誤り確率を更新する。
（２０＋０．０５＊Ｎ）／（１４２０＋Ｎ）・・・（式２）

以上によって、実際の検索対象音声データ１０９のサブワード誤り確率を事前に算出されたクエリサブワード列誤りテーブル１０８に反映することができ、サブワード列距離評価部１１５は検索対象音声データ１０９の正確な誤認識傾向を利用でき、検索精度を向上させることができる。

なお、音素列誤りテーブル更新部２２１８は、検索結果表示訂正部２２１７から検索候補が入力される毎にサブワード誤り確率を更新する必要はなく、検索結果表示訂正部２２１７から所定数以上検索候補が入力された場合にブワード誤り確率を更新してもよい。

また、検索対象音声データ１０９の認識結果がＮ−ベスト認識結果である場合、音素列誤りテーブル更新部２２１８は、データがＮ倍になったとみなして、同じ処理を実行すればよい。

以上説明したように、本実施例の音声データ検索装置１は、想定キーワード毎のサブワードにおける学習用ラベル付き音声データ１０１の誤認識傾向を事前に学習し利用するだけでなく、ユーザによる検索候補がキーワードと一致するか否かの判定結果に基づいて、検索対象音声データ１０９の誤認識傾向を算出し、算出した誤認識傾向をクエリサブワード列誤りテーブル１０８に反映することによって、検索精度を向上させることができる。

なお、本実施例は、第１実施例の音声データ検索装置１だけでなく第２実施例の音声データ検索装置１にも適用可能である。

（第４実施例）
以下において、本発明の第４実施例を図２５及び図２６を用いて説明する。

本実施例では、音声データ検索装置１をコールセンタに適用した場合の音声データ検索システムについて説明する。

図２５は、本発明の第４実施例の音声データ検索システムの構成図である。

音声データ検索システムは、構内電話交換機（ＰＢＸ、ＰｒｉｖａｔｅＢｒａｎｃｈｅＸｃｈａｎｇｅ）装置２５０３、通話録音装置２５０４、検索対象音声データ２５０５を記憶する記憶装置２５０６、及び検索処理を実行する計算機群２５１０を備える。各機器は電話回線又はネットワークで接続され、計算機内の構成はバスで接続される。

ＰＢＸ装置２５０３は、公衆電話回線網Ｎ１を介して、顧客が利用する顧客電話器２５０１と接続される。また、ＰＢＸ装置２５０３はコールセンタ内でオペレータが利用するオペレータ電話器２５０２と接続される。ＰＢＸ装置２５０３は、顧客電話器２５０１とコールセンタ内のオペレータ電話器２５０２との間の通話を中継する。

通話録音装置２５０４の構成は、ＣＰＵ及びメモリを備え、自身を制御する制御プログラムを実行する汎用計算機と同じである。通話録音装置２５０４は、ＰＢＸ装置２５０３又はオペレータ電話器２５０２から顧客が発話した音声信号を取得し、オペレータ電話器２５０２からオペレータが発話した音声信号を取得する。オペレータが発話した音声信号はオペレータ電話器２５０２に接続されるヘッドセット及び録音デバイスから取得してもよい。通話録音装置２５０４は、取得した音声信号をＡ／Ｄ変換して、所定の形式（例えば、ＷＡＶ形式等）のデジタルデータ（音声データ）に変換し、記憶装置２５０６に検索対象音声データ２５０５として記憶する。なお、音声信号の音声データへの変換処理はリアルタイムで実行されてもよい。

図２６は、本発明の第４実施例の音声データのフォーマットの一例の説明図である。

音声データを記憶する音声ファイルには、オペレータＩＤ２６０１、話者ＩＤ２６０２、時刻２６０３、時間長２６０４、及び１６ｂｉｔ符号付きバイナリ波形データ２６０５を含む。

オペレータＩＤ２６０１には、オペレータのＩＤが登録される。話者ＩＤ２６０２には、オペレータと通話した顧客のＩＤが登録される。時刻２６０３には、オペレータと顧客との間で通話を開始した時刻が登録される。時間長２６０４には、通話の開始から終了までの時間が登録される。１６ｂｉｔ符号付きバイナリ波形データ２６０５には、音声データが登録される。

オペレータＩＤ２６０１、話者ＩＤ２６０２、及び時間長２６０４はＰＢＸ装置２５０３等から取得できる。

次に計算機群２５１０について説明する。計算機群２５１０は、計算機２５４０、記憶装置２５２０及び２５３０、キーボード２５５０、並びに表示装置２５５１を有する。計算機２５４０は、記憶装置２５２０及び２５３０、キーボード２５５０、並びに表示装置２５５１に接続される。

記憶装置２５２０は、言語モデル２５２１、音響モデル２５２２、インデックステーブル２５２３、及びクエリサブワード列誤りテーブル２５２４を記憶する。また、記憶装置２５３０は、学習用ラベル付き音声データ２５３１、及び想定キーワード２５３２を記憶する。言語モデル２５２１は図１に示す言語モデル１０４に対応し、音響モデル２５２２は図１に示す言語モデル１０４に対応し、インデックステーブル２５２３は図１に示すインデックステーブル１１１に対応し、クエリサブワード列誤りテーブル２５２４は図１に示すクエリサブワード列誤りテーブル１０８に対応する。学習用ラベル付き音声データ２５３１は図１に示す学習用ラベル付き音声データ１０１に対応し、想定キーワード２５３２は図１に示す想定キーワード生成部１０６に予め設定された想定キーワードに対応する。

なお、言語モデル２５２１、音響モデル２５２２、及びクエリサブワード列誤りテーブル２５２４は、計算機２５４０以外の計算機が学習用ラベル付き音声データ２５３１を用いて算出してもよい。

計算機２５４０は、第３実施例の検索処理を実行し、ＣＰＵ２５４１及びメモリ２５４２を有する。メモリ２５４２は、音声認識モジュール２５４３、インデキシングモジュール２５４４、サーチモジュール２５４５、及びクエリサブワード列誤りテーブル学習モジュール２５４６を記憶する。

音声認識モジュール２５４３は音響・言語モデル学習部１０２の機能を有する。インデキシングモジュール２５４４はインデキシング部１１０の機能を有する。サーチモジュール２５４５は、キーワード入力部１１２、サブワード列変換部１１３、候補検索部１１４、サブワード列距離評価部１１５、検索結果統合部１１６、及び検索結果表示訂正部２２１７の機能を有する。クエリサブワード列誤りテーブル学習モジュール２５１７は、クエリサブワード列誤りテーブル学習部１０７、音素列誤りテーブル更新部２２１８の機能を有する。これらのモジュールは、ＣＰＵ２５４１の制御命令によって適切に実行される。

計算機は、第３実施例と同じ手順で適切に動作する。インデキシングモジュール２５４４が検索対象音声データ２５０５に一定時間毎にアクセスし、検索対象音声データ２５０５の差分にインデキシング処理を実行し、インデキシング処理結果をインデックステーブル２５２３に追加する。

以上説明したように、第３実施例の音声データ検索装置１をコールセンタに導入することができる。なお、コールセンタに導入される音声データ検索装置１は、第３実施例に限定されず、第１実施例及び第２実施例の音声データ検索装置１であってもよい。

（第５実施例）
以下において、本発明の第５実施例を図２７及び図２８を用いて説明する。

本実施例では、音声データ検索装置１の機能をコンテンツクラウドシステムに適用した場合について説明する。

まず、一般的なコンテンツクラウドシステムの概要について図２７を用いて説明し、次に、音声データ検索装置１の機能をコンテンツクラウドシステムに適用した場合について図２８を用いて説明する。

図２７は、一般的なコンテンツクラウドシステムの説明図である。

コンテンツクラウドシステムは、ストレージ２７０４、ＥＴＬ（ＥｘｔｒａｃｔＴｒａｎｓｆｏｒｍＬｏａｄ）モジュール２７０５、コンテンツストレージ２７０６、検索エンジンモジュール２７０９、メタデータサーバモジュール２７１１、マルチメディアサーバモジュール２７１３、及びアプリケーションプログラム２７１５を有する。

コンテンツクラウドシステムは一つ以上のＣＰＵ、メモリ、及び記憶装置を有する汎用計算機上で動作し、コンテンツクラウドシステムは各種モジュールを有する。また、各種モジュールは、独立した計算機で実行されることもあり、この場合、各計算機とモジュールとの間はネットワーク等で接続され、各モジュールは、ネットワークを介してデータを通信し、処理を分散的に実行する。

コンテンツクラウドシステムは、アプリケーションプログラム２７１６によって送信されたリクエストをネットワーク等を介して受信し、受信したリクエストに応じた情報をアプリケーションプログラム２７１５に送信する。

コンテンツクラウドシステムには音声データ２７０１、医療データ２７０２、メールデータ２７０３などの任意の形式のデータが入力され、これらのデータ２７０１〜２７０３はストレージ２７０４に一時的に記憶される。例えば、音声データ２７０１はコールセンタの通話音声であってもよいし、医療データ２７０２及びメールデータ２７０３は文書データであってもよい。また、これらのデータ２７０１〜２７０３は、構造化されていてもよいし、構造化されてなくてもよい。

ＥＴＬ２７０５は、ストレージ２７０４を監視しており、ストレージ２７０４に新たなデータ２７０１〜２７０３が記憶されると、記憶されたデータ２７０１〜２７０３に対応した情報抽出処理モジュールを実行し、記憶されたデータ２７０１〜２７０３から所定の情報（メタデータ）を抽出する。そして、ＥＴＬ２７０５は、抽出したメタデータ２７０７をコンテンツストレージ２７０６にアーカイブ化して記憶する。

ＥＴＬ２７０５の情報抽出処理モジュールの例としては、インデックスモジュール及び画像認識モジュールがあり、メタデータの例としては、時刻、Ｎ−ｇｒａｍインデックス、画像認識結果としての物体名、画像特徴量、画像に関連する関連語、及び音声認識結果などがある。ＥＴＬ２７０５の情報抽出処理モジュールには、ストレージ２７０４に記憶されたデータ２７０１〜２７０３から何らかの情報を抽出するすべてのプログラムを採用することができ、このプログラムには公知の技術を採用できるので、ここでは各種情報抽出モジュールの説明を省略する。また、メタデータはデータ圧縮アルゴリズムによってデータサイズが圧縮されてもよい。

また、ＥＴＬ２７０５の情報抽出処理モジュールは、メタデータを抽出した後、メタデータを抽出した元データのファイル名、元データのストレージへの登録年月日、元データの種類、及びメタデータテキスト情報などをＲｅｌａｔｉｏｎａｌＤａｔａＢａｓｅ（ＲＤＢ）に登録する処理を実行してもよい。

コンテンツストレージ２７０６には、ＥＴＬ２７０５が抽出したメタデータ２７０７及びストレージ２７０４に一時的に記憶されたＥＴＬ２７０５による情報抽出処理前のデータ２７０１〜２７０３が記憶される。

検索エンジンモジュール２７０９は、アプリケーションプログラム２７１５からのリクエストが例えばテキスト検索である場合、ＥＴＬ２７０５によって生成されたインデックス２７１０に基づいて、テキストの検索処理を実行し、検索結果をアプリケーションプログラム２７１５に送信する。ここで、検索エンジンモジュール２７０９及び検索処理のアルゴリズムは、公知の技術を適用できる。検索エンジンモジュール２７０９には、テキストだけでなく、画像及び音声などのデータも検索するモジュールが含まれる。

メタデータサーバモジュール２７１１は、ＲＤＢ２７１２に記憶されるメタデータを管理する。例えば、ＥＴＬ２７０５がメタデータを抽出した元データのファイル名、元データのストレージへの登録年月日、元データの種類、及びメタデータテキスト情報などをＲＤＢ２７１２に登録した場合、アプリケーションプログラム２７１５からのリクエストに対応するＲＤＢ２７１２に登録された情報をアプリケーションプログラム２７１５に送信する。

マルチメディアサーバモジュール２７１３は、ＥＴＬ２７０５で抽出されたメタデータ同士を互いに関連付け、グラフ形式で構造化したグラフデータベース（ＤＢ）２７１４を記憶する。例えば、コンテンツストレージ２７０６のメタデータ２７０７に記憶された認識結果「リンゴ」に対して、元の音声ファイル（又は画像データ）及び関連語等がネットワーク形式で関連付けられる。

マルチメディアサーバモジュール２７１３は、アプリケーションプログラム２７１５からのリクエストに応じたメタ情報をアプリケーションプログラム２７１５に送信する。例えば、マルチメディアサーバモジュール２７１３は「リンゴ」というリクエストを受け付けた場合、グラフＤＢ２７１４を参照し、リンゴの画像、平均相場、及びアーティストの曲名などの関連するメタデータをアプリケーションプログラム２７１５に送信する。

図２８は、本発明の第５実施例のコンテンツクラウドシステムの説明図である。

本実施例では、音声データ検索装置１の各種処理がモジュール化されており、第４実施例のように、音声データ検索装置１のインデキシング部１１０はインデキシングモジュール２８０１にモジュール化され、キーワード入力部１１２、サブワード列変換部１１３、候補検索部１１４、サブワード列距離評価部１１５、及び検索結果統合部１１６はサーチモジュール２８０２にモジュール化されている。また、インデキシングモジュール２８０１はストレージ２７０４に実装され、サーチモジュール２８０２はマルチメディアサーバモジュール２７１３に実装される。

また、音響モデル１０３、言語モデル１０４、及びクエリサブワード列誤りテーブル１０８は、事前に他の計算機によって算出され、音響モデル１０３及び言語モデル１０４はストレージ２７０４に実装され、クエリサブワード列誤りテーブル１０８はマルチメディアサーバモジュール２７１３に実装される。

インデキシングモジュール２８０１は、ストレージ２７０４に音声データ２７０１が入力された場合、ＥＴＬ２７０５に呼び出され、入力された音声データ２７０１に対してインデキシング処理を実行する。そして、インデキシングモジュール２８０１は、インデキシング処理によって生成されたインデックスデータをコンテンツストレージ２７０６に記憶する。

サーチモジュール２８０２は、アプリケーションプログラム２７１５又はマルチメディアサーバモジュール２７１３で動作するマルチメディアサーバ制御プログラムからキーワードが入力された場合、インデックスデータ２７０８及びクエリサブワード列誤りテーブル２８０２を参照し、音声データ２７０１からキーワードが発話された箇所を検索し、当該キーワードが発話されたファイル名、当該キーワードが発話された時刻、及びスコアを含む検索結果を、キーワードを入力したアプリケーションプログラム２７１５及びマルチメディアサーバ制御プログラムに出力する。

インデキシングモジュール２８０１及びサーチモジュール２８０２の処理の詳細は、第１〜第３実施例の音声データ検索装置１の処理と同じであるので、説明を省略する。

また、サーチモジュール２８０２は、検索エンジンモジュール２７０９に実装されてもよい。この場合、アプリケーションプログラム２７１５から検索エンジンモジュール２７０９にキーワードを含む音声データ検索リクエストが入力された場合、サーチモジュール２８０２は、音声データ２７０１を検索し、検索結果を検索エンジンモジュール２７０９に出力する。

以上説明したように、第１実施例〜第３実施例の音声データ検索装置１をコンテンツクラウドシステムに適用することができる。

以上、本発明を添付の図面を参照して詳細に説明したが、本発明はこのような具体的構成に限定されるものではなく、添付した請求の範囲の趣旨内における様々な変更及び同等の構成を含むものである。

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、検索対象となる第１音声データからユーザによって入力されたキーワードに対応する部分を検索する音声検索装置であって、第２音声データを用いて、音響特徴を示す音響モデル及び言語特徴を示す言語モデルを生成する音響・言語モデル生成部と、前記第２音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第１サブワード列に変換する第１サブワード列変換部と、前記キーワードとして指定される可能性のある想定キーワードを、サブワードを単位する第２サブワード列に変換する第２サブワード列変換部と、前記第１サブワード列と前記第２サブワード列とを比較し、前記第１サブワード列の前記第２サブワード列に対する誤認識傾向を前記想定キーワードごとに算出する誤認識傾向算出部と、前記第１音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第３サブワード列に変換する第３サブワード列変換部と、前記キーワードを、サブワードを単位とする第４サブワード列に変換する第４サブワード列変換部と、前記第１音声データから、前記キーワードに対応する部分を検索候補として検索する候補検索部と、前記誤認識傾向算出部によって算出された誤認識傾向に基づいて、前記候補検索部によって検索された検索候補の第３サブワード列の前記第４サブワード列に対するサブワードスコアに基づくスコアを算出するスコア算出部と、前記スコア算出部によって算出されたスコアと前記スコアに対応する検索候補とを含む検索結果を出力する検索結果出力部と、を備えることを特徴とする。

Claims

検索対象となる第１音声データからユーザによって入力されたキーワードに対応する部分を検索する音声検索装置であって、
第２音声データを用いて、音響特徴を示す音響モデル及び言語特徴を示す言語モデルを生成する音響・言語モデル生成部と、
前記第２音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第１サブワード列に変換する第１サブワード列変換部と、
前記キーワードとして指定される可能性のある想定キーワードを、サブワードを単位する第２サブワード列に変換する第２サブワード列変換部と、
前記第１サブワード列と前記第２サブワード列とを比較し、前記第１サブワード列の前記第２サブワード列に対する誤認識傾向を算出する誤認識傾向算出部と、
前記第１音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第３サブワード列に変換する第３サブワード列変換部と、
前記キーワードを、サブワードを単位とする第４サブワード列に変換する第４サブワード列変換部と、
前記第１音声データから、前記キーワードに対応する部分を検索候補として検索する候補検索部と、
前記誤認識傾向算出部によって算出された誤認識傾向に基づいて、前記候補検索部によって検索された検索候補の第３サブワード列の前記第４サブワード列に対するサブワードスコアに基づくスコアを算出するスコア算出部と、
前記スコア算出部によって算出されたスコアと前記スコアに対応する検索候補とを含む検索結果を出力する検索結果出力部と、を備えることを特徴とする音声検索装置。
請求項１に記載の音声検索装置であって、
前記スコア算出部は、
前記候補検索部によって検索された検索候補に対応する前記第１音声データの第１音声特徴量を算出し、
前記キーワードの第２音声特徴量を算出し、
前記算出した第１音声特徴量及び前記第２音声特徴量に基づいて、前記検索候補の前記キーワードに対する音声特徴スコアを算出し、
前記サブワードスコアと前記音声特徴スコアとを統合したスコアを算出することを特徴とする音声検索装置。
請求項１に記載の音声検索装置であって、
前記検索結果出力部は、前記検索候補を前記スコア順にソートした検索画面を出力し、
前記検索画面は、前記検索候補が前記キーワードと一致するか否かの指定をユーザから受け付ける正誤指定受付領域を含み、
前記キーワードと一致すると指定された検索結果の第３サブワード列と前記第４サブワード列とを比較し、当該第３サブワード列の前記第４サブワード列に対する誤認識傾向を算出し、前記算出した誤認識傾向を前記第１サブワード列の前記第２サブワード列に対する誤認識傾向に反映する誤認識傾向反映部を備えることを特徴とする音声検索装置。
請求項１に記載の音声検索装置であって、
前記誤認識傾向算出部は、前記誤認識傾向を、第１方式、又は第２方式を用いて算出し、
前記第１方式では、
前記誤認識傾向算出部は、前記第１サブワード列と前記第２サブワード列との間で、前記第２サブワード列を構成するサブワードが前記第１サブワード列を構成するサブワードに誤って認識される確率を示すサブワード誤認識確率を、前記誤認識傾向として算出し、
前記第２方式では、
前記誤認識傾向算出部は、
前記第２サブワード列を構成するサブワードのうち前記第１サブワード列を構成サブワードと一致するか否かを判定する着目サブワードと、
前記第２サブワード列を構成するサブワードのうち前記着目サブワードから所定数前までに存在するサブワードと、
前記第１サブワード列を構成するサブワードのうち前記第２サブワード列の前記所定数前までに存在するサブワードに対応するサブワードと、を含むサブワード遷移が与えられた場合、前記第２サブワード列の着目サブワードが、前記第１サブワード列のうち前記着目サブワードに対応するサブワードに誤って認識される確率を示すサブワード誤認識確率を、前記誤認識傾向として前記サブワード遷移毎に算出することを特徴とする音声検索装置。
請求項４に記載の音声検索装置であって、
前記誤認識傾向算出部は前記第２方式を用いて前記誤認識傾向を算出する場合、前記想定キーワードをクラスタリングし、
前記想定キーワードがクラスタリングされた結果、同じクラス内で同じサブワード遷移のサブワード認識確率を共有することを特徴とする音声検索装置。
請求項１に記載の音声検索装置であって、
前記想定キーワードは予め設定され、
互いに関連するワードを対応付けた関連ワード情報を記憶し、
前記関連ワード情報を参照し、前記予め設定された想定キーワードに対応するワードを取得し、前記取得したワードも想定キーワードに設定する想定キーワード拡張部を備えることを特徴とする音声検索装置。
請求項１に記載の音声検索装置であって、
前記スコア算出部は、端点フリーのビタビアルゴリズムを用いて、前記候補検索部によって検索された検索候補の第３サブワード列の前記第４サブワード列に対するサブワードのスコアを算出することを特徴とする音声検索装置。
検索対象となる第１音声データからユーザによって入力されたキーワードに対応する部分を検索し、プロセッサ及び記憶領域を有する音声検索装置で実行され、前記第１音声データから前記キーワードに対応する部分を検索する処理を前記プロセッサに実行させるプログラムを記憶する計算機読み取り可能な記憶媒体であって、
前記処理は、
第２音声データを用いて、音響特徴を示す音響モデル及び言語特徴を示す言語モデルを生成する処理と、
前記第２音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第１サブワード列に変換する処理と、
前記キーワードとして指定される可能性のある想定キーワードを、サブワードを単位する第２サブワード列に変換する処理と、
前記第１サブワード列と前記第２サブワード列とを比較し、前記第１サブワード列の前記第２サブワード列に対する誤認識傾向を算出する処理と、
前記第１音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第３サブワード列に変換する処理と、
前記キーワードを、サブワードを単位とする第４サブワード列に変換する処理と、
前記第１音声データから、前記キーワードに対応する部分を検索候補として検索する処理と、
前記誤認識傾向に基づいて、前記検索された検索候補の第３サブワード列の前記第４サブワード列に対するサブワードスコアに基づくスコアを算出する処理と、
前記算出されたスコアと前記スコアに対応する検索候補とを含む検索結果を出力する処理と、を含むことを特徴とする計算機読み取り可能な記憶媒体。
請求項８に記載の計算機読み取り可能な記憶媒体であって、
前記スコアを算出する処理は、
前記候補検索部によって検索された検索候補に対応する前記第１音声データの第１音声特徴量を算出する処理と、
前記キーワードの第２音声特徴量を算出する処理と、
前記算出した第１音声特徴量及び前記第２音声特徴量に基づいて、前記検索候補の前記キーワードに対する音声特徴スコアを算出する処理と、
前記サブワードスコアと前記音声特徴スコアとを統合したスコアを算出する処置と、を含むことを特徴とする計算機読み取り可能な記憶媒体。
請求項８に記載の計算機読み取り可能な記憶媒体であって、
前記検索結果を出力する処理は、前記検索候補を前記スコア順にソートした検索画面を出力する処理を含み、
前記検索画面は、前記検索候補が前記キーワードと一致するか否かの指定をユーザから受け付ける正誤指定受付領域を含み、
前記処理は、前記キーワードと一致すると指定された検索結果の第３サブワード列と前記第４サブワード列とを比較し、当該第３サブワード列の前記第４サブワード列に対する誤認識傾向を算出し、前記算出した誤認識傾向を前記第１サブワード列の前記第２サブワード列に対する誤認識傾向に反映する処理を含むことを特徴とする計算機読み取り可能な記憶媒体。
請求項８に記載の計算機読み取り可能な記憶媒体であって、
前記誤認識傾向を算出する処理は、前記誤認識傾向を、第１方式、又は第２方式を用いて算出し、
前記第１方式では、
前記第１サブワード列と前記第２サブワード列との間で、前記第２サブワード列を構成するサブワードが前記第１サブワード列を構成するサブワードに誤って認識される確率を示すサブワード誤認識確率を、前記誤認識傾向として算出し、
前記第２方式では、
前記第２サブワード列を構成するサブワードのうち前記第１サブワード列を構成サブワードと一致するか否かを判定する着目サブワードと、
前記第２サブワード列を構成するサブワードのうち前記着目サブワードから所定数前までに存在するサブワードと、
前記第１サブワード列を構成するサブワードのうち前記第２サブワード列の前記所定数前までに存在するサブワードに対応するサブワードと、を含むサブワード遷移が与えられた場合、前記第２サブワード列の着目サブワードが、前記第１サブワード列のうち前記着目サブワードに対応するサブワードに誤って認識される確率を示すサブワード誤認識確率を、前記誤認識傾向として前記サブワード遷移毎に算出することを特徴とする計算機読み取り可能な記憶媒体。
請求項１１に記載の計算機読み取り可能な記憶媒体であって、
前記誤認識傾向を算出する処理は、前記第２方式を用いて前記誤認識傾向を算出する場合、前記想定キーワードをクラスタリングする処置と、
前記想定キーワードがクラスタリングされた結果、同じクラス内で同じサブワード遷移のサブワード認識確率を共有する処理と、を含むことを特徴とする計算機読み取り可能な記憶媒体。
請求項８に記載の計算機読み取り可能な記憶媒体であって、
前記想定キーワードは予め設定され、
互いに関連するワードを対応付けた関連ワード情報を記憶し、
前記処理は、前記関連ワード情報を参照し、前記予め設定された想定キーワードに対応するワードを取得し、前記取得したワードも想定キーワードに設定する処理を含むことを特徴とする計算機読み取り可能な記憶媒体。
請求項８に記載の計算機読み取り可能な記憶媒体であって、
前記スコアを算出する処理は、端点フリーのビタビアルゴリズムを用いて、前記候補検索部によって検索された検索候補の第３サブワード列の前記第４サブワード列に対するサブワードのスコアを算出することを特徴とする計算機読み取り可能な記憶媒体。
検索対象となる第１音声データからユーザによって入力されたキーワードに対応する部分を検索し、プロセッサ及び記憶領域を有する音声検索装置における前記第１音声データから前記キーワードに対応する部分を検索する音声検索方法であって、
前記方法は、
前記プロセッサが、第２音声データを用いて、音響特徴を示す音響モデル及び言語特徴と示す言語モデルを生成するステップと、
前記プロセッサが、前記第２音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第１サブワード列に変換するステップと、
前記プロセッサが、前記キーワードとして指定される可能性のある想定キーワードを、サブワードを単位する第２サブワード列に変換するステップと、
前記プロセッサが、前記第１サブワード列と前記第２サブワード列とを比較し、前記第１サブワード列の前記第２サブワード列に対する誤認識傾向を算出するステップと、
前記プロセッサが、前記第１音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第３サブワード列に変換するステップと、
前記プロセッサが、前記キーワードを、サブワードを単位とする第４サブワード列に変換するステップと、
前記プロセッサが、前記第１音声データから、前記キーワードに対応する部分を検索候補として検索するステップと、
前記プロセッサが、前記誤認識傾向に基づいて、前記検索された検索候補の第３サブワード列の前記第４サブワード列に対するサブワードスコアに基づくスコアを算出するステップと、
前記プロセッサが、前記算出されたスコアと前記スコアに対応する検索候補とを含む検索結果を出力するステップと、を含むことを特徴とする音声検索方法。