JPWO2014033855A1 - 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 - Google Patents

音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 Download PDF

Info

Publication number
JPWO2014033855A1
JPWO2014033855A1 JP2014532631A JP2014532631A JPWO2014033855A1 JP WO2014033855 A1 JPWO2014033855 A1 JP WO2014033855A1 JP 2014532631 A JP2014532631 A JP 2014532631A JP 2014532631 A JP2014532631 A JP 2014532631A JP WO2014033855 A1 JPWO2014033855 A1 JP WO2014033855A1
Authority
JP
Japan
Prior art keywords
subword
search
string
keyword
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014532631A
Other languages
English (en)
Other versions
JP5897718B2 (ja
Inventor
龍 武田
龍 武田
直之 神田
直之 神田
康成 大淵
康成 大淵
貴志 住吉
貴志 住吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Application granted granted Critical
Publication of JP5897718B2 publication Critical patent/JP5897718B2/ja
Publication of JPWO2014033855A1 publication Critical patent/JPWO2014033855A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

検索対象となる第1音声データからユーザによって入力されたキーワードに対応する部分を検索する音声検索装置であって、第2音声データを用いて、音響特徴を示す音響モデル及び言語特徴を示す言語モデルを生成し、第2音声データを第1サブワード列に変換し、想定キーワードを第2サブワード列に変換し、第1サブワード列の第2サブワード列に対する誤認識傾向を算出し、第1音声データを第3サブワード列に変換し、キーワードを第4サブワード列に変換し、第1音声データから、キーワードに対応する部分を検索候補として検索し、誤認識傾向に基づいて、候補検索部によって検索された検索候補の第3サブワード列の第4サブワード列に対するサブワードスコアに基づくスコアを算出し、スコアとスコアに対応する検索候補とを含む検索結果を出力することを特徴とする音声検索装置。

Description

本発明は、検索対象となる音声データからユーザによって入力されたキーワードに対応する部分を検索する音声検索装置に関する。
近年のストレージデバイスの大容量化に伴って、大量の音声データが音声データベースに蓄積される。例えば、コールセンタでは一日に何千時間もの音声データが録音される。音声データベースにはオペレータの教育及び受け付け内容の確認のために音声データが録音され、必要に応じて音声データベースが利用される。従来の音声データベースでは、音声データには音声が録音された時刻情報が付与されており、時刻情報に基づいて所望の音声データが検索される。時刻情報に基づく検索では、所望の音声が発話された時刻を予め把握する必要がある。このため、時刻情報に基づく検索は、特定の発話がなされた音声を検索する用途には不向きであった。特定の発話がなされた音声を検索する場合、従来の検索方法では、音声データを始めから終わりまで聞く必要があった。
音声データベースにおいて、特定のキーワードが発話された位置を検索する技術が開発されている。代表的な方法の一つであるサブワード検索法について説明する。まず、音声データはサブワード認識処理によってサブワード列に変換される。サブワードは、単語よりも細かい単位系(例えば、音素及び音節等)一般を指す名称である。サブワード検索法では、入力されたキーワードが変換されたサブワード列と音声データのサブワード列とが比較され、二つのサブワード列のサブワード同士の距離がスコアとして算出される。算出されたスコアの降順に検索結果がソートされて出力されることによって、音声データ上でキーワードが発話された時刻が検出可能となる。
本技術分野の背景技術として、特開2010−267012号公報(特許文献1)及び特開2011−175046号公報(特許文献2)がある。特許文献1の公報には「サブワード認識によって、音声データを、音素を単位とする第1サブワード列に変換し、ユーザによって入力された検索キーワードを、音素を単位とする第2サブワード列に変換し、第1サブワード列において、第2サブワード列との編集距離が最も小さくなる少なくとも一以上の区間を、検索キーワードの検索結果に決定し、検索キーワードが発話された時刻を検出し、ユーザによって選択された正解又は不正解のデータを検索結果に付与し、正解又は不正解のデータに基づいて、サブワード置換確率を算出する」(要約参照)と記載されている。
また、特許文献2の公報には、「前記音素・音節認識ステップは、少なくとも一つ以上の検出候補に対して、音素間および音節間のバタチャリヤ距離を用いて索引を付与し、第1の検出候補との音響的類似度に基づいて、第2の検出候補あるいは第3の検出候補との距離により検出候補を提示する機能を有することを特徴とする。なお、音素間および音節間の距離の定義は、種々考えられ、通常は、認識システムで使用する尺度と対応するものを使用する」と記載されている([0024]参照)。
特開2010−267012号公報 特開2011−175046号公報
背景技術では、検索キーワードのサブワードと検索候補のサブワードとの間の距離は、一般的な認識誤りの傾向(誤認識傾向)及び一般的な音響類似度を用いて算出されている。キーワード毎に誤認識傾向が異なっていても、一般的な誤認識傾向を用いて距離が算出されるので、音声データの誤認識を原因とする検索候補の誤検出が増加する。そのため、検索キーワードに一致しない検索候補が上位にソートされる等、検索精度が低下するという欠点があった。
本発明の目的は、検索キーワード毎のサブワードの誤認識傾向を事前に学習することによって、キーワードの検索精度を向上させる音声検索装置を提供することである。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、検索対象となる第1音声データからユーザによって入力されたキーワードに対応する部分を検索する音声検索装置であって、第2音声データを用いて、音響特徴を示す音響モデル及び言語特徴を示す言語モデルを生成する音響・言語モデル生成部と、前記第2音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第1サブワード列に変換する第1サブワード列変換部と、前記キーワードとして指定される可能性のある想定キーワードを、サブワードを単位する第2サブワード列に変換する第2サブワード列変換部と、前記第1サブワード列と前記第2サブワード列とを比較し、前記第1サブワード列の前記第2サブワード列に対する誤認識傾向を算出する誤認識傾向算出部と、前記第1音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第3サブワード列に変換する第3サブワード列変換部と、前記キーワードを、サブワードを単位とする第4サブワード列に変換する第4サブワード列変換部と、前記第1音声データから、前記キーワードに対応する部分を検索候補として検索する候補検索部と、前記誤認識傾向算出部によって算出された誤認識傾向に基づいて、前記候補検索部によって検索された検索候補の第3サブワード列の前記第4サブワード列に対するサブワードスコアに基づくスコアを算出するスコア算出部と、前記スコア算出部によって算出されたスコアと前記スコアに対応する検索候補とを含む検索結果を出力する検索結果出力部と、を備えることを特徴とする。
本発明の一態様よれば、検索キーワード毎のサブワードの誤認識傾向を事前に学習することによって、キーワードの検索精度を向上させることができる。
本発明の第1実施例の音声データ検索装置の構成図である。 本発明の第1実施例の音響モデル及び言語モデルのパラメータ設定処理のフローチャートである。 本発明の第1実施例のインデックステーブル生成処理のフローチャートである。 本発明の第1実施例の想定キーワードサブワード変換処理のフローチャートである。 本発明の第1実施例の想定キーワードサブワード変換処理のフローチャートである。 本発明の実施例の想定キーワードのサブワード列への変換の説明図である。 本発明の第1実施例のクエリサブワード列誤りテーブル学習部によるクエリサブワード列誤りテーブルの生成処理のフローチャートである。 本発明の第1実施例の想定キーワードサブワード列及び対応サブワード列の説明図である。 本発明の第1実施例の想定キーワードサブワード列と対応サブワード列とのアラインメントの説明図である。 本発明の第1実施例のサブワード誤り確率算出処理の具体的な説明図である。 本発明の第1実施例のクエリサブワード列誤りテーブルの説明図である。 本発明の第1実施例のjoint 2−Gramを用いて想定キーワードサブワード列と対応サブワード列とのサブワード誤り数を算出する処理の説明図である。 本発明の実施例のすべての想定キーワードを一つのクラスに割り当てた場合のクエリサブワード列誤りテーブルの説明図である。 本発明の第1実施例の候補検索部の処理のフローチャートである。 本発明の第1実施例の3−gram毎に分割されたキーワードサブワード列の説明図である。 本発明の第1実施例のサブワード列距離評価部の処理のフローチャートである。 本発明の第1の実施形態の検索結果統合部の処理を示すフローチャートである。 本発明の第1実施例の検索結果表示部の処理を示すフローチャートである。 本発明の第1実施例の検索画面の説明図である。 本発明の第2実施例の音声データ検索装置の構成図である。 本発明の第2実施例の検索結果統合部の処理を示すフローチャートである。 本発明の第3実施例の音声データ検索装置の構成図である。 本発明の第3実施例の検索画面の説明図である。 本発明の第3実施例の音素列誤りテーブル更新部の処理を示すフローチャートである。 本発明の第4実施例の音声データ検索システムの構成図である。 本発明の第4実施例の音声データのフォーマットの一例の説明図である。 一般的なコンテンツクラウドシステムの説明図である。 本発明の第5実施例のコンテンツクラウドシステムの説明図である。
以下、図面を参照しつつ、本発明を実施するための形態を説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略及び簡略化がなされている。又、各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略されている。
(第1実施例)
以下において、本発明の第1実施例について図1〜図19用いて説明する。
図1は、本発明の第1実施例の音声データ検索装置1の構成図である。
音声データ検索装置1は、想定キーワード毎の誤認識傾向を事前に算出する事前処理部と、入力されたキーワードに基づいて音声データを検索する検索処理部と、を備える。
具体的には、事前処理部は、学習用ラベル付き音声データ101、音響・言語モデル学習部102、音響モデル103、言語モデル104、音声認識部105、想定キーワード生成部106、クエリサブワード列誤りテーブル学習部107、クエリサブワード列誤りテーブル108、検索対象音声データ109、インデキシング部110、及びインデックステーブル111を有する。また、検索処理部は、キーワード入力部112、サブワード列変換部113、候補検索部114、サブワード列距離評価部115、検索結果統合部116、及び検索結果表示部117を有する。
なお、音響・言語モデル学習部102、音声認識部105、想定キーワード生成部106、クエリサブワード列誤りテーブル学習部107、インデキシング部110、サブワード列変換部113、候補検索部114、サブワード列距離評価部115、検索結果統合部116、及び検索結果表示部117は、音声データ検索装置1の図示しないCPUが図示しないメモリに記憶されたプログラムを実行することによって実現される。
まず、事前処理部について説明する。
学習用ラベル付き音声データ101には、発話内容を示すテキスト、及び音声波形等が格納される。発話内容を示すテキストは、例えば、テレビから抽出された音声トラック、読み上げ音声コーパス、及び通常の会話等を書き起こしたテキストであってもよい。また、学習用ラベル付き音声データ101には、発話者の識別情報(ID)、及び雑音の有無等を示す情報も格納されてもよい。
音響・言語モデル学習部102は、学習用ラベル付き音声データ101を用いて、音声特徴を表現した統計モデルのパラメータ及び言語特徴を表現した統計モデルのパラメータを設定する。音響モデル103には、音声特徴を表現した統計モデルのパラメータが格納される。言語モデル104には、言語特徴を表現した統計モデルのパラメータが格納される。
音声認識部105は、音響モデル103及び言語モデル104を参照し、学習用ラベル付き音声データ101を音声認識し、サブワード列(例えば、音声認識した音素列)を出力する。
想定キーワード生成部106は、検索キーワードとなり得る想定キーワードのサブワード列を出力する。例えば、想定キーワードは予め設定されているものとする。
クエリサブワード列誤りテーブル学習部107は、音声認識部105が出力した学習用ラベル付き音声データ101のサブワード列(以下、学習用サブワード列という)、学習用ラベル付き音声データ101に含まれる発話内容を示すテキスト、及び想定キーワード生成部106が出力した想定キーワードのサブワード列(以下、想定キーワードサブワード列という)を用いて、想定キーワード毎に、想定キーワードサブワード列に対する学習用サブワード列の誤認識傾向を数値化して、クエリサブワード列誤りテーブル108に記録する。
検索対象音声データ109は、検索対象となる音声データである。検索対象音声データ109は、例えば、テレビから抽出した音声データ、会議で録音された音声データ、及び電話回線の通話を録音した音声データ等である。なお、検索対象音声データ109は種類別に複数のファイルであってもよい。また、検索対象音声データ109は発話者の識別情報等の情報が付与されていてもよい。インデキシング部110は、検索対象音声データ109を音響モデル103及び言語モデル104を用いてサブワード列に変換する。そして、インデキシング部110は、検索対象音声データ109のサブワード列(以下、検索対象サブワード列)、検索対象音声データ109の音響尤度、検索対象音声データ109のサブワードによるN−gram索引、及びその他の情報を含むインデックステーブル111を生成し、生成したインデックステーブル111を図示しない記憶領域に記憶する。
次に、検索処理部について説明する。
キーワード入力部112は、ユーザによって入力されたキーワードを受け付ける。サブワード列変換部113は、キーワード入力部112によって受け付けられたキーワードをサブワード列(以下、キーワードサブワード列)に変換し、キーワードサブワード列を候補検索部114に出力する。
候補検索部114は、サブワード列変換部113が出力したキーワードサブワード列及びインデックステーブル111を参照し、検索対象音声データ109において、キーワードが発話されたらしい部分を検索候補として特定し、特定した検索候補をサブワード列距離評価部115に出力する。
サブワード列距離評価部115では、サブワード列変換部113が出力したキーワードサブワード列と候補検索部114が出力した各検索候補に対応するサブワード列(検索候補サブワード列)との距離(スコア)を、クエリサブワード列誤りテーブル108及び言語モデル104を参照して、算出する。そして、サブワード列距離評価部115は、検索候補及び算出したスコアを検索結果統合部116に出力する。
検索結果統合部116は、サブワード列距離評価部115が出力した検索候補を、検索候補のスコアに基づいてソートし、検索結果として検索結果表示部117に出力する。検索結果表示部117は、検索結果統合部116が出力した検索候補のファイル名、時刻、及びスコアの表示領域を含み、検索候補をスコア順にソートした検索結果表示画面を生成し、生成した検索結果表示画面を出力デバイスに送信する。
なお、図1では、音声データ検索装置1の各構成部が同一の計算機に実装されるものとして説明したが、各構成部が他の計算機に実装されてもよい。例えば、音声データ検索装置1は、端末とサーバとを備えるシステムによって構成されており、端末は、キーワード入力部112及び検索結果表示部117を有し、サーバは、他の構成部を有してもよい。
また、事前処理部と検索処理部とが別々の計算機で実装されてもよい。この場合、検索対象音声データ109が外部のストレージに保存され、インデックステーブル111、クエリサブワード列誤りテーブル108、音響モデル103、及び言語モデル104が事前に別の計算機で生成され、生成されたインデックステーブル111、クエリサブワード列誤りテーブル108、音響モデル103、及び言語モデル104が検索処理を実行する計算機に複製される。
以下、各処理部によって実行される処理について説明する。
まず、音声データ検索装置1は、音声データを認識可能にするために音響・言語モデル学習部102で、音声特徴を表現した統計モデル(音響モデル)及び言語特徴を表現した統計モデル(言語モデル)のパラメータ設定処理を実行する。
図2は、本発明の第1実施例の音響モデル及び言語モデルのパラメータ設定処理のフローチャートである。
ここで、音声データを認識する問題は、例えば事後確率最大化探索問題(Maximum A Posteriori Problem)に帰着する。この事後確率最大化探索問題では、大量の学習用の音声データから学習された音響モデル及び言語モデルに基づいて音声データの認識結果である解が求められる。
本処理では、音響・言語モデル学習部102は、学習用ラベル付き音声データ101を用いて、音響モデル及び言語モデルのパラメータを設定し(201)、処理を終了する。音響モデルのパラメータの設定には、例えば、隠れマルコフモデル(Hidden Markov Model:HMM)が採用可能である。また、言語モデルのパラメータの設定には、例えば、N−Gramが採用可能である。音声データの認識技術、並びに、音響モデル及び言語モデルのパラメータの設定技術は広く知られた技術であるので、説明を省略する。
音声データ検索装置1は、インデキシング部110で、検索対象音声データ109を検索可能にするためにインデックステーブル111を生成するインデックステーブル生成処理を実行する。
図3は、本発明の第1実施例のインデックステーブル生成処理のフローチャートである。
まず、インデキシング部110は、検索対象音声データ109を構成する複数の音声ファイルの音声データを適当な長さに分割する(301)。例えば、インデキシング部110は、検索対象音声データ109の音声パワーが所定の閾値θp以下である時間が所定の閾値θt以上連続した場合、この位置で検索対象音声データ109を分割する。なお、分割された各音声データ(音声区間)には、分割元のファイルを示す情報、並びに分割された音声区間の開始時刻及び終了時刻を示す情報が付与される。
なお、検索対象音声データ109の分割方法には、音声パワーによる分割方法の他に、例えば、ゼロ交差数を用いる方法、GMM(Gaussian Mixture Model)を用いる方法、及び音声認識技術を用いる方法などの様々な方法が広く知られている。本実施例では、これらのどの方法を用いてもよい。
次に、インデキシング部110は、ステップ301の処理で分割されたすべての音声区間に対してサブワード認識処理を実行し、ステップ301の処理で分割されたすべての音声区間をサブワード列に変換する(302及び303)。具体的には、インデキシング部110は、ステップ301の処理で分割された音声区間を音節又は音素単位でサブワードに変換し、サブワード列を生成する。インデキシング部110は、変換されたサブワード列(サブワード認識結果)と、当該サブワード列に対応する時刻をインデックステーブル111に登録する。
また、インデキシング部110は、検索を高速化する目的でN−Gramインデックス情報をインデックステーブル111に登録し(304)、処理を終了する。N−Gramインデックス情報は、通常のテキスト検索技術でよく知られた方法であるので説明を省略する。ステップ304の処理は必ずしも実行されなくてもよい。
インデックステーブル生成処理が完了すると、検索対象音声データ109のキーワード検索が可能となる。本実施例では、いわゆる1−ベストのサブワード認識結果のみがインデックステーブル111に登録される前提で説明するが、複数のサブワード認識結果がN−ベスト形式又はネットワーク形式でインデックステーブル111に登録されてもよい。
なお、インデックステーブル生成処理は、例えば、初回動作時に一回実行されるだけでよい。
音声データ検索装置1は、想定キーワード生成部106で、想定キーワードをサブワード列に変換する想定キーワードサブワード列変換処理を実行する。なお、想定キーワード生成部106は、図4に示す処理及び図5に示す処理を採用可能である。
図4は、本発明の第1実施例の想定キーワードサブワード変換処理のフローチャートである。
想定キーワード生成部106は、予め設定されたすべての想定キーワードをサブワード列に変換し(401、402)、処理を終了する。
例えば、想定キーワード「research」のサブワード列への変換について図6を用いて説明する。図6は、本発明の実施例の想定キーワードのサブワード列への変換の説明図である。
サブワード列への変換処理は、予め設定された変換ルール及び一般的な辞書に基づいて実行される。例えば、変換ルールが、「re」が「r−i」に変換され、「search」が「s−3`−tS」に変換されるように設定されているとすると、「research」は「r−i−s−3`−tS」に変換される。
なお、変換ルール及び一般的な辞書に基づいて自動的にサブワード列に変換されない場合、人手で変換ルール及び辞書が追加されることによって、所定の単語がサブワード列へ変換される。
図5は、本発明の第1実施例の想定キーワードサブワード変換処理のフローチャートである。
想定キーワード生成部106は、予め設定されたすべての想定キーワードをサブワード列に変換し、また、音声データ検索装置1に記憶された関連語辞書を参照して、想定キーワードに対応付けられた関連語を想定キーワードに追加し、追加した想定キーワードもサブワード列に変換する(501,502)。これによって、検索される可能性のあるキーワードを拡張することができる。
想定キーワード生成部106は、大量のテキストデータから統計的に各単語の関連度を算出し、予め設定された想定キーワードの関連度の高い上位N件を関連語としてもよい。なお、大量のテキストデータから統計的に各単語の関連度を算出する方法は、自然言語処理分野において広く研究されており、任意の方法を採用することができる。
図7は、本発明の第1実施例のクエリサブワード列誤りテーブル学習部107によるクエリサブワード列誤りテーブル108の生成処理のフローチャートである。
クエリサブワード列誤りテーブル学習部107は、想定キーワード生成部106によって想定キーワードが変換された想定キーワードサブワード列、及び、音声認識部105によって学習用ラベル付き音声データ101が変換された学習用サブワード列が入力された場合、当該処理を実行する。
まず、クエリサブワード列誤りテーブル学習部107は、学習用サブワード列から各想定キーワードサブワード列の出現位置を検索する。学習用サブワード列の検索された出現位置から始まる想定キーワードサブワード列に対応するサブワード列を対応サブワード列という。そして、クエリサブワード列誤りテーブル学習部107は、各想定キーワードサブワード列と対応サブワード列との編集距離が最小となるようにアライメントを設定する(701、702)。
編集距離とは、一方の語句を他方の語句に一致させるために、文字の挿入、削除、及び置換が何回必要かを示すものである。クエリサブワード列誤りテーブル学習部107は、想定キーワードサブワード列と対応サブワード列との編集距離の算出に動的計画法を利用してもよい。クエリサブワード列誤りテーブル学習部107は、動的計画法を利用することによって、想定キーワードサブワード列と対応サブワード列との編集距離を効率的に算出することができる。なお、動的計画法については、広く知られた技術であるので説明を省略する。
次に、クエリサブワード列誤りテーブル学習部107は、想定キーワード毎に、ステップ702の処理で設定されたアラインメントに基づいてサブワード誤り数をカウントする(703)。ステップ701〜703の処理は図8及び図9で詳細を説明する。
次に、クエリサブワード列誤りテーブル学習部107は、ステップ703の処理でカウントされたサブワード誤り数に基づいてサブワード誤り確率を想定キーワード毎に算出し、クエリサブワード列誤りテーブル108に登録し(704)、処理を終了する。ステップ704の処理は図10〜図13で詳細を説明する。
図8は、本発明の第1実施例の想定キーワードサブワード列及び対応サブワード列の説明図である。
図8では、音声認識部105が出力する学習サブワード列(サブワード認識結果)が1−ベスト認識結果である場合を例について説明するが、学習サブワード列がN−ベスト認識結果である場合についても本実施例を適用可能である。
図8の正解音素列「ris3`tS」は想定キーワードサブワード列であり、音声認識結果1〜3は対応サブワード列である。音声認識結果1では想定キーワードサブワード列の「i」が「I」に置換され、音声認識結果2では想定キーワードサブワード列の「tS」が削除され、音声認識結果3では「t」及び「r」が挿入され、想定キーワードサブワード列の「3`」が「E」に置換されている。
図9は、本発明の第1実施例の想定キーワードサブワード列と対応サブワード列とのアラインメントの説明図である。
図9では、想定キーワードサブワード列「ris3`tS」と図8に示す音声認識結果1である対応サブワード列とのアラインメントについて説明する。
図7で説明したように、想定キーワードサブワード列と対応サブワード列とのアラインメントは、編集距離が最小となるように設定される。図9では、想定キーワードサブワード列の「r」と音声認識結果1の「r」とにアラインメントが設定され、「i」と「I」とにアラインメントが設定され、「s」と「s」とにアラインメントが設定され、「−」と「t」とにアラインメントが設定され、「3`」と「3`」とにアラインメントが設定され、「tS」と「tS」とにアラインメントが設定される。
そして、クエリサブワード列誤りテーブル学習部107は、設定されたアライメントのサブワード同士を比較して、サブワード同士が一致しないアライメントの数をサブワード誤り回数としてカウントする。
図9では、「i」と「I」とのアラインメントが、想定キーワードサブワード列の「i」が「I」に誤認識されたことを示し、「−」と「t」とのアラインメントは「t」が誤って挿入されたことを示す。このため、図9に示す例では、サブワード誤り回数は2回とカウントされる。
次に、クエリサブワード列誤りテーブル学習部107は、ステップ704の処理でサブワード誤り確率を算出する。このサブワード誤り確率算出処理について図10〜図13用いて説明する。
まず、ステップ704の処理の概略について説明する。
クエリサブワード列誤りテーブル学習部107が最尤推定法を利用してサブワード誤り確率を算出する場合を例に説明する。ある想定キーワードサブワード列のある一つのサブワード「a」が対応サブワード列でサブワード「b」に誤認識されるサブワード誤り確率の算出方法について説明する。まず、クエリサブワード列誤りテーブル学習部107は、ある想定キーワードサブワード列中にサブワード「a」が出現する回数に当該想定キーワードサブワード列の数を乗算して、サブワード「a」の出現回数「Na」を算出する。また、クエリサブワード列誤りテーブル学習部107は、想定キーワードサブワード列のサブワード「a」が対応サブワード列でサブワード「b」に誤認識された回数「Nb」を算出する。そして、クエリサブワード列誤りテーブル学習部107は、Nb/Naを計算し、サブワード誤り確率を算出する。
図10は、本発明の第1実施例のサブワード誤り確率算出処理の具体的な説明図である。
図10では、想定キーワードサブワード列1001は、「r−i−s−3`−tS」及び「f−O−r−k−{−s−t」である。そして、各想定キーワードサブワード列1001の対応サブワード列におけるサブワード「s」の誤認識パターンが図10に示す1002に登録される。
従来の方法では、サブワード誤り確率は、図10に示す全体誤り確率1003に示すように、想定キーワードサブワード列に関係なく、サブワード「s」があるサブワードに誤認識された全体での回数を全体でのサブワード「s」の出現回数で除算することによって算出される。図10における「s」の全体での出現回数は「19」であるので、全体誤り確率1003を算出するための分母は19となる。例えば、サブワード「s」がサブワード「I」に誤認識される回数は、想定キーワードサブワード列「r−i−s−3`−tS」で4回、想定キーワードサブワード列「f−O−r−k−{−s−t」で1回であるので、サブワード「s」がサブワード「I」に誤認識される全体のサブワード誤り確率は、「5/19」となる。
一方、本願発明では、上述したように、サブワード誤り確率は想定キーワード毎に算出される。図10では、想定キーワードサブワード列1001「r−i−s−3`−tS」ではサブワード「s」の出現回数は9回であり、サブワード「s」がサブワード「I」に誤認識された回数は4回であるので、1004に示すように、サブワード「s」をサブワード「I」に誤る確率は4/9となる。また、想定キーワードサブワード列1001「f−O−r−k−{−s−t」ではサブワード「s」の出現回数は10回であり、サブワード「s」がサブワード「I」に誤認識される回数は1回であるので、1004に示すように、サブワード「s」をサブワード「I」に誤る確率は1/10となる。
このように、本発明では、サブワード誤り確率を想定キーワード毎に算出する点がポイントとなる。語句毎にサブワードの誤認識の傾向が違うので、想定キーワード毎にサブワード誤り確率を算出することによって、この誤認識の傾向の違いを正確に算出することができる。
なお、図10では、学習サブワード列が1−ベスト認識結果である場合を列に説明したが、学習サブワード列がN−ベスト認識結果である場合であっても、クエリサブワード列誤りテーブル学習部107は同じ手順で想定キーワード毎のサブワード誤り確率を算出可能である。この場合、クエリサブワード列誤りテーブル学習部107が扱うデータ量はN倍となる。
なお、本実施例では、クエリサブワード列誤りテーブル学習部107は、図10の全体誤り確率1003を算出する必要はないが、当該全体誤り確率1003を算出し、クエリサブワード列誤りテーブル108に登録してもよい。
図11は、本発明の第1実施例のクエリサブワード列誤りテーブル108の説明図である。
クエリサブワード列誤りテーブル108には、想定キーワードサブワード列毎に、想定キーワードサブワード列を構成する各サブワードが他のサブワードに誤認識されるサブワード誤り確率が登録される。
クエリサブワード列誤りテーブル108は、想定キーワードサブワード列1101、想定キーワードサブワード1102、及びサブワード1103を含む。
想定キーワードサブワード列1101には、想定キーワードサブワード列が登録される。想定キーワードサブワード1102には、想定キーワードサブワード列を構成するサブワードが登録される。サブワード1103には、すべてのサブワードが登録される。ある想定キーワードサブワード1102の行と、あるサブワード1103の列とに対応する項目には、ある想定キーワードサブワード1102があるサブワード1103に誤認識されるサブワード誤り確率が登録される。例えば、想定キーワードサブワード列「ris3`tS」のサブワード「r」がサブワード「m」に誤認識されるサブワード誤り確率は0.02である。
次に、クエリサブワード列誤りテーブル学習部107が、joint N−Gramを用いてサブワード誤り数をカウントする方法について図12を用いて説明する。
図12は、本発明の第1実施例のjoint 2−Gramを用いて想定キーワードサブワード列と対応サブワード列とのサブワード誤り数を算出する処理の説明図である。
クエリサブワード列誤りテーブル学習部107は、joint N−Gramを用いてサブワード誤り数を算出することによって、想定キーワードサブワード列と対応サブワード列との間で一致するか否かを判定するサブワードと当該サブワードのN−1個前のサブワードとの関係を考慮してサブワード誤り数を算出することができる。すなわち、クエリサブワード列誤りテーブル学習部107は、想定キーワードサブワード列のサブワードのうち一致するか否かを判定する着目サブワード、想定キーワードサブワード列の当該サブワードのN−1個前までのサブワード、及び、対応サブワード列のN−1個前までのサブワードとアライメントが設定されたサブワードが与えられた場合、対応サブワード列の着目サブワードとアライメントが設定されたサブワードがどのサブワードに誤って認識されたかをカウントする。
例えば、joint 2−Gramを用いる場合について説明する。図12の「r、i、r→I」は、想定キーワードサブワード列の着目サブワード「i」、想定キーワードサブワード列の着目サブワードの一つ前のサブワード「r」、及び、対応サブワード列のサブワード「r」が与えられた場合、着目サブワード「i」がサブワード「I」に誤認識されたことを示す。
クエリサブワード列誤りテーブル学習部107は、図12に示す「r、i、r→I」のようなサブワード遷移を記憶し、サブワード誤り数をカウントする。
次に、クエリサブワード列誤りテーブル学習部107は、サブワード遷移に基づいてサブワード誤り確率を算出する。具体的には、クエリサブワード列誤りテーブル学習部107は、サブワード遷移「r、i、r→I」のサブワード誤り確率は、想定キーワードサブワード列「ris3`tS」の対応サブワード列から取得されたサブワード遷移から「r、i、r」の組が出現する回数Naとし、これらの組の中で、想定キーワードサブワード列の着目サブワード「i」とアライメントが取られたサブワードが「I」となる回数Nbとし、Nb/Naを計算することによって、サブワード誤り確率を算出することができる。
なお、joint N−Gramを用いるとサブワード遷移が細分化されすぎてしまい、クエリサブワード列誤りテーブル学習部107が想定キーワード毎にサブワード誤り確率を算出しても、信頼性の高い確率が算出されるために十分な数のデータが揃わない可能性もある。この場合、クエリサブワード列誤りテーブル学習部107は、想定キーワードをクラスタリングし、同じクラス同士でサブワード遷移を共有して、サブワード誤り確率を算出してもよい。クエリサブワード列誤りテーブル学習部107は、想定キーワードサブワード列同士の編集距離に基づいて想定キーワードをクラスタリングしてもよいし、k−means法等を用いて想定キーワードをクラスタリングしてもよい。
編集距離に基づくクラスタリングでは、想定キーワードA内に想定キーワードBが含まれていれば、想定キーワードAのサブワード列内の想定キーワードBのサブワード列に対応するサブワードと、想定キーワードBのサブワードとの編集距離が近いので、想定キーワードA内の想定キーワードBに対応する部分と想定キーワードBとは同じクラスに割り当てられる。例えば、想定キーワード「research」と想定キーワード「search」とでは、「search」が同じクラスに割り当てられる。そして、クエリサブワード列誤りテーブル学習部107は、同じクラス内におけるサブワード遷移に基づいてサブワード誤り確率を算出する。なお、k−means法を用いたクラスタリングについてはよく知られているので説明を省略する。
データ不足に対応する方法として、joint N−Gramを用いて算出するサブワード誤り確率をjoint (N−1)−Gramを用いて算出したサブワード誤り確率に代用する方法、及びサブワード遷移が出現しないサブワード誤り確率を他のサブワード誤り確率に基づき近似する方法がある。これらの方法は音声認識分野の言語モデル学習で広く研究されているので、具体的な説明を省略する。
図13は、本発明の実施例のすべての想定キーワードを一つのクラスに割り当てた場合のクエリサブワード列誤りテーブル108の説明図である。
クエリサブワード列誤りテーブル108は、サブワード遷移1301及び認識結果1302を含む。
サブワード遷移1301には、想定キーワードサブワード列の着目サブワードと、想定キーワードサブワード列の着目サブワードの一つ目のサブワードと、対応サブワード列の着目サブワードとの組が登録される。認識結果1302には、想定キーワードサブワード列の着目サブワードの対応サブワード列における認識結果が登録される。あるサブワード遷移1301とある認識結果1302とに対応する項目には、あるサブワード遷移1301において想定キーワードサブワード列の着目サブワードがある認識結果1302に認識されるサブワード誤り確率が登録される。
すべての想定キーワードを一つのクラスに割り当てた場合であっても、一般的なサブワード誤り確率を算出することにはならない。なぜなら、想定キーワードサブワード列に対応する対応サブワード列からサブワード誤り確率が算出される、つまり、想定キーワードに関するサブワード誤り確率を算出するという制限があるので、想定キーワードの誤認識の傾向が算出されるためである。
なお、図10では、一つのサブワード単位で算出されたサブワード誤り確率を説明したが、このサブワード誤り確率は、換言すれば、joint 1−Gramによるサブワード誤り確率である。
また、図13に示すクエリサブワード列誤りテーブル108には、図10に示す全体誤り確率1003が登録されてもよい。
クエリサブワード列誤りテーブル学習部107によってクエリサブワード列誤りテーブル108が生成され、インデキシング部110によってインデックステーブル111が生成されると、音声データ検索装置1はユーザからキーワードの入力を受付可能となる。
以下、音声データ検索装置1の検索処理部について説明する。
まず、図1に示すキーワード入力部112は、ユーザによって入力されたキーワードを受け付ける。キーワード入力部112は、入力デバイス(例えば、キーボード及びタッチパッドなど)を介してキーワードを直接受け付けてもよいし、他の計算機で入力されたキーワードをネットワークを介して受け付けてもよい。また、キーワード入力部112は、音声によって入力されたキーワードを受け付け、音声認識を用いてキーワード文字列に変換してもよい。
キーワード入力部112は、受け付けたキーワードをサブワード列変換部113に出力する。
サブワード列変換部113は、キーワード入力部112から入力されたキーワードをサブワード列(キーワードサブワード列)に変換し、候補検索部114に出力する。なお、サブワード列変換部113によるキーワードのサブワード列への変換方法は、想定キーワード生成部106による想定キーワードのサブワード列への変換方法と同じであるので、説明を省略する。
図14は、本発明の第1実施例の候補検索部114の処理のフローチャートである。
候補検索部114は、サブワード列変換部113からキーワードサブワード列が入力されると、インデックステーブル111を参照し、検索対象音声データ109からキーワードの発話箇所の候補(検索候補)を検索し(1401)、処理を終了する。候補検索部114は、例えば、オーバーラップを許容して、キーワードサブワード列をN−gram毎に分割し、分割したN―gramに対応するインデックステーブル111におけるN−gramインデックスを検索候補とする。
図15は、本発明の第1実施例の3−gram毎に分割されたキーワードサブワード列の説明図である。
キーワードサブワード列「r i s 3` tS」は、「r i s」、「i s 3`」、及び「s 3` tS」のように、3−gram毎に分割される。インデックステーブル111のN−gramインデックスについては、文書検索の分野で広く一般的に用いられている技術であるので、説明を省略する。
図16は、本発明の第1実施例のサブワード列距離評価部115の処理のフローチャートである。
サブワード列距離評価部115は、クエリサブワード列誤りテーブル108を参照し、キーワードサブワード列と候補検索部114が検索したすべての検索候補に対応するサブワード列(検索候補サブワード列)との距離を算出し(1601、l602)、処理を終了する。
図11に示すクエリサブワード列誤りテーブル108を用いる距離の算出方法について具体的に説明する。
まず、サブワード列距離評価部115は、キーワードサブワード列と検索候補サブワード列との間で、編集距離が最小となるようにアライメントを設定する。また、サブワード列距離評価部115は、クエリサブワード列誤りテーブル108に登録されたレコードから、キーワードサブワード列に対応するレコードを取得する。そして、サブワード列距離評価部115は、キーワードサブワード列から処理対象の一つのサブワードを選択し、選択したサブワード(第1サブワード)にアライメントが設定された検索候補サブワード列のサブワード(第2サブワード)と、選択したサブワードとが一致するか否かを判定する。第1サブワードと第2サブワードが一致する場合、サブワード列距離評価部115はスコアに「1」を加算する。
一方、第1サブワードと第2サブワードとが一致しない場合、サブワード列距離評価部115は、取得したクエリサブワード列誤りテーブル108のレコードから第1サブワードの行と、第2サブワードに対応する列とに対応する項目からサブワード誤り確率を取得する。そして、サブワード列距離評価部115は、取得したサブワード誤り確率をスコアに加算する。
そして、サブワード列距離評価部115は、キーワードサブワード列のすべてのサブワードに対して処理が実行された場合には処理を終了し、キーワードサブワード列のすべてのサブワードに対して処理が実行されていない場合、処理が未実行のサブワードを処理対象のサブワードに選択し、当該処理対象のサブワードに処理を実行する。
つまり、本処理では、第1サブワードと第2サブワードとが一致しない場合であっても、第1サブワードが第2サブワードに誤認識される確率が高ければ、これらのサブワードは本来一致する可能性が高いと判断でき、また、第1サブワードが第2サブワードに誤認識される確率が低ければ、これらのサブワードは本来一致する可能性が低く、別のサブワードである可能性が高いと判断できる。この観点から、スコアが高い検索候補ほどキーワードと一致する可能性が高いと言うことができる。
上述した例では、スコアが高い検索候補ほどキーワードと一致する可能性が高いことを示す例について説明したが、スコアが低い検索候補ほどキーワードと一致する可能性が高いことを示すようにしてもよい。具体的には、第1サブワードと第2サブワードが一致する場合、サブワード列距離評価部115はスコアをそのままにする。一方、第1サブワードと第2サブワードとが一致しない場合、サブワード列距離評価部115は、これらのサブワードに対応するサブワード誤り確率を「1」から減算した値をスコアに加算する。これによって、スコアが低い検索候補ほどキーワードと一致する可能性が高いことを示すようになる。
なお、図13に示すクエリサブワード列誤りテーブル108を用いる場合には、第1サブワード、当該第1サブワードの一つ前のサブワード、及び第2サブワードの一つ前のサブワードを含むサブワード遷移1301の行と、第2サブワードと一致する認識結果1302の列とに対応する項目に登録されたサブワード誤り確率を取得する処理が異なり、他の処理は上述した図11にクエリサブワード列誤りテーブル108を用いる場合と同じ処理である。
また、サブワード列距離評価部115は、キーワードサブワード列と検索候補サブワード列とのスコアの算出に、端点フリーのビタビアルゴリズム又は動的計画法を用いてもよい。なお、端点フリーのビタビアルゴリズム及び動的計画法の詳細については、説明を省略する。
キーワードサブワード列がクエリサブワード列誤りテーブル108に登録されていない場合、サブワード列距離評価部115は、キーワード全体を一つのクラスとし、1サブワード誤り確率、又はjoint 1,2,3−gramに基づくサブワード誤り確率を算出し、算出したサブワード誤り確率をスコアの算出に用いてもよい。音声認識分野では、未知の単語の出現確率をN−gramや既知のサブワード誤り確率で近似する方法は広く知られているので、説明を省略する。
また、サブワード列距離評価部115は、キーワードサブワード列の出現確率と候補区間のサブワード列出現確率とをN−gram確率で近似し、近似したN−gram確率を事前確率及び正規化項として制約を設定し、ビタビアルゴリズムを用いてスコアを算出してもよい。また、N−ベスト認識結果のように一つの区間に複数の認識結果が存在する場合、サブワード列距離評価部115は、各認識結果に対してスコアを算出し、算出したスコアの重み付き和を当該区間のスコアとする。以上により、各検索候補に対して、距離によるスコアが付与される。
図17は、本発明の第1の実施形態の検索結果統合部116の処理を示すフローチャートである。サブワード列距離評価部115で算出された各検索候補のサブワード列のスコアに基づいて、検索候補をキーワードの一致度順にソートした検索結果を検索結果表示部117に出力し(1701)、処理を終了する。
ステップ1701の処理には、広く知られたクイックソート又は基数ソート等を用いることができる。なお、検索結果は、各検索候補のファイル名、時刻、及びスコアを含む。検索結果統合部116は、検索結果を他のアプリケーションに出力してもよいし、他の計算機に出力してもよい。
図18は、本発明の第1実施例の検索結果表示部117の処理を示すフローチャートである。
検索結果表示部117は、検索結果統合部116から入力された検索結果をキーワードとの一致度が高い順に表示する検索画面1900(図19参照)を生成し、生成した検索画面を図示しない表示装置に表示し(1801)、処理を終了する。
図19は、本発明の第1実施例の検索画面1900の説明図である。
検索画面1900は、ファイル名1901、時刻1902、スコア1903、及び再生ボタン1904を含む。
ファイル名1901には検索候補のファイルの名称が表示され、時刻1902にはファイルにおいて検索候補が出現する時刻が表示され、スコア1903には検索候補のスコアが表示される。再生ボタン1904が押下操作されると、音声データ検索装置1は、押下操作された再生ボタン1904に対応する時刻1902に表示された時刻付近の音声データを再生する。ユーザは、再生された音声データを実際に聞くことによって、検索候補付近の音声の内容を確認することができる。また、検索画面1900は、表示装置ではなく他の出力装置(プリンタ又は記憶装置等)及び他の計算機に出力されてもよい。
以上説明したように、本実施例の音声データ検索装置1は、想定キーワード毎にサブワード誤認識傾向を事前に学習することによって、語句毎の誤認識傾向を考慮してサブワードキーワードのサブワード列と検索候補のサブワード列とのスコアを算出でき、音声データ検索の精度を向上することができる。
(第2実施例)
以下において、本発明の第2実施例を図20及び図21を用いて説明する。
本実施例の音声データ検索装置1は、キーワードと検索候補との音響に関するスコア(音響スコア)を算出し、算出した音響スコアと第1実施例の図16で算出したサブワードに関するスコア(サブワードスコア)とに基づいて、検索対象音声データ109からキーワードを検索する。これによって、音声データ検索装置1は検索精度をさらに向上させることができる。
図20は、本発明の第2実施例の音声データ検索装置1の構成図である。
図20に示す音声データ検索装置1の構成のうち、第1実施例の図1に示す音声データ検索装置1の構成と同じ構成は同じ符号を付与し、説明を省略する。
本実施例の音声データ検索装置1は、第1実施例の音声データ検索装置1の他に音響距離評価部2016を備え、検索結果統合部2017が第1実施例の検索結果統合部116と異なる。
音響距離評価部2016は、音響モデル103及び言語モデル104を参照し、キーワードと検索候補との音響的な距離(近さ)を示す音響スコアを算出し、算出した音響スコアを検索結果統合部2017に出力する。音響スコアは、例えば、キーワードの音響尤度(又は出現確率)と検索候補の音響尤度(出現確率)との比を用いて表現できる。音響スコアの算出法は、各種方法を用いることができるため、説明を省略する。
検索結果統合部2017は、サブワード列距離評価部115によって算出されたサブワードスコア及び音響距離評価部2106によって算出された音響スコアを統合した検索スコアを算出し、検索スコアに基づいて検索候補をキーワードの一致度順にソートした検索結果を検索結果表示部117に出力する。なお、検索結果統合部2017の詳細は図21で説明する。
図21は、本発明の第2実施例の検索結果統合部2107の処理を示すフローチャートである。検索結果統合部2107の処理のうち、図17に示す検索結果統合部116と同じ処理は同じ符号を付与し、説明を省略する。
検索結果統合部2107は、サブワード列距離評価部115によって算出されたサブワードスコアと音響距離評価部2016によって算出された音響スコアとに重み付けをして加算することによって、サブワードスコアと音響スコアとを統合した検索スコアを算出する(2101)。
例えば、検索スコアは、検索結果統合部2107が式1を計算することによって算出される。
S=Aw+B(1−w)・・・(式1)
なお、サブワードスコアをAとし、音響スコアをBとし、検索スコアをSとし、重み付け係数をwとする。重み付け係数は予め設定された値である。
また、検索対象音声データ109の音声認識結果が、N−ベスト認識結果のように一区間に複数存在する場合は、それぞれの認識結果についてサブワードスコアと音響スコアとを重み付けて加算して検索スコアを算出する。
音響スコアは、検索候補の音響尤度(又は出現確率)を用いて算出されるため、検索候補のサブワード列の出現確率とみることができる。サブワードスコアは、二つのサブワード間の距離を測ることができるが、サブワード列の出現確率を考慮していない。
例えば、二つの検索候補A及びBのサブワード列とキーワードサブワード列とのサブワードスコアが両方とも同じ値であった場合を考える。この場合、検索候補Aのサブワード列に認識される可能性(つまり、検索候補Aのサブワード列の出現確率)が非常に小さく、検索候補Bのサブワード列に認識される可能性(つまり、検索候補Bのサブワード列の出現確率)が高ければ、検索候補Aは誤認識された可能性が高い。このため、検索候補A及びBのソート順は、検索候補Aを上位にするより、検索候補Bを上位にしたほうが、検索精度が向上する可能性は高い。
また、音声データ検索装置1は、音響スコアのみを用いて検索候補をソートすると、クエリサブワード列誤りテーブル108を参照することによって、誤認識傾向を考慮することができない。
本実施例の音声データ検索装置1は、音響スコア及びサブワードスコアに基づいて検索候補をソートするため、検索候補の出現確率及び誤認識傾向を考慮して検索候補をソートすることが可能であり、検索精度を向上させることができる。
(第3実施例)
以下において、本発明の第3実施例を図22〜図24を用いて説明する。
本実施例の音声データ検索装置1は、想定キーワード毎のサブワード誤認識傾向を事前に学習し、当該サブワード誤認識傾向を利用して検索対象音声データ109からキーワードを検索するだけでなく、検索候補が正しいか否かの指定をユーザから受け付け、正しいと指定された検索候補のサブワード列とキーワードサブワード列とを比較して誤認識傾向を算出し、算出した誤認識傾向をクエリサブワード列誤りテーブル108に登録する。これによって、誤認識傾向がさらに正確になり、検索精度を向上させることができる。
図22は、本発明の第3実施例の音声データ検索装置1の構成図である。
図22に示す音声データ検索装置1の構成のうち、第1実施例の図1に示す音声データ検索装置1の構成と同じ構成は同じ符号を付与し、説明を省略する。
本実施例の音声データ検索装置1は、検索結果表示部117の代わりに検索結果表示訂正部2217を備え、第1実施例の音声データ検索装置1の構成の他に音素列誤りテーブル更新部2218を備える。
検索結果表示訂正部2217は、検索結果表示部117の機能の他に、検索候補がキーワードと一致するか否かのユーザによる判定を受け付けるインターフェースを備え、各検索候補がキーワードと一致するか否かのユーザによる判定を示すラベルを各検索候補に付与する。
音素列誤りテーブル更新部2218は、キーワードと一致すると判定された検索候補のサブワード列とキーワードサブワード列との間でサブワード誤り確率を算出し、算出したサブワード誤り確率をクエリサブワード列誤りテーブル108に登録する。音素列誤りテーブル更新部2218の詳細は図24で説明する。
図23は、本発明の第3実施例の検索画面2300の説明図である。
検索画面2300は、検索結果表示訂正部2217によって表示される。検索画面2300の構成うち、図19に示す検索画面1900と同じ構成は同じ符号を付与し、説明を省略する。
検索画面2300は、ファイル名1901、時刻1902、スコア1903、再生ボタン1904、及び正誤判定ボタン2301を含む。
正誤判定ボタン2301は、検索候補がキーワードと一致することを示す第1ボタンと、検索候補がキーワードと一致しないことを示す第2ボタンとを含む。ユーザは、再生ボタン1904を押下操作して、検索候補に対応する音声データを再生した後、当該検索候補がキーワードと一致する場合、第1ボタンを押下操作する。一方、ユーザは、検索候補がキーワードと一致しない場合、第2ボタンを押下操作する。なお、検索結果表示訂正部2217は、検索画面2300においてユーザの操作を一定時間受け付けなければ、ユーザによる検索候補がキーワードに一致するか否かの判定が終了したとみなし、ユーザの判定結果をラベルとして検索候補に付与し、ラベルを付与した検索候補を音素列誤りテーブル更新部2218に出力する。
図24は、本発明の第3実施例の音素列誤りテーブル更新部2218の処理を示すフローチャートである。
音素列誤りテーブル更新部2218は、ラベルが付与された検索候補が検索結果表示訂正部2217から入力された場合、ラベルがキーワードと一致することを示すすべての検索候補のサブワード列(検索候補サブワード列)に対して、キーワードのサブワード列(キーワードサブワード列)と検索候補サブワード列との編集距離が最小となるように、アライメントを設定する(2401、2402)。
次に、音素列誤りテーブル更新部2218は、クエリサブワード列誤りテーブル108のフォーマットに従って、サブワード又はjoint N−gramの組合せに従って、サブワード誤り数をカウントする(2403)。ステップ2403の処理は、図7に示すクエリサブワード列誤りテーブル学習部107によるステップ703の処理と同じなので、説明を省略する。
次に、音素列誤りテーブル更新部2218は、ステップ2403の処理でカウントしたサブワード誤り数に基づいてサブワード誤り確率を算出し、算出したサブワード誤り確率に基づいてクエリサブワード列誤りテーブル108の該当箇所のサブワード誤り確率を更新し(2404)、処理を終了する。
MAP推定に基づくクエリサブワード列誤りテーブル108のサブワード誤り確率の更新方法について具体的に説明する。
例えば、キーワードサブワード列に含まれるあるサブワード「r」が検索候補サブワード列のサブワード「s」に誤認識されるサブワード誤り確率が20/1420と算出されたとする。このサブワード誤り確率の分母はサブワード「r」の出現回数を示し、分子は「r」が「s」に誤認識された回数を示す。また、クエリサブワード列誤りテーブル108には、キーワードと一致する想定キーワードにおけるサブワード「r」がサブワード「s」に誤認識されるサブワード誤り確率として0.05が登録されていたとする。
この場合、音素列誤りテーブル更新部2218は、予め設定された値Nを用いて、式2を計算することによって算出された値に、クエリサブワード列誤りテーブル108のサブワード誤り確率を更新する。
(20+0.05*N)/(1420+N)・・・(式2)
以上によって、実際の検索対象音声データ109のサブワード誤り確率を事前に算出されたクエリサブワード列誤りテーブル108に反映することができ、サブワード列距離評価部115は検索対象音声データ109の正確な誤認識傾向を利用でき、検索精度を向上させることができる。
なお、音素列誤りテーブル更新部2218は、検索結果表示訂正部2217から検索候補が入力される毎にサブワード誤り確率を更新する必要はなく、検索結果表示訂正部2217から所定数以上検索候補が入力された場合にブワード誤り確率を更新してもよい。
また、検索対象音声データ109の認識結果がN−ベスト認識結果である場合、音素列誤りテーブル更新部2218は、データがN倍になったとみなして、同じ処理を実行すればよい。
以上説明したように、本実施例の音声データ検索装置1は、想定キーワード毎のサブワードにおける学習用ラベル付き音声データ101の誤認識傾向を事前に学習し利用するだけでなく、ユーザによる検索候補がキーワードと一致するか否かの判定結果に基づいて、検索対象音声データ109の誤認識傾向を算出し、算出した誤認識傾向をクエリサブワード列誤りテーブル108に反映することによって、検索精度を向上させることができる。
なお、本実施例は、第1実施例の音声データ検索装置1だけでなく第2実施例の音声データ検索装置1にも適用可能である。
(第4実施例)
以下において、本発明の第4実施例を図25及び図26を用いて説明する。
本実施例では、音声データ検索装置1をコールセンタに適用した場合の音声データ検索システムについて説明する。
図25は、本発明の第4実施例の音声データ検索システムの構成図である。
音声データ検索システムは、構内電話交換機(PBX、Private Branch eXchange)装置2503、通話録音装置2504、検索対象音声データ2505を記憶する記憶装置2506、及び検索処理を実行する計算機群2510を備える。各機器は電話回線又はネットワークで接続され、計算機内の構成はバスで接続される。
PBX装置2503は、公衆電話回線網N1を介して、顧客が利用する顧客電話器2501と接続される。また、PBX装置2503はコールセンタ内でオペレータが利用するオペレータ電話器2502と接続される。PBX装置2503は、顧客電話器2501とコールセンタ内のオペレータ電話器2502との間の通話を中継する。
通話録音装置2504の構成は、CPU及びメモリを備え、自身を制御する制御プログラムを実行する汎用計算機と同じである。通話録音装置2504は、PBX装置2503又はオペレータ電話器2502から顧客が発話した音声信号を取得し、オペレータ電話器2502からオペレータが発話した音声信号を取得する。オペレータが発話した音声信号はオペレータ電話器2502に接続されるヘッドセット及び録音デバイスから取得してもよい。通話録音装置2504は、取得した音声信号をA/D変換して、所定の形式(例えば、WAV形式等)のデジタルデータ(音声データ)に変換し、記憶装置2506に検索対象音声データ2505として記憶する。なお、音声信号の音声データへの変換処理はリアルタイムで実行されてもよい。
図26は、本発明の第4実施例の音声データのフォーマットの一例の説明図である。
音声データを記憶する音声ファイルには、オペレータID2601、話者ID2602、時刻2603、時間長2604、及び16bit符号付きバイナリ波形データ2605を含む。
オペレータID2601には、オペレータのIDが登録される。話者ID2602には、オペレータと通話した顧客のIDが登録される。時刻2603には、オペレータと顧客との間で通話を開始した時刻が登録される。時間長2604には、通話の開始から終了までの時間が登録される。16bit符号付きバイナリ波形データ2605には、音声データが登録される。
オペレータID2601、話者ID2602、及び時間長2604はPBX装置2503等から取得できる。
次に計算機群2510について説明する。計算機群2510は、計算機2540、記憶装置2520及び2530、キーボード2550、並びに表示装置2551を有する。計算機2540は、記憶装置2520及び2530、キーボード2550、並びに表示装置2551に接続される。
記憶装置2520は、言語モデル2521、音響モデル2522、インデックステーブル2523、及びクエリサブワード列誤りテーブル2524を記憶する。また、記憶装置2530は、学習用ラベル付き音声データ2531、及び想定キーワード2532を記憶する。言語モデル2521は図1に示す言語モデル104に対応し、音響モデル2522は図1に示す言語モデル104に対応し、インデックステーブル2523は図1に示すインデックステーブル111に対応し、クエリサブワード列誤りテーブル2524は図1に示すクエリサブワード列誤りテーブル108に対応する。学習用ラベル付き音声データ2531は図1に示す学習用ラベル付き音声データ101に対応し、想定キーワード2532は図1に示す想定キーワード生成部106に予め設定された想定キーワードに対応する。
なお、言語モデル2521、音響モデル2522、及びクエリサブワード列誤りテーブル2524は、計算機2540以外の計算機が学習用ラベル付き音声データ2531を用いて算出してもよい。
計算機2540は、第3実施例の検索処理を実行し、CPU2541及びメモリ2542を有する。メモリ2542は、音声認識モジュール2543、インデキシングモジュール2544、サーチモジュール2545、及びクエリサブワード列誤りテーブル学習モジュール2546を記憶する。
音声認識モジュール2543は音響・言語モデル学習部102の機能を有する。インデキシングモジュール2544はインデキシング部110の機能を有する。サーチモジュール2545は、キーワード入力部112、サブワード列変換部113、候補検索部114、サブワード列距離評価部115、検索結果統合部116、及び検索結果表示訂正部2217の機能を有する。クエリサブワード列誤りテーブル学習モジュール2517は、クエリサブワード列誤りテーブル学習部107、音素列誤りテーブル更新部2218の機能を有する。これらのモジュールは、CPU2541の制御命令によって適切に実行される。
計算機は、第3実施例と同じ手順で適切に動作する。インデキシングモジュール2544が検索対象音声データ2505に一定時間毎にアクセスし、検索対象音声データ2505の差分にインデキシング処理を実行し、インデキシング処理結果をインデックステーブル2523に追加する。
以上説明したように、第3実施例の音声データ検索装置1をコールセンタに導入することができる。なお、コールセンタに導入される音声データ検索装置1は、第3実施例に限定されず、第1実施例及び第2実施例の音声データ検索装置1であってもよい。
(第5実施例)
以下において、本発明の第5実施例を図27及び図28を用いて説明する。
本実施例では、音声データ検索装置1の機能をコンテンツクラウドシステムに適用した場合について説明する。
まず、一般的なコンテンツクラウドシステムの概要について図27を用いて説明し、次に、音声データ検索装置1の機能をコンテンツクラウドシステムに適用した場合について図28を用いて説明する。
図27は、一般的なコンテンツクラウドシステムの説明図である。
コンテンツクラウドシステムは、ストレージ2704、ETL(Extract Transform Load)モジュール2705、コンテンツストレージ2706、検索エンジンモジュール2709、メタデータサーバモジュール2711、マルチメディアサーバモジュール2713、及びアプリケーションプログラム2715を有する。
コンテンツクラウドシステムは一つ以上のCPU、メモリ、及び記憶装置を有する汎用計算機上で動作し、コンテンツクラウドシステムは各種モジュールを有する。また、各種モジュールは、独立した計算機で実行されることもあり、この場合、各計算機とモジュールとの間はネットワーク等で接続され、各モジュールは、ネットワークを介してデータを通信し、処理を分散的に実行する。
コンテンツクラウドシステムは、アプリケーションプログラム2716によって送信されたリクエストをネットワーク等を介して受信し、受信したリクエストに応じた情報をアプリケーションプログラム2715に送信する。
コンテンツクラウドシステムには音声データ2701、医療データ2702、メールデータ2703などの任意の形式のデータが入力され、これらのデータ2701〜2703はストレージ2704に一時的に記憶される。例えば、音声データ2701はコールセンタの通話音声であってもよいし、医療データ2702及びメールデータ2703は文書データであってもよい。また、これらのデータ2701〜2703は、構造化されていてもよいし、構造化されてなくてもよい。
ETL2705は、ストレージ2704を監視しており、ストレージ2704に新たなデータ2701〜2703が記憶されると、記憶されたデータ2701〜2703に対応した情報抽出処理モジュールを実行し、記憶されたデータ2701〜2703から所定の情報(メタデータ)を抽出する。そして、ETL2705は、抽出したメタデータ2707をコンテンツストレージ2706にアーカイブ化して記憶する。
ETL2705の情報抽出処理モジュールの例としては、インデックスモジュール及び画像認識モジュールがあり、メタデータの例としては、時刻、N−gramインデックス、画像認識結果としての物体名、画像特徴量、画像に関連する関連語、及び音声認識結果などがある。ETL2705の情報抽出処理モジュールには、ストレージ2704に記憶されたデータ2701〜2703から何らかの情報を抽出するすべてのプログラムを採用することができ、このプログラムには公知の技術を採用できるので、ここでは各種情報抽出モジュールの説明を省略する。また、メタデータはデータ圧縮アルゴリズムによってデータサイズが圧縮されてもよい。
また、ETL2705の情報抽出処理モジュールは、メタデータを抽出した後、メタデータを抽出した元データのファイル名、元データのストレージへの登録年月日、元データの種類、及びメタデータテキスト情報などをRelational Data Base(RDB)に登録する処理を実行してもよい。
コンテンツストレージ2706には、ETL2705が抽出したメタデータ2707及びストレージ2704に一時的に記憶されたETL2705による情報抽出処理前のデータ2701〜2703が記憶される。
検索エンジンモジュール2709は、アプリケーションプログラム2715からのリクエストが例えばテキスト検索である場合、ETL2705によって生成されたインデックス2710に基づいて、テキストの検索処理を実行し、検索結果をアプリケーションプログラム2715に送信する。ここで、検索エンジンモジュール2709及び検索処理のアルゴリズムは、公知の技術を適用できる。検索エンジンモジュール2709には、テキストだけでなく、画像及び音声などのデータも検索するモジュールが含まれる。
メタデータサーバモジュール2711は、RDB2712に記憶されるメタデータを管理する。例えば、ETL2705がメタデータを抽出した元データのファイル名、元データのストレージへの登録年月日、元データの種類、及びメタデータテキスト情報などをRDB2712に登録した場合、アプリケーションプログラム2715からのリクエストに対応するRDB2712に登録された情報をアプリケーションプログラム2715に送信する。
マルチメディアサーバモジュール2713は、ETL2705で抽出されたメタデータ同士を互いに関連付け、グラフ形式で構造化したグラフデータベース(DB)2714を記憶する。例えば、コンテンツストレージ2706のメタデータ2707に記憶された認識結果「リンゴ」に対して、元の音声ファイル(又は画像データ)及び関連語等がネットワーク形式で関連付けられる。
マルチメディアサーバモジュール2713は、アプリケーションプログラム2715からのリクエストに応じたメタ情報をアプリケーションプログラム2715に送信する。例えば、マルチメディアサーバモジュール2713は「リンゴ」というリクエストを受け付けた場合、グラフDB2714を参照し、リンゴの画像、平均相場、及びアーティストの曲名などの関連するメタデータをアプリケーションプログラム2715に送信する。
図28は、本発明の第5実施例のコンテンツクラウドシステムの説明図である。
本実施例では、音声データ検索装置1の各種処理がモジュール化されており、第4実施例のように、音声データ検索装置1のインデキシング部110はインデキシングモジュール2801にモジュール化され、キーワード入力部112、サブワード列変換部113、候補検索部114、サブワード列距離評価部115、及び検索結果統合部116はサーチモジュール2802にモジュール化されている。また、インデキシングモジュール2801はストレージ2704に実装され、サーチモジュール2802はマルチメディアサーバモジュール2713に実装される。
また、音響モデル103、言語モデル104、及びクエリサブワード列誤りテーブル108は、事前に他の計算機によって算出され、音響モデル103及び言語モデル104はストレージ2704に実装され、クエリサブワード列誤りテーブル108はマルチメディアサーバモジュール2713に実装される。
インデキシングモジュール2801は、ストレージ2704に音声データ2701が入力された場合、ETL2705に呼び出され、入力された音声データ2701に対してインデキシング処理を実行する。そして、インデキシングモジュール2801は、インデキシング処理によって生成されたインデックスデータをコンテンツストレージ2706に記憶する。
サーチモジュール2802は、アプリケーションプログラム2715又はマルチメディアサーバモジュール2713で動作するマルチメディアサーバ制御プログラムからキーワードが入力された場合、インデックスデータ2708及びクエリサブワード列誤りテーブル2802を参照し、音声データ2701からキーワードが発話された箇所を検索し、当該キーワードが発話されたファイル名、当該キーワードが発話された時刻、及びスコアを含む検索結果を、キーワードを入力したアプリケーションプログラム2715及びマルチメディアサーバ制御プログラムに出力する。
インデキシングモジュール2801及びサーチモジュール2802の処理の詳細は、第1〜第3実施例の音声データ検索装置1の処理と同じであるので、説明を省略する。
また、サーチモジュール2802は、検索エンジンモジュール2709に実装されてもよい。この場合、アプリケーションプログラム2715から検索エンジンモジュール2709にキーワードを含む音声データ検索リクエストが入力された場合、サーチモジュール2802は、音声データ2701を検索し、検索結果を検索エンジンモジュール2709に出力する。
以上説明したように、第1実施例〜第3実施例の音声データ検索装置1をコンテンツクラウドシステムに適用することができる。
以上、本発明を添付の図面を参照して詳細に説明したが、本発明はこのような具体的構成に限定されるものではなく、添付した請求の範囲の趣旨内における様々な変更及び同等の構成を含むものである。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、検索対象となる第1音声データからユーザによって入力されたキーワードに対応する部分を検索する音声検索装置であって、第2音声データを用いて、音響特徴を示す音響モデル及び言語特徴を示す言語モデルを生成する音響・言語モデル生成部と、前記第2音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第1サブワード列に変換する第1サブワード列変換部と、前記キーワードとして指定される可能性のある想定キーワードを、サブワードを単位する第2サブワード列に変換する第2サブワード列変換部と、前記第1サブワード列と前記第2サブワード列とを比較し、前記第1サブワード列の前記第2サブワード列に対する誤認識傾向を前記想定キーワードごとに算出する誤認識傾向算出部と、前記第1音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第3サブワード列に変換する第3サブワード列変換部と、前記キーワードを、サブワードを単位とする第4サブワード列に変換する第4サブワード列変換部と、前記第1音声データから、前記キーワードに対応する部分を検索候補として検索する候補検索部と、前記誤認識傾向算出部によって算出された誤認識傾向に基づいて、前記候補検索部によって検索された検索候補の第3サブワード列の前記第4サブワード列に対するサブワードスコアに基づくスコアを算出するスコア算出部と、前記スコア算出部によって算出されたスコアと前記スコアに対応する検索候補とを含む検索結果を出力する検索結果出力部と、を備えることを特徴とする。

Claims (15)

  1. 検索対象となる第1音声データからユーザによって入力されたキーワードに対応する部分を検索する音声検索装置であって、
    第2音声データを用いて、音響特徴を示す音響モデル及び言語特徴を示す言語モデルを生成する音響・言語モデル生成部と、
    前記第2音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第1サブワード列に変換する第1サブワード列変換部と、
    前記キーワードとして指定される可能性のある想定キーワードを、サブワードを単位する第2サブワード列に変換する第2サブワード列変換部と、
    前記第1サブワード列と前記第2サブワード列とを比較し、前記第1サブワード列の前記第2サブワード列に対する誤認識傾向を算出する誤認識傾向算出部と、
    前記第1音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第3サブワード列に変換する第3サブワード列変換部と、
    前記キーワードを、サブワードを単位とする第4サブワード列に変換する第4サブワード列変換部と、
    前記第1音声データから、前記キーワードに対応する部分を検索候補として検索する候補検索部と、
    前記誤認識傾向算出部によって算出された誤認識傾向に基づいて、前記候補検索部によって検索された検索候補の第3サブワード列の前記第4サブワード列に対するサブワードスコアに基づくスコアを算出するスコア算出部と、
    前記スコア算出部によって算出されたスコアと前記スコアに対応する検索候補とを含む検索結果を出力する検索結果出力部と、を備えることを特徴とする音声検索装置。
  2. 請求項1に記載の音声検索装置であって、
    前記スコア算出部は、
    前記候補検索部によって検索された検索候補に対応する前記第1音声データの第1音声特徴量を算出し、
    前記キーワードの第2音声特徴量を算出し、
    前記算出した第1音声特徴量及び前記第2音声特徴量に基づいて、前記検索候補の前記キーワードに対する音声特徴スコアを算出し、
    前記サブワードスコアと前記音声特徴スコアとを統合したスコアを算出することを特徴とする音声検索装置。
  3. 請求項1に記載の音声検索装置であって、
    前記検索結果出力部は、前記検索候補を前記スコア順にソートした検索画面を出力し、
    前記検索画面は、前記検索候補が前記キーワードと一致するか否かの指定をユーザから受け付ける正誤指定受付領域を含み、
    前記キーワードと一致すると指定された検索結果の第3サブワード列と前記第4サブワード列とを比較し、当該第3サブワード列の前記第4サブワード列に対する誤認識傾向を算出し、前記算出した誤認識傾向を前記第1サブワード列の前記第2サブワード列に対する誤認識傾向に反映する誤認識傾向反映部を備えることを特徴とする音声検索装置。
  4. 請求項1に記載の音声検索装置であって、
    前記誤認識傾向算出部は、前記誤認識傾向を、第1方式、又は第2方式を用いて算出し、
    前記第1方式では、
    前記誤認識傾向算出部は、前記第1サブワード列と前記第2サブワード列との間で、前記第2サブワード列を構成するサブワードが前記第1サブワード列を構成するサブワードに誤って認識される確率を示すサブワード誤認識確率を、前記誤認識傾向として算出し、
    前記第2方式では、
    前記誤認識傾向算出部は、
    前記第2サブワード列を構成するサブワードのうち前記第1サブワード列を構成サブワードと一致するか否かを判定する着目サブワードと、
    前記第2サブワード列を構成するサブワードのうち前記着目サブワードから所定数前までに存在するサブワードと、
    前記第1サブワード列を構成するサブワードのうち前記第2サブワード列の前記所定数前までに存在するサブワードに対応するサブワードと、を含むサブワード遷移が与えられた場合、前記第2サブワード列の着目サブワードが、前記第1サブワード列のうち前記着目サブワードに対応するサブワードに誤って認識される確率を示すサブワード誤認識確率を、前記誤認識傾向として前記サブワード遷移毎に算出することを特徴とする音声検索装置。
  5. 請求項4に記載の音声検索装置であって、
    前記誤認識傾向算出部は前記第2方式を用いて前記誤認識傾向を算出する場合、前記想定キーワードをクラスタリングし、
    前記想定キーワードがクラスタリングされた結果、同じクラス内で同じサブワード遷移のサブワード認識確率を共有することを特徴とする音声検索装置。
  6. 請求項1に記載の音声検索装置であって、
    前記想定キーワードは予め設定され、
    互いに関連するワードを対応付けた関連ワード情報を記憶し、
    前記関連ワード情報を参照し、前記予め設定された想定キーワードに対応するワードを取得し、前記取得したワードも想定キーワードに設定する想定キーワード拡張部を備えることを特徴とする音声検索装置。
  7. 請求項1に記載の音声検索装置であって、
    前記スコア算出部は、端点フリーのビタビアルゴリズムを用いて、前記候補検索部によって検索された検索候補の第3サブワード列の前記第4サブワード列に対するサブワードのスコアを算出することを特徴とする音声検索装置。
  8. 検索対象となる第1音声データからユーザによって入力されたキーワードに対応する部分を検索し、プロセッサ及び記憶領域を有する音声検索装置で実行され、前記第1音声データから前記キーワードに対応する部分を検索する処理を前記プロセッサに実行させるプログラムを記憶する計算機読み取り可能な記憶媒体であって、
    前記処理は、
    第2音声データを用いて、音響特徴を示す音響モデル及び言語特徴を示す言語モデルを生成する処理と、
    前記第2音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第1サブワード列に変換する処理と、
    前記キーワードとして指定される可能性のある想定キーワードを、サブワードを単位する第2サブワード列に変換する処理と、
    前記第1サブワード列と前記第2サブワード列とを比較し、前記第1サブワード列の前記第2サブワード列に対する誤認識傾向を算出する処理と、
    前記第1音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第3サブワード列に変換する処理と、
    前記キーワードを、サブワードを単位とする第4サブワード列に変換する処理と、
    前記第1音声データから、前記キーワードに対応する部分を検索候補として検索する処理と、
    前記誤認識傾向に基づいて、前記検索された検索候補の第3サブワード列の前記第4サブワード列に対するサブワードスコアに基づくスコアを算出する処理と、
    前記算出されたスコアと前記スコアに対応する検索候補とを含む検索結果を出力する処理と、を含むことを特徴とする計算機読み取り可能な記憶媒体。
  9. 請求項8に記載の計算機読み取り可能な記憶媒体であって、
    前記スコアを算出する処理は、
    前記候補検索部によって検索された検索候補に対応する前記第1音声データの第1音声特徴量を算出する処理と、
    前記キーワードの第2音声特徴量を算出する処理と、
    前記算出した第1音声特徴量及び前記第2音声特徴量に基づいて、前記検索候補の前記キーワードに対する音声特徴スコアを算出する処理と、
    前記サブワードスコアと前記音声特徴スコアとを統合したスコアを算出する処置と、を含むことを特徴とする計算機読み取り可能な記憶媒体。
  10. 請求項8に記載の計算機読み取り可能な記憶媒体であって、
    前記検索結果を出力する処理は、前記検索候補を前記スコア順にソートした検索画面を出力する処理を含み、
    前記検索画面は、前記検索候補が前記キーワードと一致するか否かの指定をユーザから受け付ける正誤指定受付領域を含み、
    前記処理は、前記キーワードと一致すると指定された検索結果の第3サブワード列と前記第4サブワード列とを比較し、当該第3サブワード列の前記第4サブワード列に対する誤認識傾向を算出し、前記算出した誤認識傾向を前記第1サブワード列の前記第2サブワード列に対する誤認識傾向に反映する処理を含むことを特徴とする計算機読み取り可能な記憶媒体。
  11. 請求項8に記載の計算機読み取り可能な記憶媒体であって、
    前記誤認識傾向を算出する処理は、前記誤認識傾向を、第1方式、又は第2方式を用いて算出し、
    前記第1方式では、
    前記第1サブワード列と前記第2サブワード列との間で、前記第2サブワード列を構成するサブワードが前記第1サブワード列を構成するサブワードに誤って認識される確率を示すサブワード誤認識確率を、前記誤認識傾向として算出し、
    前記第2方式では、
    前記第2サブワード列を構成するサブワードのうち前記第1サブワード列を構成サブワードと一致するか否かを判定する着目サブワードと、
    前記第2サブワード列を構成するサブワードのうち前記着目サブワードから所定数前までに存在するサブワードと、
    前記第1サブワード列を構成するサブワードのうち前記第2サブワード列の前記所定数前までに存在するサブワードに対応するサブワードと、を含むサブワード遷移が与えられた場合、前記第2サブワード列の着目サブワードが、前記第1サブワード列のうち前記着目サブワードに対応するサブワードに誤って認識される確率を示すサブワード誤認識確率を、前記誤認識傾向として前記サブワード遷移毎に算出することを特徴とする計算機読み取り可能な記憶媒体。
  12. 請求項11に記載の計算機読み取り可能な記憶媒体であって、
    前記誤認識傾向を算出する処理は、前記第2方式を用いて前記誤認識傾向を算出する場合、前記想定キーワードをクラスタリングする処置と、
    前記想定キーワードがクラスタリングされた結果、同じクラス内で同じサブワード遷移のサブワード認識確率を共有する処理と、を含むことを特徴とする計算機読み取り可能な記憶媒体。
  13. 請求項8に記載の計算機読み取り可能な記憶媒体であって、
    前記想定キーワードは予め設定され、
    互いに関連するワードを対応付けた関連ワード情報を記憶し、
    前記処理は、前記関連ワード情報を参照し、前記予め設定された想定キーワードに対応するワードを取得し、前記取得したワードも想定キーワードに設定する処理を含むことを特徴とする計算機読み取り可能な記憶媒体。
  14. 請求項8に記載の計算機読み取り可能な記憶媒体であって、
    前記スコアを算出する処理は、端点フリーのビタビアルゴリズムを用いて、前記候補検索部によって検索された検索候補の第3サブワード列の前記第4サブワード列に対するサブワードのスコアを算出することを特徴とする計算機読み取り可能な記憶媒体。
  15. 検索対象となる第1音声データからユーザによって入力されたキーワードに対応する部分を検索し、プロセッサ及び記憶領域を有する音声検索装置における前記第1音声データから前記キーワードに対応する部分を検索する音声検索方法であって、
    前記方法は、
    前記プロセッサが、第2音声データを用いて、音響特徴を示す音響モデル及び言語特徴と示す言語モデルを生成するステップと、
    前記プロセッサが、前記第2音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第1サブワード列に変換するステップと、
    前記プロセッサが、前記キーワードとして指定される可能性のある想定キーワードを、サブワードを単位する第2サブワード列に変換するステップと、
    前記プロセッサが、前記第1サブワード列と前記第2サブワード列とを比較し、前記第1サブワード列の前記第2サブワード列に対する誤認識傾向を算出するステップと、
    前記プロセッサが、前記第1音声データを、前記音響モデル及び前記言語モデルを用いて、サブワードを単位とする第3サブワード列に変換するステップと、
    前記プロセッサが、前記キーワードを、サブワードを単位とする第4サブワード列に変換するステップと、
    前記プロセッサが、前記第1音声データから、前記キーワードに対応する部分を検索候補として検索するステップと、
    前記プロセッサが、前記誤認識傾向に基づいて、前記検索された検索候補の第3サブワード列の前記第4サブワード列に対するサブワードスコアに基づくスコアを算出するステップと、
    前記プロセッサが、前記算出されたスコアと前記スコアに対応する検索候補とを含む検索結果を出力するステップと、を含むことを特徴とする音声検索方法。
JP2014532631A 2012-08-29 2012-08-29 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 Expired - Fee Related JP5897718B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/071850 WO2014033855A1 (ja) 2012-08-29 2012-08-29 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法

Publications (2)

Publication Number Publication Date
JP5897718B2 JP5897718B2 (ja) 2016-03-30
JPWO2014033855A1 true JPWO2014033855A1 (ja) 2016-08-08

Family

ID=50182705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014532631A Expired - Fee Related JP5897718B2 (ja) 2012-08-29 2012-08-29 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法

Country Status (2)

Country Link
JP (1) JP5897718B2 (ja)
WO (1) WO2014033855A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017168524A1 (ja) * 2016-03-28 2017-10-05 株式会社日立製作所 分析用サーバ装置、データ解析システム、及びデータ解析方法
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
JP7182923B2 (ja) * 2018-07-06 2022-12-05 株式会社東芝 情報検索システム
CN112735412B (zh) * 2020-12-25 2022-11-22 北京博瑞彤芸科技股份有限公司 一种根据语音指令搜索信息的方法和系统
CN116578677B (zh) * 2023-07-14 2023-09-15 高密市中医院 一种针对医疗检验信息的检索系统和方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005257954A (ja) * 2004-03-10 2005-09-22 Nec Corp 音声検索装置、音声検索方法および音声検索プログラム
JP4887264B2 (ja) * 2007-11-21 2012-02-29 株式会社日立製作所 音声データ検索システム
JP5142769B2 (ja) * 2008-03-11 2013-02-13 株式会社日立製作所 音声データ検索システム及び音声データの検索方法
JP5326169B2 (ja) * 2009-05-13 2013-10-30 株式会社日立製作所 音声データ検索システム及び音声データ検索方法
JP2010277036A (ja) * 2009-06-01 2010-12-09 Mitsubishi Electric Corp 音声データ検索装置
JP5590549B2 (ja) * 2010-02-23 2014-09-17 国立大学法人豊橋技術科学大学 音声検索装置および音声検索方法
JP5271299B2 (ja) * 2010-03-19 2013-08-21 日本放送協会 音声認識装置、音声認識システム、及び音声認識プログラム

Also Published As

Publication number Publication date
JP5897718B2 (ja) 2016-03-30
WO2014033855A1 (ja) 2014-03-06

Similar Documents

Publication Publication Date Title
US7668718B2 (en) Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
Chelba et al. Retrieval and browsing of spoken content
US10339920B2 (en) Predicting pronunciation in speech recognition
US8731926B2 (en) Spoken term detection apparatus, method, program, and storage medium
US8200490B2 (en) Method and apparatus for searching multimedia data using speech recognition in mobile device
US9418152B2 (en) System and method for flexible speech to text search mechanism
US8527272B2 (en) Method and apparatus for aligning texts
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
WO2003010754A1 (fr) Systeme de recherche a entree vocale
US11605373B2 (en) System and method for combining phonetic and automatic speech recognition search
TW201203222A (en) Voice stream augmented note taking
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
WO2014203328A1 (ja) 音声データ検索システム、音声データ検索方法、及びコンピュータ読み取り可能な記憶媒体
Iwami et al. Out-of-vocabulary term detection by n-gram array with distance from continuous syllable recognition results
Suzuki et al. Music information retrieval from a singing voice using lyrics and melody information
Mary et al. Searching speech databases: features, techniques and evaluation measures
JP5590549B2 (ja) 音声検索装置および音声検索方法
Decadt et al. Transcription of out-of-vocabulary words in large vocabulary speech recognition based on phoneme-to-grapheme conversion
JP2010277036A (ja) 音声データ検索装置
Norouzian et al. An approach for efficient open vocabulary spoken term detection
Kruspe et al. Retrieval of song lyrics from sung queries
CN110895938B (zh) 语音校正系统及语音校正方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160302

R150 Certificate of patent or registration of utility model

Ref document number: 5897718

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees