WO2010098209A1

WO2010098209A1 - 音声検索装置および音声検索方法

Info

Publication number: WO2010098209A1
Application number: PCT/JP2010/051937
Authority: WO
Inventors: 浩一桂田; 恒雄新田; 茂樹手島
Original assignee: 国立大学法人豊橋技術科学大学
Priority date: 2009-02-26
Filing date: 2010-02-10
Publication date: 2010-09-02
Also published as: EP2402868A1; CN102334119A; JPWO2010098209A1; US20120036159A1; CN102334119B; EP2402868A4; JP5408631B2; US8626508B2

Abstract

　検索速度が高速であり、かつ、検索性能も良好である、あいまい検索を行う音声検索装置および音声検索方法を提供する。　接尾辞配列と動的計画法をともに用いて音声に対する、あいまい検索を行うだけでなく、音声データに含まれる音素弁別特徴間の距離を算出して類似性を判定し、音素による検索キーワード分割と、複数の分割された検索キーワードに対する検索の閾値により検索対象を絞り込み、検索の閾値を逐次的に増加させながら繰り返し検索し、検索キーワードの長さに応じてキーワード分割の有無を判定することにより、検索速度が高速で、検索性能も良好な音声検索を実現している。

Description

音声検索装置および音声検索方法

　本発明は、音声検索装置および音声検索方法に関する。より詳細には、音声に対する検索を高速かつ効率的に行う装置ならびに方法に関するものである。

　ブロードバンド回線の普及など情報通信技術の発展により、Ｗｅｂ上で音声や動画像のコンテンツを利用する機会が増え、コンテンツの数も急激に増加している。このため、Ｗｅｂ上の音声データや動画データを効率的に探索し、利用するには、音声検索技術が必要不可欠である。特に高速に検索するシステムが求められている。

　このようなニーズを満たすために、非特許文献１および２に記載の先行技術では、音声データベースから索引データを作成し、これを用いて高速な音声検索を実現する手法が提案されている。

　また、特許文献１に記載の先行技術では、接尾辞配列と動的計画法を組み合わせて、文書検索において表記揺れの解消と高速化について記述がある。

国際公開２００５／１２２００２号

Ｎ．Ｋａｎｄａ，ｅｔ　ａｌ．，"Ｏｐｅｎ－Ｖｏｃａｂｕｌａｒｙ　Ｋｅｙｗｏｒｄ　Ｄｅｔｅｃｔｉｏｎ　ｆｒｏｍ　Ｓｕｐｅｒ－Ｌａｒｇｅ　Ｓｃａｌｅ　Ｓｐｅｅｃｈ　Ｄａｔａｂａｓｅ，"　ＩＥＥＥ　ＭＭＳＰ　２００８，ｐｐ．９３９－９４４，２００８．Ｋ．Ｔｈａｍｂｉｒａｔｎａｍ　＆　Ｓ．Ｓｒｉｄｈａｒａｎ，"Ｄｙｎａｍｉｃ　Ｍａｔｃｈ　Ｐｈｏｎｅ－Ｌａｔｔｉｃｅ　Ｓｅａｒｃｈｅｓ　Ｆｏｒ　Ｖｅｒｙ　Ｆａｓｔ　Ａｎｄ　Ａｃｃｕｒａｔｅ　Ｕｎｒｅｓｔｒｉｃｔｅｄ　Ｖｏｃａｂｕｌａｒｙ　Ｋｅｙｗｏｒｄ　Ｓｐｏｔｔｉｎｇ，"　ＩＣＡＳＳＰ　２００５，ｖｏｌ．１，ｐｐ．４６５－４６８，２００５．

　上記特許文献１に記載の先行技術では、文書検索を対象としており、本発明の係る音声認識による音素列に対するあいまい検索ではない。とくに単純な接尾辞配列と動的計画法を組み合わせるだけでは計算時間が著しく増大することは自明である。

　一方、上述した先行技術（非特許文献１ならびに２）では、音声データベースが大規模になると、従来の音声検索高速化手法ではデータベースに見合う規模の索引データを作成しなければならない。このため高速な二次記憶装置が必要となり、コスト面からは望ましくない。

　また、主記憶装置と比較して二次記憶装置はアクセスに時間がかかるため、検索速度も低下するデメリットも存在する。

　さらに、索引データを単語、あるいはサブワードから作成することが一般的であるが、
その場合、検索キーワード（あるいはサブキーワード）と単語、あるいはサブワードとの完全一致が前提になるため、誤認識の多い現状の音声認識では十分な検索性能が得られない可能性がある。

　本発明は、上記の課題に対し、二次記憶装置を必要とせず、検索速度が高速であり、かつ、検索に要するコストが低コストであり、さらに、良好な検索性能を発揮する、あいまい検索を行う音声検索装置および音声検索方法を提供することを目的とする。

　本発明に係る音声検索において、あいまい検索を行う音声検索装置および音声検索方法は、具体的には以下のように構成される。

　請求項１に係る発明は、音声を入力として、前記入力された音声をサンプリングして得られる音声データを検索する音声検索装置であって、音声データベースに記録される音声を認識するデータベース用音声認識器と、前記データベース用音声認識器によって認識された単語列から音素列を生成する音声用音素列生成部と、前記音声用音素生成部によって生成された音素列から接尾辞配列を生成するＳｕｆｆｉｘ　Ａｒｒａｙ生成部と、検索キーワードを入力する入力装置と、前記入力装置により入力された検索キーワードから音素列を生成する入力音素生成部と、前記接尾辞配列上で検索キーワードを動的計画法により検索する音声検索部と、前記音声検索部により検索された結果を出力する出力装置とを備え、前記音声検索部は、検索で用いる第１の閾値を設定する手段と、前記第１の閾値を用いて動的計画法により検索対象を検索する手段と
を備えた音声検索部であることを特徴とする音声検索装置を要旨としている。

　この音声検索装置は、音声を入力として、前記入力された音声をサンプリングして得られる音声データを検索する音声検索装置であって、接尾辞配列と、動的計画法をともに用いてあいまい検索を行うものである。音素単位で検索キーワードとのマッチングを行うため、索引に登録された単語、あるいはサブワードに完全一致しなくとも検索を可能としている。

　請求項２に係る発明は、請求項１に記載の音声検索装置であって、前記音声検索部は、さらに、検索キーワードが所定長さ以上であるとき、該検索キーワードを音素により分割する手段と、前記検索キーワードの分割手段によって分割されたキーワードに対する検索に用いる第２の閾値を前記第１の閾値から決定する手段とを備え、前記検索対象を検索する手段は、前記第２の閾値を用いて動的計画法により検索対象を検索する手段であることを特徴とする音声検索装置を要旨とする。

　上記構成の音声検索装置は、請求項１に係る発明に加えて、処理時間の指数爆発を防ぐために、検索キーワードの分割、２箇所以上マッチするための検索第１の閾値の変更、キーワードの長さに応じた分割音素数、分割／非分割の決定を行い、高速な検索を実現するものである。前記２箇所以上マッチするための検索第１の閾値の変更は、次の式１（すなわち数１）に従って行う。

ただし、ｐは分割数、ｔは上記複数の分割された検索キーワードに対する検索の閾値を決定する手段により求められる元の第１の閾値、ｔ′は前記閾値変更手段による変更後の第２の閾値である。

　請求項３に係る発明は、請求項１または２に記載の音声検索装置であって、前記音声検索部は、前記第１の閾値を逐次的に増加させながら繰り返し検索し、検索結果を逐次的に提示する閾値調整手段を備えた音声検索部であることを特徴とする音声検索装置を要旨としている。

　上記構成は、前記検索の第１の閾値をｉｔｅｒａｔｉｖｅ　ｌｅｎｇｔｈｅｎｉｎｇ　ｓｅａｒｃｈ（一種の反復深化探索）によって逐次的に増加させながら繰り返し検索し、検索結果を逐次的に提示する閾値調整機能を備えたものである。装置の利用者が初期に提示された検索結果を確認している間に、閾値を更新しつつ新たな検索結果を逐次的に提示することにより、体感的な検索速度の向上を実現している。

　請求項４に係る発明は、請求項１ないし３のいずれかに記載の音声検索装置であって、前記音声検索部は、さらに、検索キーワードの長さによりキーワード分割の有無を判定する手段と、前記キーワード分割後の音素数の決定を行うキーワード分割手段とを備えた音声検索部であることを特徴とする音声検索装置を要旨としている。

　上記構成の装置は、検索キーワードの長さによりキーワード分割の有無を判定し、前記キーワード分割後の音素数の決定を行うことができる。

　請求項５に係る発明は、請求項１ないし４のいずれかに記載の音声検索装置であって、前記動的計画法により検索対象を検索する手段は、さらに、動的計画法において音素弁別特徴に基づく音素間距離を用いて音素間の類似性を算出する手段を備えた検索対象を検索する手段であることを特徴とする音声検索装置を要旨としている。

　上記の音素間距離には、例えば、音素弁別特徴の差異のハミング距離がある。そこで、上記構成では、このハミング距離を用いることによって音素間の類似性を算出するものである。

　請求項６に係る発明は、音声を入力として、前記入力された音声をサンプリングして得られる音声データを検索する音声検索方法であって、音声データを音素列に変換し、接尾辞配列を作成するステップと、検索キーワードを受け付け、音素列に変換するステップと、
検索で用いる第１の閾値を設定するステップと、前記第１を用いて動的計画法により検索対象を検索するステップと、前記検索のステップにより検索された結果を出力するステップと
を含むことを特徴とする音声検索方法を要旨としている。

　上記構成の音声検索方法は、接尾辞配列（以下、Ｓｕｆｆｉｘ　Ａｒｒａｙと記述する場合がある）と動的計画法（以下、ＤＰ（Ｄｙｎａｍｉｃ　Ｐｒｏｇｒａｍｍｉｎｇ）マッチングと記述する場合がある）をともに用いてあいまい検索を行うものである。音素単位で検索キーワードとのマッチングを行うため、索引に登録された単語、あるいはサブワードに完全一致しなくとも検索を可能としている。

　請求項７に係る発明は、請求項６に記載の音声検索方法であって、さらに、検索キーワードが所定長さ以上であるとき、該検索キーワードを音素により分割するステップと、前記検索キーワードの分割ステップによって分割されたキーワードに対する検索に用いる第
２の閾値を前記第１の閾値から決定するステップとを備え、前記検索対象を検索するステップは、前記第２の閾値を用いて動的計画法により検索対象を検索するステップであることを特徴とする音声検索方法を要旨とする。

　上記構成の音声検索方法は、処理時間の指数爆発を防ぐために、検索キーワードの分割、２箇所以上マッチする手法、検索第１の閾値の変更、キーワードの長さに応じた分割音素数、分割／非分割の決定を行い、高速な検索を実現するものである。なお、分割されたキーワードに対する検索の第２の閾値は数１に示す式１に基づいて決定することができる。

　請求項８に係る発明は、請求項６または７に記載の音声検索方法であって、さらに、前記第１の閾値を逐次的に増加させながら繰り返し検索する閾値調整ステップを含むことを特徴とする音声検索方法を要旨としている。

　上記構成の音声検索方法は、前記検索の第１の閾値をｉｔｅｒａｔｉｖｅ　ｌｅｎｇｔｈｅｎｉｎｇ　ｓｅａｒｃｈ（一種の反復深化探索）によって逐次的に増加させながら繰り返し検索し、検索結果を逐次的に提示する閾値調整機能を備えたものである。第1の閾値が小さい初期の探索ではＳｕｆｆｉｘ　Ａｒｒａｙの特徴により二分探索に近い検索になることから、非常に高速な検索が可能である。

　請求項９に係る発明は、請求項６ないし８のいずれかに記載の音声検索方法であって、さらに、前記検索キーワードの長さによりキーワード分割の有無を判定するステップと、前記キーワード分割後の音素数の決定を行うキーワード分割ステップとを含むことを特徴とする音声検索方法を要旨としている。

　上記構成の音声検索方法は、検索キーワードの長さによりキーワード分割の有無を判定し、前記キーワード分割後の音素数の決定を行うことができるように処理される。

　請求項１０に係る発明は、請求項６ないし９のいずれかに記載の音声検索方法であって、前記検索対象を検索するステップは、前記動的計画法において音素弁別特徴に基づく音素間距離を用いて音素間の類似性を算出するステップを有することを特徴とする音声検索方法を要旨としている。

　上記構成の音声検索方法は、前記動的計画法において音素弁別特徴に基づく音素間距離（例えば、音素弁別特徴の差異のハミング距離）を用いて音素間の類似性を算出するような処理が可能となっている。

　本発明によれば、データ領域を多く必要としないため高速な二次記憶装置を必要とせず、二次記憶の準備に必要なコストを低減できる。つまり、検索速度が高速かつ低コストであり、かつ、良好な検索性能も備えた音声検索装置ならびに音声検索方法を提供することが可能となる。

本発明に係る音声検索のフローチャートである。本発明に係る音声検索の内部構成ブロック図である。本発明に係る音声データベースからの接尾辞配列（Ｓｕｆｆｉｘ　Ａｒｒａｙ）の作成の説明図である。本発明に係る接尾辞配列（Ｓｕｆｆｉｘ　Ａｒｒａｙ）上での動的計画法（ＤＰマッチング）によるあいまい検索の説明図である。本発明に係るキーワードの分割と音声検索の説明図である。本発明の実施例に係る6音素の検索キーワードを対象に第１の閾値を最も低くした場合に最初の検索結果が出力されるまでの時間の図である。グラフの横軸は第１の閾値、縦軸は検索の再現率、適合率および処理時間を表す。本発明の実施例に係る１２音素の検索キーワードを対象に第１の閾値を最も低くした場合に最初の検索結果が出力されるまでの時間の図である。グラフの横軸は第１の閾値、縦軸は検索の再現率、適合率および処理時間を表す。本発明の実施例に係る１８音素の検索キーワードを対象に第１の閾値を最も低くした場合に最初の検索結果が出力されるまでの時間の図である。グラフの横軸は第１の閾値、縦軸は検索の再現率、適合率および処理時間を表す。本発明の実施例に係る２４音素の検索キーワードを対象に第１の閾値を最も低くした場合に最初の検索結果が出力されるまでの時間の図である。グラフの横軸は第１の閾値、縦軸は検索の再現率、適合率および処理時間を表す。本発明の実施例に係る6音素の検索キーワードを対象に半分の正解キーワードを検出するまでの時間の図である。グラフの横軸は第１の閾値、縦軸は検索の再現率、適合率および処理時間を表す。本発明の実施例に係る１２音素の検索キーワードを対象に半分の正解キーワードを検出するまでの時間の図である。グラフの横軸は第１の閾値、縦軸は検索の再現率、適合率および処理時間を表す。本発明の実施例に係る第１の閾値を初期値０．０に設定して６音素から２４音素の検索キーワードを検索し、検索結果群がユーザに提示されるまでの時間の図である。グラフの横軸は擬似音声データベース（毎日新聞コーパス）の音声換算の時間（単位：時間）、縦軸は検索の処理時間（単位：ミリ秒）である。本発明の実施例に係る第１の閾値を図１２の状態から０．２に更新し、改めて６音素から２４音素の検索キーワードを検索し、検索結果群がユーザに提示されるまでの時間の図である。グラフの横軸は擬似音声データベース（毎日新聞コーパス）の音声換算の時間（単位：時間）、縦軸は検索の処理時間（単位：ミリ秒）である。本発明の実施例に係る第１の閾値を図１３の状態からさらに０．４に更新し、改めて６音素から２４音素の検索キーワードを検索し、検索結果群がユーザに提示されるまでの時間の図である。グラフの横軸は擬似音声データベース（毎日新聞コーパス）の音声換算の時間（単位：時間）、縦軸は検索の処理時間（単位：ミリ秒）である。本発明の実施例に係る図１２とは異なる実施環境において、第１の閾値を初期値０．０に設定して６音素から２４音素の検索キーワードを検索し、検索結果群がユーザに提示されるまでの時間の図である。グラフの横軸は擬似音声データベース（毎日新聞コーパス）の音声換算の時間（単位：時間）、縦軸は検索の処理時間（単位：ミリ秒）である。本発明の実施例に係る第１の閾値を図１５の状態から０．２に更新し、改めて６音素から２４音素の検索キーワードを検索し、検索結果群がユーザに提示されるまでの時間の図である。グラフの横軸は擬似音声データベース（毎日新聞コーパス）の音声換算の時間（単位：時間）、縦軸は検索の処理時間（単位：ミリ秒）である。本発明の実施例に係る第１の閾値を図１６の状態からさらに０．４に更新し、改めて６音素から２４音素の検索キーワードを検索し、検索結果群がユーザに提示されるまでの時間の図である。グラフの横軸は擬似音声データベース（毎日新聞コーパス）の音声換算の時間（単位：時間）、縦軸は検索の処理時間（単位：ミリ秒）である。本発明の実施例に係る第１の閾値を図１７の状態からさらに１．０に更新し、改めて６音素から２４音素の検索キーワードを検索し、検索結果群がユーザに提示されるまでの時間の図である。グラフの横軸は擬似音声データベース（毎日新聞コーパス）の音声換算の時間（単位：時間）、縦軸は検索の処理時間（単位：ミリ秒）である。

　以下、本発明の実施の形態における音声検索装置および音声検索方法について、図面を参照して説明する。なおこれらの図面は、本発明が採用し得る技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャートなどは、特に特定的な記載がない限り、それのみに限定する趣旨ではなく、単なる説明例である。

　本発明に係る音声検索方法の実施形態について、図１のフローチャートに従って説明する。本実施形態は、スタート時に音声を入力として、前記入力された音声をサンプリング（例えば、サンプリングビット数１６ｂｉｔ、サンプリング周波数４４．１ｋＨｚ）して得られる音声データをＳｕｆｆｉｘ　ＡｒｒａｙとＤＰマッチングをともに用いてあいまい検索を行うものである。

　まず、音声データベースに記録される音声データを音素列（ａ）に変換し、この音素列（ａ）からＳｕｆｆｉｘ　Ａｒｒａｙを作成する（Ｓ１１）。次に、検索キーワードを受け付け、その検索キーワードを音素列に変換する（Ｓ１２）。この処理と同時に、検索で用いる第１の閾値（図１において閾値１と表記）を設定する（Ｓ１２）。上記処理において、音素列に変換した検索キーワードの長さが所定以上（例えば、音素の数で９以上）である場合には、これを分割するが、それ以下である場合には分割しないものとし、当該分割／非分割を判断する（Ｓ１３）。分割すべきと判断された場合は、当該検索キーワードを所定の音素数に分割する（Ｓ１４）。このとき、分割後の音素の数を予め決定しておくことができる。例えば、分割後の音素の数を３とすることにより、検索キーワードの音素数が９である場合に、３個の音素ごとに３分割することができる。そして、検索キーワードの音素数が１０～１２では、４分割することができる。

　分割されたキーワードは、音声データに含まれる音素弁別特徴間の距離を算出して類似性が判断される。すなわち、数１に示した数式によって第１の閾値から第２の閾値（図１において閾値２と表記）を決定するとともに、この第２の閾値を用いて分割されたキーワードをＳｕｆｆｉｘ　Ａｒｒａｙ上でＤＰマッチングするのである（Ｓ１５）。この結果は第１段階候補（ｂ）として一時保存し（Ｓ１５）、この第１段階候補（ｂ）の位置関係から最終候補（ｃ）を決定するのである（Ｓ１６）。また、この最終候補（ｃ）の結果について、第１の閾値を用いてＳｕｆｆｉｘ　Ａｒｒａｙ（ａ）上でＤＰマッチングし、その結果を出力（ユーザに提示）するのである（Ｓ１６）。これにより、第１次的な検索を終了する。

　本実施形態では、第１次的な検索の終了後に、第１の閾値を少し高い値に更新（例えば、０．２を加算）して、再度検索ステップを繰り返すように処理される（Ｓ１７，Ｓ１８）。第１の閾値が少し高い値に変更されていることから、当該第１の閾値に基づいて算出される第２の閾値も少し高い値となる。これにより、音素弁別特徴間の距離がやや離れた類似語（類似する音素列の語）の検索が実施されることとなる。なお、上記検索ステップの繰り返しは、第１の閾値が所定の値に到達する場合、または、検索結果の総数が所定の数に達した場合に終了するように処理することができる（Ｓ１８）。例えば、第１の閾値が１．４に達するか、検索結果が１００に達する場合に処理を終了するように構築することができる。

　次に、検索キーワードが短い（例えば、音素の数が８以下となる）場合には、検索キーワードを分割せず、Ｓｕｆｆｉｘ　Ａｒｒａｙ（ａ）上において、第１の閾値を用いてＤＰマッチングする（Ｓ１９）。このとき、使用される閾値は第１の閾値のみである。そして、ここで得られた結果はそのまま出力（ユーザに提示）されるのである（Ｓ１９）。検索キーワードが分割されていないことから、マッチングされた結果の位置関係を参照する必要はないのである。

　なお、検索キーワードを分割しない場合であっても、第１の閾値を少し高い値に更新（例えば、０．２を加算）して（Ｓ２０）、再度検索ステップを繰り返すものである（Ｓ２１）。音素弁別特徴間の距離が離れた類似語（類似する音素列の語）を検索するためである。そして、上記検索の繰り返しは、更新した閾値が所定の値に達する場合、または、検索結果数が所定数に達した場合に処理を終了させるように構築することができる。

　上記のような検索方法によれば、第１の閾値を小さくした初期の検索では、二分探索に近い検索条件となるため、検索キーワードに非常に近い音素列を高速に検索できることとなる。そして、この第１の閾値を徐々に大きくすることにより、一種の反復深化探索を可能にする。さらに、第１の閾値を更新する前に逐次出力（ユーザに提示）することにより、検索キーワードに近似する音素列から順次出力することができる。キーワードの分割について、上記実施形態では、検索キーワードの長短を判断する際の音素数について９以上を例示したが、分割された後の音素数を６とする場合には、検索キーワードの長短の境界を１８とすることができる。分割後の音素数が少ない場合には、第１段階候補（ｂ）の数が膨大となり、処理速度が遅くなる可能性もあり得るからである。そこで、分割後の音素数を調整することによって、検索時間のさらに高速化することも可能である。

　なお、上記に示した検索方法において、第１の閾値を更新せずに処理を終了するような構成とすることもできる。この場合、検索により得られる音素列は検索キーワードに近似するものに限定されるが、予め第１の閾値を少し大きめに設定することにより、一度の検索ステップによって多くの音素列を検索することができる。

　また、キーワードの分割について、当該分割の有無を判定するステップ（Ｓ１３）が設けられているが、このようなステップを割愛し、予め定めた音素数に分割するように処理するか、または、分割しないものとして処理することも可能である。所定の音素数に分割するような処理を選択する場合には、第１の閾値から第２の閾値を数１に示す数式に従って算出するには、３以上に分割すべきであるから、所定の音素数に分割した際の分割数が３未満となるか、３以上となるかを判断するステップが必要となる。

　一方、本発明に係る音声検索装置の実施形態は、図２の内部構成ブロック図のように構成される。本実施形態は、予めサンプリング（例えば、サンプリングビット数１６ｂｉｔ、サンプリング周波数４４．１ｋＨｚ）された大規模音声データを音声データベース２５に格納して、Ｓｕｆｆｉｘ　Ａｒｒａｙ作成部２８とＤＰマッチングを行う音声検索部２９ともに用いてあいまい検索を行う手段を実現するものである。

　本実施形態の音声検索装置３１は、音声データからＳｕｆｆｉｘ　Ａｒｒａｙを作成するために、音声データベース２５、データベース用音声認識器２６、音声用音素列生成部２７およびＳｕｆｆｉｘ　Ａｒｒａｙ作成部２８が設けられている。他方、入力される検索キーワードの音素列を作成するために、入力装置２１，２４および音素列生成部２３が設けられている。入力装置２１，２４は、一方が音声入力装置（例えば、マイク）２１であり、他方が文字入力装置（例えば、キーボード）２４である。両者は異なる入力手段であるが、両者をともに備える構成でもよいが、いずれか一方のみを備える構成でもよい。ただし、音声入力装置（例えば、マイク）２１を備える場合には、音声認識器２２を備える必要がある。そして、単語列として入力または音声を単語列に変換されたキーワードは、音素列生成部２３によって音素列に変換されるのである。図２の「音声／文字用音素列生成部」との記載は、音声入力の場合または文字入力の場合のいずれについても対応することを意味する。

　図２に示しているように、音声データから作成されたＳｕｆｆｉｘ　Ａｒｒａｙの情報
と、入力された検索キーワードの音素列の情報は、音声検索部２９において検索処理される構成となっている。この音声検索部２９には、検索で用いる第１の閾値を設定する手段と、検索キーワードが所定長さ以上であるとき、該検索キーワードを音素により分割する手段と、検索キーワードの分割手段によって分割されたキーワードに対する検索に用いる第２の閾値を第１の閾値から決定する手段と、第１および第２の閾値の少なくともいずれか一方を用いて動的計画法により検索対象を検索する手段とが備えられている。

　従って、音声データに含まれる音素弁別特徴間の距離を算出して類似性を判定する手段は、音声検索部２９で実現される。一方、入力された検索キーワードを音素により分割する手段と、分割した検索キーワードを必ず２箇所以上マッチするために、上記式１（数１）に従って第１の閾値を変更し、第２の閾値を求める手段と、前記第１の閾値および前記第２の閾値により決定される検索対象を検索する手段は、いずれも図２における音声検索部２９で実現される。

　また、検索の第１の閾値を逐次的に増加させながら繰り返し検索する手段は、音声検索部２９によって実現されることとなり、検索結果を逐次的に閾値調整手段についても音声検索部２９において実現される。これと同時に、検索結果を逐次的に出力（ユーザに提示）する手段は、表示装置（例えば、ディスプレイ）３０または音声出力装置（例えば、スピーカ）３１によって実現される。

　さらに、検索キーワードの長さによりキーワード分割の有無を判定する手段は、音声検索部２９において実現され、また、キーワード分割後の音素数の決定を行うキーワード分割手段は、音声／文字用音素列生成部２３および音声検索部２９より実現される。

　本実施形態の音声検索装置は、図２に示しているように、音声検索結果は、表示装置３０（例えば、ディスプレイ）により検索に関する文字や画像等の情報が表示され、かつ、音声情報は、音声出力装置３１（例えば、スピーカ）から音として再生される。これらは、いずれか一方のみ備えた構成としてもよい。

　図２に示された音声処理装置３２は、ＲＯＭ、ＲＡＭ（以下、メモリ）、ＣＰＵ、ＨＤＤ、音声入出力インターフェイス（例えば、サンプリングビット数１６ｂｉｔ、サンプリング周波数４４．１ｋＨｚが処理可能なインターフェイス）がシステムバスにより電気的に有意に接続されているパーソナルコンピュータを用いて実現してもよい。音声データベースをＨＤＤに格納し、音声入力装置２１と音声出力装置３１を音声入出力インターフェイスに接続し、前記以外の手段をＣ＃言語もしくはＣ＋＋言語によりソフトウェアとして構成しＨＤＤに格納して、前記ソフトウェアは起動時にメモリへ読み込まれ、システムバスを介して、おもにメモリとＣＰＵを連動させ、必要な手段を実現することができる。

　次に、音声検索の具体的手法について、図３から図５を参照して説明する。

　図３は、音声データベースからの接尾辞配列（Ｓｕｆｆｉｘ　Ａｒｒａｙ）の作成の説明図である。データベース用音声認識器２６を用いて音声データベース２５に格納されている音声データを単語列に変換し、音声用音素列生成部２７により更に単語列を音素列（ａ）に変換する。次に、前記音素列からＳｕｆｆｉｘ　Ａｒｒａｙ生成部２８によりＳｕｆｆｉｘ　Ａｒｒａｙを作成し、メモリもしくはＨＤＤ上に保存する。

　検索キーワードを音声で受け付けた場合（音声入力装置２１により入力される）には、音声認識器２２を用いて単語列に変換し、音声／文字用音素列生成部２３により音素列に変換する。テキスト（文字列）で受け付けた場合（文字入力装置２４により入力される）にも音声／文字用音素列生成部２３により音素列に変換する。音声検索部２９により検索
で用いる音素あたりの平均第１の閾値を低い値（例えば０．０）に設定する。

　前記Ｓｕｆｆｉｘ　Ａｒｒａｙ上でのＤＰマッチングによるあいまい検索の説明を図４に示す。最適の音素数に分割、あるいは非分割した後に、Ｓｕｆｆｉｘ　Ａｒｒａｙ上でＤＰマッチングにより検索を行う。ＤＰマッチングの閾値として、キーワードが非分割の場合には第１の閾値を用い、分割した場合には第１の閾値を上記式1（数１）で変更した値（第２の閾値）を用いる。これにより検索結果の第1段階候補（ｂ）が得られる。非分割の場合には、（ｂ）を結果としてユーザに表示装置３０および音声出力装置３１により提示する。

　キーワードの分割と音声検索の説明を図５に示す。音素を分割した場合には、分割されたキーワードのうち２つ以上が検索されるため、検索結果の位置関係から検索結果の最終候補（ｃ）を求める。

　最終候補（ｃ）を音素列（ａ）と第１の閾値を用いてＤＰマッチングし、検索結果をユーザに表示装置３０および音声出力装置３１により提示する。検索結果の提示後に、第１の閾値を少し高い値に更新（例えば０．２を加算する）した後、第１の閾値を用いたＤＰマッチングへ戻る。

　ＣＳＪ（Ｃｏｒｐｕｓ　ｏｆ　Ｓｐｏｎｔａｎｅｏｕｓ　Ｊａｐａｎｅｓｅ）コーパス（男性話者、３９０時間）の音声データを対象に、パーソナルコンピュータ（Ｉｎｔｅｌ（登録商標）　Ｐｅｎｔｉｕｍ（登録商標）Ｄ　２．８ＧＨｚ、メモリ４ＧＢ）上で図２の音声検索装置３２を、Ｃ＃言語で構築し、検索実験を行った結果、第１の閾値を最も低くした場合（０．０）に最初の検索結果が出力されるまでの時間を図６から図９に示す。図６から図９では、グラフの横軸は第１の閾値、縦軸は検索の再現率、適合率および処理時間を表している。検索キーワード６音素（図６を参照）、１２音素（図７を参照）、１８音素（図8を参照）、２４音素（図9を参照）で、前記第１の閾値を最も低くした場合に最初の検索結果が出力されるまでの時間は、それぞれ数ミリ秒であった。

　上記コーパス中に含まれる半分の正解キーワードを検出するまでの時間を図１０と図１１に示す。図１０と図１１では、グラフの横軸は第１の閾値、縦軸は検索の再現率、適合率および処理時間を表している。検索キーワード６音素（図１０を参照）、１２音素（図１１を参照）で、前記半分の正解キーワードを検出するまでの時間は、それぞれ１秒以下であった。

　音声に換算して１００００時間相当の時間数の新聞記事データを対象に、パーソナルコンピュータ（Ｉｎｔｅｌ（登録商標）　Ｐｅｎｔｉｕｍ（登録商標）Ｄ　２．８ＧＨｚ、メモリ４ＧＢ）上で図２の音声検索装置３２をＣ＃言語で構築し、検索実験を行った結果を図１２から図１４に示す．非特許文献１には２０３１時間の音声データベースから５．２モーラ（５から１１音素の範囲内）の検索キーワードを検索するのに２．１７秒を要すると記載されている。一方、本発明では図１２に示すように、第１の閾値を０．０にして６音素から２４音素の検索キーワードを検索し、最初の検索結果群をユーザに提示するまでの時間は数ミリ秒から１２０ミリ秒である。また、第１の閾値を０．２に更新して改めて６音素から２４音素の検索キーワードを検索し、新たに得られた検索結果群をユーザに提示するまでの時間は図１３に示すように、数ミリ秒から１３０ミリ秒である。さらに、第１の閾値を０．４に更新して改めて６音素から２４音素の検索キーワードを検索し、新たに得られた検索結果群をユーザに提示するまでの時間は図１４に示すように、数十ミリ
秒から６００ミリ秒である。以上から、高速に音声検索を行うことができていることが分かる。

　音声に換算して１００００時間相当の時間数の新聞記事データを対象に、パーソナルコンピュータ（Ｉｎｔｅｌ（登録商標）　Ｃｏｒｅ２Ｄｕｏ　Ｅ８６００　３．３ＧＨｚ、メモリ８ＧＢ）上で図２の音声検索装置３２をＣ＋＋言語で構築し、検索実験を行った結果を図１５から図１８に示す。図１５に示すように、第１の閾値を０．０にして６音素から２４音素の検索キーワードを検索し、最初の検索結果群をユーザに提示するまでの時間は数ミリ秒である。また、図１６に示すように、第１の閾値を０．２に更新して改めて６音素から２４音素の検索キーワードを検索し、新たに得られた検索結果群をユーザに提示するまでの時間は数ミリ秒である。さらに、図１７に示すように、第１の閾値を０．４に更新して改めて６音素から２４音素の検索キーワードを検索し、新たに得られた検索結果群をユーザに提示するまでの時間は数ミリ秒から２７ミリ秒である。さらに、図１８に示すように、第１の閾値を１．０に更新して改めて６音素から２４音素の検索キーワードを検索し、新たに得られた検索結果群をユーザに提示するまでの時間は十数ミリ秒から約１秒である。以上から、高速に音声検索を行うことができていることが分かる。

　　２１　音声入力装置
　　２２　音声認識器
　　２３　音声／文字用音素列生成部
　　２４　文字入力装置
　　２５　音声データベース
　　２６　データベース用音声認識器
　　２７　音声用音素列生成部
　　２８　Ｓｕｆｆｉｘ　Ａｒｒａｙ生成部
　　２９　音声検索部
　　３０　表示装置
　　３１　音声出力装置
　　３２　音声検索装置

Claims

音声を入力として、前記入力された音声をサンプリングして得られる音声データを検索する音声検索装置であって、
音声データベースに記録される音声を認識するデータベース用音声認識器と、
前記データベース用音声認識器によって認識された単語列から音素列を生成する音声用音素列生成部と、
前記音声用音素生成部によって生成された音素列から接尾辞配列を生成するＳｕｆｆｉｘ
　Ａｒｒａｙ生成部と、
検索キーワードを入力する入力装置と、
前記入力装置により入力された検索キーワードから音素列を生成する入力音素生成部と、前記接尾辞配列上で検索キーワードを動的計画法により検索する音声検索部と、
前記音声検索部により検索された結果を出力する出力装置とを備え、
前記音声検索部は、検索で用いる第１の閾値を設定する手段と、
前記第１の閾値を用いて動的計画法により検索対象を検索する手段と
を備えた音声検索部であることを特徴とする音声検索装置。
請求項１に記載の音声検索装置であって、
前記音声検索部は、さらに、
検索キーワードが所定長さ以上であるとき、該検索キーワードを音素により分割する手段と、
前記検索キーワードの分割手段によって分割されたキーワードに対する検索に用いる第２の閾値を前記第１の閾値から決定する手段とを備え、
前記検索対象を検索する手段は、前記第２の閾値を用いて動的計画法により検索対象を検索する手段である
ことを特徴とする音声検索装置。
請求項１または２に記載の音声検索装置であって、
前記音声検索部は、前記第１の閾値を逐次的に増加させながら繰り返し検索し、検索結果を逐次的に提示する閾値調整手段を備えた音声検索部であることを特徴とする音声検索装置。
請求項１ないし３のいずれかに記載の音声検索装置であって、
前記音声検索部は、さらに、
検索キーワードの長さによりキーワード分割の有無を判定する手段と、
前記キーワード分割後の音素数の決定を行うキーワード分割手段と
を備えた音声検索部であることを特徴とする音声検索装置。
請求項１ないし４のいずれかに記載の音声検索装置であって、
前記動的計画法により検索対象を検索する手段は、さらに、
動的計画法において音素弁別特徴に基づく音素間距離を用いて音素間の類似性を算出する手段を備えた検索対象を検索する手段であることを特徴とする音声検索装置。
音声を入力として、前記入力された音声をサンプリングして得られる音声データを検索する音声検索方法であって、
音声データを音素列に変換し、接尾辞配列を作成するステップと、
検索キーワードを受け付け、音素列に変換するステップと、
検索で用いる第１の閾値を設定するステップと、
前記第１を用いて動的計画法により検索対象を検索するステップと、
前記検索のステップにより検索された結果を出力するステップと
を含むことを特徴とする音声検索方法。
請求項６に記載の音声検索方法であって、さらに、
検索キーワードが所定長さ以上であるとき、該検索キーワードを音素により分割するステップと、
前記検索キーワードの分割ステップによって分割されたキーワードに対する検索に用いる第２の閾値を前記第１の閾値から決定するステップとを備え、
前記検索対象を検索するステップは、前記第２の閾値を用いて動的計画法により検索対象を検索するステップである
ことを特徴とする音声検索方法。
請求項６または７に記載の音声検索方法であって、さらに、
前記第１の閾値を逐次的に増加させながら繰り返し検索する閾値調整ステップを含むことを特徴とする音声検索方法。
請求項６ないし８のいずれかに記載の音声検索方法であって、さらに、
前記検索キーワードの長さによりキーワード分割の有無を判定するステップと、
前記キーワード分割後の音素数の決定を行うキーワード分割ステップと
を含むことを特徴とする音声検索方法。
請求項６ないし９のいずれかに記載の音声検索方法であって、
前記検索対象を検索するステップは、前記動的計画法において音素弁別特徴に基づく音素間距離を用いて音素間の類似性を算出するステップを有することを特徴とする音声検索方法。