JPWO2014155652A1

JPWO2014155652A1 - 話者検索システム、プログラム

Info

Publication number: JPWO2014155652A1
Application number: JP2015507859A
Authority: JP
Inventors: 直之神田; 康成大淵
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2013-03-29
Filing date: 2013-03-29
Publication date: 2017-02-16
Also published as: WO2014155652A1

Abstract

話者検索システムにおいて、検出された結果が本当に当該話者のものであるかを容易に判断できる最適聴取区間を検出しユーザに提示することで、ユーザが話者検索結果の正解/不正解を容易に判定できるようにするものである。話者を検索するシステムにおいては、検出された音声の話者が類似の場合、検出結果が本当に探したい人物が発したものであるかを判定することに困難を伴う。検出された結果が本当に当該話者のものであるかを容易に判断できる最適聴取区間を検出しユーザに提示する枠組みを提供する。

Description

本発明は音声データを検索するシステムに関するものである。

近年のストレージデバイスの大容量化に伴い、大量の音声データが蓄積されるようになってきている。従来の多くの音声データベースでは、音声データを管理するために音声データに音声データが録音された時刻の情報を付与し、その情報を元に所望の音声データを検索することが行われてきた。しかしながら、時刻情報に基づく検索では、所望の音声が発話された時刻を予め知っている必要があり、特定のキーワードが発話中に含まれる音声を検索するといった用途には不向きであった。特定のキーワードが発話中に含まれる音声を検索する場合、音声を始めから終わりまで聴取する必要があった。

そこで、音声データベース中の特定のキーワードが発話された時刻を自動的に検出する音声中のキーワード検索技術が開発されている。代表的な手法のひとつであるサブワード検索法では、まずサブワード認識処理によって、音声データをサブワード列へと変換しておく。ここでサブワードとは、音素や音節など、単語よりも細かい単位を指す名称である。キーワードが入力されると、当該キーワードのサブワード表現と音声データのサブワード認識結果を比較し、サブワードの一致度が高い個所を検出することにより、音声データ中で当該キーワードが発話されている時刻を検出する（特許文献１、非特許文献１）。

音声中のキーワード検索技術では、キーワードによる検索が可能であるが、特定の話者の音声データを探すことはできない。そこで、特許文献２には音声データに話者ラベルを自動付与するための話者照合技術が開示されている。また、特許文献３には話者識別技術が開示されている。これらの技術では予めラベルを付与しておきたい話者の音声を収集して、話者モデルを作成しておく。音声が入力されると作成済みの話者モデルを用いて、音声に対する話者ラベルの付与を行う。こうすることでラベル付与済みの話者であれば音声データを高速に検索することが可能となるシステムが開示されている（特許文献４）。

一方で、話者モデル未作成の話者の音声データを探したい場合には改めて話者モデルを作成した上で、全ての音声データに対する話者ラベル付与工程をやり直す必要がある。しかしながら話者ラベル付与処理は計算負荷が高く、音声データが大規模な時には話者モデル未作成の話者が出てくるたびに話者ラベル付与処理をやり直すことは非現実的である。

そこで、話者ラベルを付与するのではなく、音声から話者特徴量ベクトルを抽出して保存しておき、新たな話者の音声データを探す場合には話者特徴量ベクトルどうしのマッチングを行うことにより、任意の話者の音声データを検索できる技術が開示されている（特許文献５）。

特開2002-221984号公報特開2010-286702号公報特開2004-286805号公報特開2001-069436号公報特開2011-059703号公報

K. Iwata et al.: Open-Vocabulary Spoken Document Retrieval based on new subword models and subword phonetic similarity，In Proc. Interspeech 2006，2006

しかしながら、上記の技術を用いて特定の話者の音声データを検索した結果を聴取によって確認する際に問題が生じる。ユーザは検出された結果が本当に探している話者の音声データであるのかを確認する必要がある。しかし、検出された音声は、多くの場合探したい話者と似た声質の音声であり、検出された音声が本当に探したい話者の声なのかを判断するためには、検出された音声をユーザが確信を持てるまで聞く必要がある。この結果、一つ一つの検出結果に対する正解/不正解をユーザが判断するのに非常に時間がかかるという問題があった。

そこで、本願発明は、話者検索システムにおいて、検出された結果が本当に当該話者のものであるかを容易に判断できるようにすることを目的とする。

本発明は上記を鑑み、例えば、話者の固有性や聴取時間、聴取の容易さなどから見て、話者検索結果の確認に要するコスト（労力）が最も少ない区間を最適聴取区間として算出し、ユーザに当該区間を提示する。

話者検索システムにおいて、得られた検出結果が本当に探している話者のものであるのかを容易に判断できるようになる。

代表的なシステム構成代表的なシステムの接続図音声が処理される様子音声区間クラスタリング処理最適聴取区間検出話者検索用データベース検索提示インタフェースシステム構成２コスト修正インタフェース最適聴取区間検出の第２の実施例

以下、本発明の第１の実施形態を図面を用いて説明する。

図１は、第１の実施形態を示し、本発明を適用する計算機システムの構成を示すブロック図である。本実施形態の計算機システムは、話者インデクスサーバ101、検索サーバ106、操作端末110からなり、これらがネットワーク112を介して接続される。また、ネットワーク112には検索の対象となる音声データを蓄積する音声データ蓄積装置114と音声データ蓄積装置内の特定の話者を検索するために利用する話者検索用データベース113が接続される。

話者インデクスサーバ101は、音声区間検出102、音声クラスタリング103、話者特徴量抽出104、最適聴取区間検出105の各プログラムが格納されるメモリ120、メモリから各プログラムを読みだして実行するプロセッサ122、I/F121を備える。

検索サーバ106は、話者特徴量抽出107、ベクトル検索108、検索結果提示手段109が格納されるメモリ129、メモリから各プログラムを読みだして実行するプロセッサ131、I/F130を備える。

操作端末110内には端末内音声データ蓄積装置111が納められている。また音声出力装置115、表示装置116、入力装置117、音声入力装置118がそれぞれ接続されている。

図２は、図１の構成要素を処理の流れに従って配置した図である。処理の流れは大きく分けて登録フェーズと検索フェーズに分かれている。

登録フェーズでは、音声データ蓄積装置114に蓄積された音声データから話者検索用データベース113を生成する。検索フェーズでは、音声入力装置118もしくは入力装置117から入力された音声データに従って、当該音声データを発した話者と同一もしくは類似の話者が音声データ蓄積装置114内で発話している音声区間を検出する。この検出動作の際に話者検索用データベース113が利用される。検出の結果は検索結果提示手段109により表示装置116と音声出力装置115を介してユーザに提示される。

以下では、登録フェーズと検索フェーズの双方における処理の流れの詳細を図２に従って示す。まず、登録フェーズの処理を説明する。

＜音声区間検出102＞
登録フェーズでは、音声データ蓄積装置114から入力された音声ファイルに対して、まず音声区間検出102が動作する。音声区間検出102は、入力された音声データの音声のパワーやスペクトル等に従って音声データを音声と非音声（雑音、無音等）を分別し、入力された音声データから音声を含む区間のみを抽出する。

音声のパワーに従った音声区間検出の実現法としては、例えば、音声から10msecごとに25msec分の波形を抽出し、当該区間のパワーを計算し、音声のパワーが既定値以下の状態が一定時間継続した場合に当該区間は雑音であると判定し、残りの区間は音声であると判定する、という方法がある。なお音声のパワーやスペクトル等に従って音声と非音声を分別する手段については当業者には周知であり、その他の手法の詳細は省略する。音声区間検出は周知の技術のいずれを用いてもよい。

音声区間検出102の結果、音声データは非音声区間によって分割され細切れの音声波形となる（図３）。ここで得られた一つ一つの音声波形を音声区間Ｘ_i(i=１,..,Ｎ)とする。iは音声に便宜的に割り振られたＩＤ（音声ＩＤ）であり、音声区間検出102が付与する。また、音声区間検出102は、音声区間Ｘ_iに入力された音声ファイルの何秒から何秒までを切り出したものであるかという情報を付属情報として付与する。

＜音声区間クラスタリング103＞
続いて音声区間クラスタリング処理103は、音声区間検出102によって得られた細切れの音声区間Ｘ_i(i=１,..,Ｎ)を、同一の話者の音声が同一の集合に含まれるように、クラスタリングを行う。ここではBIC（Bayesian information criterion）を用いた発話交代検知を用いる方法を、図4のフローチャートに従って説明する。

まず音声区間クラスタリング103は、音声区間Ｘ_i(i=１,..,Ｎ)のそれぞれからスペクトル特徴量系列Ｆ_i(i=１,..,Ｎ)を抽出する（図4の302）。ここで用いられるスペクトル特徴量は例えば20次元のMel Frequency Cepstrum Coefficients(MFCC)特徴量とその差分及び2次差分を併せた60次元のMFCC特徴量などが利用される。音声波形をMFCC特徴量に変換する方法は当業者であれば周知であるためここでは省略する。以下ではMFCC特徴量を利用するとして説明を続けるが、それ以外の特徴量を用いても良い。

続いて、音声区間クラスタリング103は、クラスタリング結果となる集合ｃの初期値をｃ={{1},…,{Ｎ}}と設定する（図4の303）。ここで集合ｃは音声IDを話者毎にクラスタリングした結果を表現したものであり、集合ｃのある要素に含まれる音声ID群は同一話者が発した音声と判定されたことを表す。例えば図３のように集合ｃに{1,2,10}という要素が含まれていた場合、音声区間Ｘ_1、Ｘ₂及びＸ_1０は同一話者が発した音声と判定されたことを意味する。図4の303で集合ｃ={{1},…,{Ｎ}}と設定したということは、全ての音声区間Ｘ_iは異なる話者が発したものという状態を初期値として設定したことを意味する。

続いて、音声区間クラスタリング103は、集合ｃに含まれる全ての要素の組{a,b}についてBIC{a,b}を求める（図4の304）。ここでBIC{a,b}は下記に従って定義されるスコアである。

ここでＮ_ＺとＳ_Ｚはそれぞれ、集合Cの要素Ｚに含まれる音声IDに対応したMFCC特徴量Ｆ_iを一つの特徴量系列として結合した場合に、そこに含まれる特徴量のフレーム数と特徴量の共分散行列を表している。またdはMFCC特徴量の次元である。αは実験的に選択されるパラメータである。ΔBIC(a,b)は、小さいほど、要素aに対応する音声と要素bに対応する音声が同一話者が発話したものである可能性が高い、と判断される。音声区間クラスタリング103は、集合Cに含まれる全ての要素の組の中で最小となる組{a_min, b_min}を求める。

音声区間クラスタリング103は、ΔBIC(a_min,b_min)が既定の閾値θ未満の場合、集合Cからa_minとb_minを取り除いた上で，新たな要素{a_min, b_min}を集合Cに加え図4の304の処理に戻る（図4の306）。音声区間クラスタリング103は、ΔBIC(a_min,b_min)が閾値θ以上となった場合に処理を終了する。

この処理の結果、集合Cには同一話者の音声と判定された音声IDが同一の要素に含まれる状態になる。例えば図3のように集合Cの要素に{3,7,8}という要素がある場合には音声区間Ｘ₃,Ｘ₇,Ｘ₈は同一話者の音声であると判定されたことになる。以上が音声区間クラスタリング処理である。

＜話者特徴量抽出104＞
続いて話者特徴量抽出処理104が動作する。ここではiVector特徴量抽出処理について説明する。話者特徴量抽出処理104は、音声区間クラスタリング103で得られた集合Cの要素Ｚごとに以下の処理を行う。

要素Ｚに含まれる音声IDに対応したMFCC特徴量Ｆ_iを一つの特徴量系列として結合した時に、結合された特徴量系列をf_t(t=1,…,L)と表す。

話者特徴量抽出処理104は、まず時刻tごとに得られるF次元のスペクトル特徴量f_t(t=1,…,L)に対し一般話者の特徴量から作成されたC 混合のGMM(Gaussian Mixture Model；混合ガウス分布)を用いて以下の統計量Ｎ_CとF^~ _c (c=1,…,C)を計算する。

ここでΩ_Uは一般話者GMMのパラメータセットである。P(c|f_t,Ω_U)はスペクトル特徴量f_tが得られた時の，一般話者GMMにおけるｃ番目の正規分布に対する事後確率である。またμ_cは一般話者GMMにおけるｃ番目の正規分布の平均である。なお、GMMについては当業者には周知のモデルであるので説明を省略する。

その後，話者特徴量抽出処理104は、以下の式によってI次元の話者特徴量ｗを得る。

ここでTは因子負荷行列，Σはｗ_Ｚの最大事後確率推定における共分散行列を表す。またN(u)はCFxCFの行列であり，その対角要素がN_cIであるようなブロック対角行列である。F^~ _c(u)はF^~ _cをc=1からc=Cまで直列につないだ値を対角要素として持つようなCFxCFの対角行列である。因子負荷行列は多数の話者の音声データを用い，全ての話者性を最も尤もらしく表現できる特徴空間へと写像できるように前もって求めておく。

以上の処理で要素Ｚに対応する音声から，その話者特徴量ｗ_Ｚが抽出される。話者特徴量は一つのI次元のベクトルであり，次元数Iとしては200や400が良く用いられる。話者特徴量抽出処理104は、この作業を集合Cの全ての要素に対して行い,その話者特徴量を抽出する。

＜最適聴取区間検出105＞
続いて最適聴取区間検出処理105が動作する。この処理の流れを図5のフローチャートに従って説明する。

最適聴取区間検出処理105は、音声区間クラスタリング103によって得られた集合Cの全ての要素に対して以下を行う。

ここでは集合Cの要素のうち要素Ｚを選択したとする。図3で示したように、要素Ｚは同一話者が発したと想定される音声IDの集合である。まずＺに含まれる各音声IDに対応する音声区間Ｘ_i全てに対して話者特徴量w_iを求める（図5の402）。ここでの話者特徴量の抽出方法は話者特徴量抽出処理104と同一である。続いてＺに含まれる音声IDに対応する音声区間Ｘ_iそれぞれに対して以下のスコア、異話者間距離スコアS_diff、同一話者内相関スコアS_same、雑音スコアS_SN、雑音種スコアS_noise、音声長スコアS_lengthを求める。いずれのスコアも、当該音声区間Ｘ_iをユーザが聴取してある音声と比較をする際に要するコスト（労力）が低いほど小さいスコアを算出するように定義される。このユーザが聴取してある音声と比較をする際に要する労力を「聴取コスト」と定義する。

＜異話者間距離の算出＞
最適聴取区間検出処理105は、一般の話者の声と異なる特性を持つ音声区間ほど当該話者の固有性が高く、当該区間の聴取コストは低くなるものとしたスコアを算出する。具体的には、音声区間Ｘ_iの話者性がどれほど特異かを測る異話者間距離スコアS_diffを求める（図5の404）。音声区間Ｘ_iの話者性が特異であることは、一般話者を多数集めた音声と音声区間Ｘ_iを比較することで求める。

具体的には、異話者間距離スコアS_diffを求めるにあたり、話者が既知である多数の音声データ、もしくは、少なくとも音声区間Ｘ_iの話者とは同一の話者ではないと知っている多数の音声データのいずれかを用意しておく。この多数の音声データは音声データ蓄積装置114に蓄積されている。これらの音声データ群から、話者特徴量抽出処理104と同一の方法によって、それぞれの音声に対する話者特徴量の集合

を求める。

この時、音声区間Ｘ_iに対する異話者間距離スコアS_diffは次で求められる。

ただし、w_iは前述の通り、音声区間Ｘ_iに対する話者特徴量である。また sim(w_i,w_j)は話者特徴量w_iとw_jの間の近さを算出する関数であり、話者特徴量どうしが類似している場合には1、そうでない場合には0に近い値を取る。sim(w_i,w_j)はいくつかの定義が可能であり、例えば次のコサイン距離による定義が利用できる。

また、次の確率モデルに基づいた定義を用いることもできる。

ただし、

ここでΣ_wcは話者内の変動を表す共分散行列，Σ_acは話者間の変動を表す共分散行列である。これらの共分散行列は多数の話者特徴量から因子分析の手法を用いてシステム開発時に推定しておく。

＜同一話者内相関の算出＞
最適聴取区間検出処理105は、同一話者の発話内で繰り返し出現する音声区間Ｘ_iほど、当該音声区間Ｘ_iの話者固有性が高く、当該区間の聴取コストは低くなるものとしたスコアを算出する。具体的には音声区間Ｘ_iの話者性が同一話者内で繰り返されている度合いを測る同一話者内相関スコアS_sameを求める（図5の405）。スコアS_sameの求め方としてはいくつかの定義が考えられ、例えば以下の定義が用いられる。

ここでＺは集合Cの要素であり、|Ｚ|はＺに含まれる音声IDの数である。
また、スコアS_sameは次の定義を用いてもよい。

その他の定義でも、音声区間Ｘ_iの話者性が同一話者内で繰り返されている度合いであればスコアS_sameとして用いることができる。

＜雑音の大きさの算出＞
最適聴取区間検出処理105は、雑音が大きいほど、当該音声波形Ｘ_iの聴取コストは高くなるものとした雑音スコアを算出する。具体的には音声区間Ｘ_iの雑音の大きさを測る雑音スコアS_SNを求める（図5の406）。

ここでの実施例としては以下の方法を用いる。音声区間Ｘ_iは音声区間検出で音声と非音声の判別の結果抽出された音声区間であるので、音声区間Ｘ_iに隣接する非音声区間が当該音声の前後に存在する。これを雑音Ｎ_preおよび雑音Ｎ_postとする。このとき、スコアS_SNは次のように求められる。スコアは雑音が大きくなるほど大きくなるように設計されている。

ここでpower()は音声波形の平均パワーを求める関数である。平均パワーを求める方法は当該業者であれば周知であるので説明は省略する。
＜雑音の種類の算出＞
最適聴取区間検出処理105は、雑音の種類に応じて、当該音声区間Ｘ_iの聴取コストが変動するものとした雑音種スコアを算出する。例えば音声区間Ｘ_iに白色雑音が重畳している場合は、ピンクノイズが重畳している場合よりも話者性の違いを判別することが難しくなる。これらの性質を音声区間Ｘ_iの聴取コストを表すスコアS_noiseとして算出する（図5の407）。

具体的には、次のような方法が可能である。白色雑音、ピンク雑音などの雑音を予め用意しておき、当該雑音からMFCC特徴量を抽出する。MFCC特徴量から、それぞれの雑音を表すGaussian Mixture Model(GMM)を作成する。なお、MFCC特徴量の抽出方法及び、GMMについては当該業者であれば既知であるため詳細を省略する。

最適聴取区間検出処理105は、スコアS_SNを求めた場合と同様の方法によって得られた雑音Ｎ_preおよび雑音Ｎ_postを用い、以下のようにスコアS_noiseを計算する。

ここでnは予め定義されたノイズ種類を表す変数であり、GMM_nは当該ノイズに対応するGMMから得られる尤度を算出する関数である。また、table()はノイズ種別ごとに用意されたコストを返すテーブル関数であり、そのコストは人手でノイズ種別ごとに既定しておく。
＜音声の長さの算出＞
最適聴取区間検出処理105は、音声が長いほど、当該音声区間Ｘ_iの聴取コストは高くなるものとしたスコアを算出する。具体的には音声区間Ｘ_iの長さに対応する音声長スコアS_lengthを求める（図5の408）。

ここでlength()は音声波形の長さを求める関数である。

最適聴取区間検出処理105は、各スコアと算出すると、各音声IDに対応する音声波形Ｘ_iについて下記の式によって聴取コストを算出する（図5の409）。

ここでα₁〜α₅はそれぞれのスコアに対して定められた重みであり、予め人手で設定されている。聴取に適した音声区間ほどCostが小さくなるように定義しておく。

要素Ｚに含まれる音声IDのうちでCostが最小となる音声IDを、最適聴取区間の音声ID i_Z,minとして求める。

なお、ここでの重みα₁〜α₅をユーザが希望に応じて変更できるインタフェースを備えていても良い。このためには図９のようなスライドバーで当該コストを重視するかしないかをユーザが指定できるようなインタフェースを表示装置116に備えていても良い。ここでは各コストに対応するスライドバー901とそのコストを重視する（すなわち当該コストに係る重みαを大きくする）か、重視しない（重みαを小さくする）か、の度合いを決定するアイコン902が備えられている。例えば聴取時間が長くても、話者の特異性が明確な音声区間を最適聴取区間として設定する場合には、ユーザは聴取時間のコストS_lengthに対する重みα₅を小さくするために、当該コストに関わるスライドバーの値を「重視しない」方向へスライドさせる（図９ 903）。

上記の処理によって、話者インデクスサーバ101は、集合C（クラスタリング結果）に含まれる要素Ｚ（同一話者と判定された音声の音声ＩＤの集合）ごとに、要素Ｚに対応する話者特徴量ｗ_zと、i_Z,minを得る。

話者インデクスサーバ101は、これらを話者検索用データベース113に登録する。

＜話者検索用データベース＞
話者検索用データベース113の構造を図6に示す。各行ごとに要素Ｚに対応した情報が格納される。

ファイルID 501には、要素Ｚに含まれる音声IDに対応する音声を含む音声ファイルの名前が記載される。音声区間502には要素Ｚに含まれる音声IDに対応する音声の始端と終端（図３を参照）の情報が格納される。話者特徴量503には話者特徴量ｗ_zをバイナリ形式で保存した場合の保存ファイル名が格納される。最適聴取区間504には音声ID i_Z,minに対応する音声区間Ｘi_Z,minの始端と終端が格納される。

例えば図6における第1行めは、AAA.wavという音声ファイルから(図6 501)、音声区間検出102と音声区間クラスタリング103の結果0.5秒〜3.4秒、4.1秒〜8.4秒、30.0秒〜32.3秒の3つの音声区間が同一話者の音声として切り出され(図6 502)、その話者特徴量はAAA-1.datというファイルに格納されており（図6 503）、最適聴取区間検出105によって最適聴取区間は30.0秒〜32.3秒の音声区間であると判定された（図6 504）、ということを表している。

なお、話者検索用データベースには上記の他に、S_diff、S_same、S_SN、S_noise、S_lengthおよびCostの各値を保存しておいてもよい。

さらに話者識別技術を用いて、話者検索用データベースの各行に対応する音声に話者ラベルを付与しておいても良い。話者識別技術の詳細は従来技術において開示されており、当該業者には周知であるため詳細は省略する。

以上が登録フェーズ（図2）の説明である。

続いて、図2の流れに従い、検索フェーズの動作の説明を行う。

検索フェーズではユーザが、検索したい話者の音声Ｘ_searchをシステムへ入力する。ここでは、音声入力装置118を通すか、もしくは端末内音声データ蓄積装置111を入力装置117で操作するか、もしくは音声データ蓄積装置114を入力装置117で操作するか、のいずれかの手段によって検索サーバ106に音声を入力するものとする。

検索サーバ106は、検索したい話者の音声Ｘ_searchの入力を受け付けると話者特徴量抽出107を動作させ、音声Ｘ_searchから話者特徴量ｗ_searchを抽出する。これは話者特徴量抽出104と同一の手段を用いる。

その後ベクトル検索108モジュールが動作する。ベクトル検索108は、話者検索用データベースに登録された話者特徴量ｗ_k(k=1,…,K)と、音声Ｘ_searchから得られた話者特徴量ｗ_searchとを関数sim(ｗ_search,ｗ_k)によって比較し、sim(ｗ_search,ｗ_k)の降順に話者検索用データベース（図6）の各行を並べ替える。

なお、ここで用いる関数sim()は最適聴取区間検出105で定義したもののいずれを用いてもよい。また、話者特徴量ｗ_searchとを関数sim(ｗ_search,ｗ_k)によって比較し、sim(ｗ_search,ｗ_k)が大きい上位N件だけを抽出してもよい。

検索結果表示手段109は、上述のようにして並べ替えた話者検索用データベースを表示装置116に出力する。

図７に表示画面を示す。検索窓701にユーザから検索したい音声ファイルの名前が入力された後、検索ボタン702が押下されると、検索サーバ１０６は、上述した検索フェーズを動作させ検索結果703を出力する。ここではベクトル検索108が並べ替えた順に、[C:\wav\kanda.wav]と同一だと思われる音声が含まれたファイル名704、その発話時刻の代表値705が提示される。代表値としては発話時刻のうちでもっとも早いものを提示してもよいし、最適聴取発話区間（図6の504）を提示しても良い。

また「確認用音声再生」という箇所（図7の706）が押下されると、音声出力装置は、最適聴取区間（図6の504）に相当する音声を再生する。ここで再生される音声は、最適聴取区間検出105によって最も当該話者の判定が容易に行えるように選択されているため、ユーザは容易に検索結果が正解か不正解かを判定できる。
「ファイル冒頭から再生」（図7の707）という箇所を押されると、当該ファイルの冒頭から音声を再生することもできる。

上記に加えて、S_diff、S_same、S_SN、S_noise、S_lengthおよびCostの各値を保存している場合には、検索提示インタフェースに上記の他にそれらの値も同時に表示してもよい。

また、話者検索用データベース113（図6）の各行に対応する音声に対して話者識別技術で話者ラベルが付与されている場合には、上記とは異なり、ユーザが話者名を検索窓701に入力することで話者データベースを検索することも可能である。この場合にも検出結果の提示と再生のインタフェースは図７のようになり、「確認用音声再生」という箇所（図7の706）を押下することで最適聴取区間検出結果を聞くことができるため、ユーザは本発明の効果を受けることができる。

さらに、ユーザが聴取に関わる条件を入力し、それに従って出力結果を限定することも可能である。具体的には聴取に関わる条件として、聴取時間の上限、聴取コストの上限のいずれか一方または全てを検索用音声Ｘ_searchと同時に入力できるようにしておく。これは例えば、入力用の窓をインタフェースに設けたり、複数の条件の中から選択できるようにするなどの方法で実現される。この時、ベクトル検索108は話者検索用データベースの各行をsim(ｗ_search,ｗ_k)に従って並べ替えた後、当該条件に達するまでユーザに上位N件の検索結果を出力する。

スタンドアローンシステム
以下、本発明の第２の実施形態を添付図面に基づいて説明する。

図８は第2の実施形態のシステム構成を表したものである。計算機101は、音声区間検出102、音声区間クラスタリング103、話者特徴量抽出104、最適聴取区間検出105、話者特徴量抽出107、ベクトル検索108、検索結果提示109、の各プログラムを備えるメモリ801、音声データ蓄積装置114、端末内音声データ蓄積装置111、話者検索用データベース113、各プログラムをメモリから読みだして実行するプロセッサ802、音声出力装置115、表示装置116、入力装置117、音声入力装置118と接続されるI/F（Ａ）803、I/F(B)804、I/F(C)805、I/F(D)805を備える。音声区間検出102、音声区間クラスタリング103、話者特徴量抽出104、最適聴取区間検出105、話者特徴量抽出107、ベクトル検索108、検索結果提示109、音声データ蓄積装置114、端末内音声データ蓄積装置111、話者検索用データベース113、音声出力装置115、表示装置116、入力装置117、音声入力装置118は実施例１のものと同一である。実施例１との違いは、本システムでは全てのモジュールが一つの計算機101に収められている点である。

処理の流れについては実施例１と同一であるので省略する。

最適聴取区間検出の第2の実施例
実施例３は実施例１と構成は同じであるが、最適聴取区間検出の挙動が異なる。具体的には、実施例１では最適聴取区間検出の候補となる音声区間は、要素Ｚ_nに含まれる音声IDに対応する音声であったが、本実施例では要素Ｚ_nに含まれる音声IDに対応する音声を接続することによって音声を生成し、その生成された音声区間も最適聴取区間の候補とする。

処理の流れを図10に従って説明する。

実施例３では、最適聴取区間検出は、クラスタリング結果である集合Ｃ（図３）の要素Ｚ_nに対して、要素Ｚ_nに含まれる音声IDを昇順に並べたときに連続するk個組の音声を接続した音声Ｘ_{zn(i),…,zn(i+i-1)}を抽出する。この作業をk=1からk=Kまで実行することで複数の音声を抽出する（図10の1003）。

その後の処理は実施例１の場合と同様であり、最適聴取区間検出は、まず音声から話者特徴量を抽出（図10の1003）した後、音声からスコアS_diff、S_same、S_SN、S_noise、S_lengthを求め、最後にCostを算出する。話者特徴量の抽出や各スコア及びCostの算出方法は実施例１と同様なので省略する。

101 話者インデクスサーバ
106 検索サーバ
110 操作端末
113 話者検索用データベース
114 音声データ蓄積装置
115 音声出力装置
116 表示装置
117 入力装置
118 音声入力装置

Claims

音声データを蓄積する音声データベースと
前記蓄積された音声データから話者の固有性が高い最適聴取区間を検出する最適聴取区間検出部と
ユーザが入力した音声または話者名に従い、当該音声または話者と同一話者が発話している音声データを前記蓄積された音声データから検索する話者検索部と
前記話者検索部により得られた音声データに関する情報を、前記最適聴取区間検出部で検出された当該音声データの話者の固有性が高い最適聴取区間に関する情報とともに提示する検索結果提示部と
を備えた話者検索システム。
請求項１に記載のシステムにおいて、
前記最適聴取区間検出部は、他話者音声との類似度と同一話者の音声データ内での類似度との両方もしくはいずれか一方に基づき前記最適聴取区間の前記固有性を算出し、
前記検索結果提示部は、前記最適聴取区間検出部により検出された話者の固有性が高い最適聴取区間を出力することを特徴とする，
話者検索システム。
請求項１に記載のシステムにおいて、
前記最適聴取区間検出部は、前記話者の固有性に加えて，音声の長さ、雑音量の有無、雑音の種類に係る情報を規定のパラメータに従って組み合わせて前記最適聴取区間の聴取コストを算出し、
前記検索結果提示部は、前記聴取コストの低い音声区間を出力することを特徴とする、
話者検索システム
請求項３に記載のシステムにおいて、
前記最適聴取区間検出部で話者の固有性，音声の長さ、雑音量の有無、雑音の種類に係る情報から聴取コストを算出するためのパラメータをユーザが指定できるインタフェースを備えることを特徴とする、
話者検索システム
請求項３に記載のシステムにおいて、
聴取時間の総和、聴取コストの総和のうち少なくともいずれか一方に係る条件をユーザが指定できるインタフェースを備え、
前記話者検索部は、当該条件に基づいて聴取コストの低い区間を出力することを特徴とする、
話者検索システム
前記最適聴取区間の始端及び終端と、該音声が格納された音声ファイルを識別する識別子と、を少なくとも保持する話者検索用データベースを備え、
前記話者検索部は、前記蓄積された各音声データの話者特徴量と、前記ユーザが入力した音声の話者特徴量とに基づいて、前記話者検索用データベースの行を並べ替え、
検索結果提示部は、前記並べ替えた話者検索用データベースを提示することを特徴とする話者検索システム。
コンピュータを
音声データを蓄積する音声データ蓄積手段と
ユーザが入力した音声または話者名に従い、当該音声と同一話者が発話している音声区間を検索する話者検索手段と、
当該検索結果の音声区間の中で話者の固有性が高い音声区間を検出する最適聴取区間検出手段と
最適聴取区間検出手段により検出された音声区間を話者検索手段により得られた話者検索結果とともに提示する検索結果提示手段
として機能させるための話者検索プログラム
請求項7に記載の話者検索プログラムにおいて、
前記最適聴取区間検出手段は、他話者音声との類似度もしくは同一話者の音声データ内での類似度の両方もしくはいずれか一方に基づき前記最適聴取区間の前記固有性を算出し、
前記検索結果提示手段は、前記最適聴取区間検出部により検出された話者の固有性が高い最適聴取区間を出力することを特徴とする，話者検索プログラム
請求項8に記載の話者検索プログラムにおいて、
前記最適聴取区間検出手段は、話者の固有性に加えて，音声の長さ、雑音量の有無、雑音の種類に係る情報を規定のパラメータに従って組み合わせて前記最適聴取区間の聴取コストを算出し、
前記検索結果提示手段は、前記聴取コストの低い音声区間を出力することを特徴とする、
話者検索プログラム
請求項９に記載の話者検索プログラムにおいて、
前記話者検索手段は、入力を受け付けた聴取時間の総和、聴取コストの総和に係る条件の範囲内で聴取コストの低い区間を出力することを特徴とする、話者検索プログラム