JPWO2014155652A1 - 話者検索システム、プログラム - Google Patents

話者検索システム、プログラム Download PDF

Info

Publication number
JPWO2014155652A1
JPWO2014155652A1 JP2015507859A JP2015507859A JPWO2014155652A1 JP WO2014155652 A1 JPWO2014155652 A1 JP WO2014155652A1 JP 2015507859 A JP2015507859 A JP 2015507859A JP 2015507859 A JP2015507859 A JP 2015507859A JP WO2014155652 A1 JPWO2014155652 A1 JP WO2014155652A1
Authority
JP
Japan
Prior art keywords
speaker
search
listening
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015507859A
Other languages
English (en)
Inventor
直之 神田
直之 神田
康成 大淵
康成 大淵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2014155652A1 publication Critical patent/JPWO2014155652A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

話者検索システムにおいて、検出された結果が本当に当該話者のものであるかを容易に判断できる最適聴取区間を検出しユーザに提示することで、ユーザが話者検索結果の正解/不正解を容易に判定できるようにするものである。話者を検索するシステムにおいては、検出された音声の話者が類似の場合、検出結果が本当に探したい人物が発したものであるかを判定することに困難を伴う。検出された結果が本当に当該話者のものであるかを容易に判断できる最適聴取区間を検出しユーザに提示する枠組みを提供する。

Description

本発明は音声データを検索するシステムに関するものである。
近年のストレージデバイスの大容量化に伴い、大量の音声データが蓄積されるようになってきている。従来の多くの音声データベースでは、音声データを管理するために音声データに音声データが録音された時刻の情報を付与し、その情報を元に所望の音声データを検索することが行われてきた。しかしながら、時刻情報に基づく検索では、所望の音声が発話された時刻を予め知っている必要があり、特定のキーワードが発話中に含まれる音声を検索するといった用途には不向きであった。特定のキーワードが発話中に含まれる音声を検索する場合、音声を始めから終わりまで聴取する必要があった。
そこで、音声データベース中の特定のキーワードが発話された時刻を自動的に検出する音声中のキーワード検索技術が開発されている。代表的な手法のひとつであるサブワード検索法では、まずサブワード認識処理によって、音声データをサブワード列へと変換しておく。ここでサブワードとは、音素や音節など、単語よりも細かい単位を指す名称である。キーワードが入力されると、当該キーワードのサブワード表現と音声データのサブワード認識結果を比較し、サブワードの一致度が高い個所を検出することにより、音声データ中で当該キーワードが発話されている時刻を検出する(特許文献1、非特許文献1)。
音声中のキーワード検索技術では、キーワードによる検索が可能であるが、特定の話者の音声データを探すことはできない。そこで、特許文献2には音声データに話者ラベルを自動付与するための話者照合技術が開示されている。また、特許文献3には話者識別技術が開示されている。これらの技術では予めラベルを付与しておきたい話者の音声を収集して、話者モデルを作成しておく。音声が入力されると作成済みの話者モデルを用いて、音声に対する話者ラベルの付与を行う。こうすることでラベル付与済みの話者であれば音声データを高速に検索することが可能となるシステムが開示されている(特許文献4)。
一方で、話者モデル未作成の話者の音声データを探したい場合には改めて話者モデルを作成した上で、全ての音声データに対する話者ラベル付与工程をやり直す必要がある。しかしながら話者ラベル付与処理は計算負荷が高く、音声データが大規模な時には話者モデル未作成の話者が出てくるたびに話者ラベル付与処理をやり直すことは非現実的である。
そこで、話者ラベルを付与するのではなく、音声から話者特徴量ベクトルを抽出して保存しておき、新たな話者の音声データを探す場合には話者特徴量ベクトルどうしのマッチングを行うことにより、任意の話者の音声データを検索できる技術が開示されている(特許文献5)。
特開2002-221984号公報 特開2010-286702号公報 特開2004-286805号公報 特開2001-069436号公報 特開2011-059703号公報
K. Iwata et al.: Open-Vocabulary Spoken Document Retrieval based on new subword models and subword phonetic similarity,In Proc. Interspeech 2006,2006
しかしながら、上記の技術を用いて特定の話者の音声データを検索した結果を聴取によって確認する際に問題が生じる。ユーザは検出された結果が本当に探している話者の音声データであるのかを確認する必要がある。しかし、検出された音声は、多くの場合探したい話者と似た声質の音声であり、検出された音声が本当に探したい話者の声なのかを判断するためには、検出された音声をユーザが確信を持てるまで聞く必要がある。この結果、一つ一つの検出結果に対する正解/不正解をユーザが判断するのに非常に時間がかかるという問題があった。
そこで、本願発明は、話者検索システムにおいて、検出された結果が本当に当該話者のものであるかを容易に判断できるようにすることを目的とする。
本発明は上記を鑑み、例えば、話者の固有性や聴取時間、聴取の容易さなどから見て、話者検索結果の確認に要するコスト(労力)が最も少ない区間を最適聴取区間として算出し、ユーザに当該区間を提示する。
話者検索システムにおいて、得られた検出結果が本当に探している話者のものであるのかを容易に判断できるようになる。
代表的なシステム構成 代表的なシステムの接続図 音声が処理される様子 音声区間クラスタリング処理 最適聴取区間検出 話者検索用データベース 検索提示インタフェース システム構成2 コスト修正インタフェース 最適聴取区間検出の第2の実施例
以下、本発明の第1の実施形態を図面を用いて説明する。
図1は、第1の実施形態を示し、本発明を適用する計算機システムの構成を示すブロック図である。本実施形態の計算機システムは、話者インデクスサーバ101、検索サーバ106、操作端末110からなり、これらがネットワーク112を介して接続される。また、ネットワーク112には検索の対象となる音声データを蓄積する音声データ蓄積装置114と音声データ蓄積装置内の特定の話者を検索するために利用する話者検索用データベース113が接続される。
話者インデクスサーバ101は、音声区間検出102、音声クラスタリング103、話者特徴量抽出104、最適聴取区間検出105の各プログラムが格納されるメモリ120、メモリから各プログラムを読みだして実行するプロセッサ122、I/F121を備える。
検索サーバ106は、話者特徴量抽出107、ベクトル検索108、検索結果提示手段109が格納されるメモリ129、メモリから各プログラムを読みだして実行するプロセッサ131、I/F130を備える。
操作端末110内には端末内音声データ蓄積装置111が納められている。また音声出力装置115、表示装置116、入力装置117、音声入力装置118がそれぞれ接続されている。
図2は、図1の構成要素を処理の流れに従って配置した図である。処理の流れは大きく分けて登録フェーズと検索フェーズに分かれている。
登録フェーズでは、音声データ蓄積装置114に蓄積された音声データから話者検索用データベース113を生成する。検索フェーズでは、音声入力装置118もしくは入力装置117から入力された音声データに従って、当該音声データを発した話者と同一もしくは類似の話者が音声データ蓄積装置114内で発話している音声区間を検出する。この検出動作の際に話者検索用データベース113が利用される。検出の結果は検索結果提示手段109により表示装置116と音声出力装置115を介してユーザに提示される。
以下では、登録フェーズと検索フェーズの双方における処理の流れの詳細を図2に従って示す。まず、登録フェーズの処理を説明する。
<音声区間検出102>
登録フェーズでは、音声データ蓄積装置114から入力された音声ファイルに対して、まず音声区間検出102が動作する。音声区間検出102は、入力された音声データの音声のパワーやスペクトル等に従って音声データを音声と非音声(雑音、無音等)を分別し、入力された音声データから音声を含む区間のみを抽出する。
音声のパワーに従った音声区間検出の実現法としては、例えば、音声から10msecごとに25msec分の波形を抽出し、当該区間のパワーを計算し、音声のパワーが既定値以下の状態が一定時間継続した場合に当該区間は雑音であると判定し、残りの区間は音声であると判定する、という方法がある。なお音声のパワーやスペクトル等に従って音声と非音声を分別する手段については当業者には周知であり、その他の手法の詳細は省略する。音声区間検出は周知の技術のいずれを用いてもよい。
音声区間検出102の結果、音声データは非音声区間によって分割され細切れの音声波形となる(図3)。ここで得られた一つ一つの音声波形を音声区間Xi(i=1,..,N)とする。iは音声に便宜的に割り振られたID(音声ID)であり、音声区間検出102が付与する。また、音声区間検出102は、音声区間Xiに入力された音声ファイルの何秒から何秒までを切り出したものであるかという情報を付属情報として付与する。
<音声区間クラスタリング103>
続いて音声区間クラスタリング処理103は、音声区間検出102によって得られた細切れの音声区間Xi(i=1,..,N)を、同一の話者の音声が同一の集合に含まれるように、クラスタリングを行う。ここではBIC(Bayesian information criterion)を用いた発話交代検知を用いる方法を、図4のフローチャートに従って説明する。
まず音声区間クラスタリング103は、音声区間Xi(i=1,..,N)のそれぞれからスペクトル特徴量系列Fi(i=1,..,N)を抽出する(図4の302)。ここで用いられるスペクトル特徴量は例えば20次元のMel Frequency Cepstrum Coefficients(MFCC)特徴量とその差分及び2次差分を併せた60次元のMFCC特徴量などが利用される。音声波形をMFCC特徴量に変換する方法は当業者であれば周知であるためここでは省略する。以下ではMFCC特徴量を利用するとして説明を続けるが、それ以外の特徴量を用いても良い。
続いて、音声区間クラスタリング103は、クラスタリング結果となる集合cの初期値をc={{1},…,{N}}と設定する(図4の303)。ここで集合cは音声IDを話者毎にクラスタリングした結果を表現したものであり、集合cのある要素に含まれる音声ID群は同一話者が発した音声と判定されたことを表す。例えば図3のように集合cに{1,2,10}という要素が含まれていた場合、音声区間X1、2及びX10は同一話者が発した音声と判定されたことを意味する。図4の303で集合c={{1},…,{N}}と設定したということは、全ての音声区間Xiは異なる話者が発したものという状態を初期値として設定したことを意味する。
続いて、音声区間クラスタリング103は、集合cに含まれる全ての要素の組{a,b}についてBIC{a,b}を求める(図4の304)。ここでBIC{a,b}は下記に従って定義されるスコアである。
Figure 2014155652
ここでNとSはそれぞれ、集合Cの要素Zに含まれる音声IDに対応したMFCC特徴量Fiを一つの特徴量系列として結合した場合に、そこに含まれる特徴量のフレーム数と特徴量の共分散行列を表している。またdはMFCC特徴量の次元である。αは実験的に選択されるパラメータである。ΔBIC(a,b)は、小さいほど、要素aに対応する音声と要素bに対応する音声が同一話者が発話したものである可能性が高い、と判断される。音声区間クラスタリング103は、集合Cに含まれる全ての要素の組の中で最小となる組{a_min, b_min}を求める。
音声区間クラスタリング103は、ΔBIC(a_min,b_min)が既定の閾値θ未満の場合、集合Cからa_minとb_minを取り除いた上で,新たな要素{a_min, b_min}を集合Cに加え図4の304の処理に戻る(図4の306)。音声区間クラスタリング103は、ΔBIC(a_min,b_min)が閾値θ以上となった場合に処理を終了する。
この処理の結果、集合Cには同一話者の音声と判定された音声IDが同一の要素に含まれる状態になる。例えば図3のように集合Cの要素に{3,7,8}という要素がある場合には音声区間X3,X7,X8は同一話者の音声であると判定されたことになる。以上が音声区間クラスタリング処理である。
<話者特徴量抽出104>
続いて話者特徴量抽出処理104が動作する。ここではiVector特徴量抽出処理について説明する。話者特徴量抽出処理104は、音声区間クラスタリング103で得られた集合Cの要素Zごとに以下の処理を行う。
要素Zに含まれる音声IDに対応したMFCC特徴量Fiを一つの特徴量系列として結合した時に、結合された特徴量系列をft(t=1,…,L)と表す。
話者特徴量抽出処理104は、まず時刻tごとに得られるF次元のスペクトル特徴量ft(t=1,…,L)に対し一般話者の特徴量から作成されたC 混合のGMM(Gaussian Mixture Model;混合ガウス分布)を用いて以下の統計量NCとF~ c (c=1,…,C)を計算する。
Figure 2014155652
Figure 2014155652
ここでΩUは一般話者GMMのパラメータセットである。P(c|ftU)はスペクトル特徴量ftが得られた時の,一般話者GMMにおけるc番目の正規分布に対する事後確率である。またμcは一般話者GMMにおけるc番目の正規分布の平均である。なお、GMMについては当業者には周知のモデルであるので説明を省略する。
その後,話者特徴量抽出処理104は、以下の式によってI次元の話者特徴量wを得る。
Figure 2014155652
ここでTは因子負荷行列,Σはwの最大事後確率推定における共分散行列を表す。またN(u)はCFxCFの行列であり,その対角要素がNcIであるようなブロック対角行列である。F~ c(u)はF~ cをc=1からc=Cまで直列につないだ値を対角要素として持つようなCFxCFの対角行列である。因子負荷行列は多数の話者の音声データを用い,全ての話者性を最も尤もらしく表現できる特徴空間へと写像できるように前もって求めておく。
以上の処理で要素Zに対応する音声から,その話者特徴量wが抽出される。話者特徴量は一つのI次元のベクトルであり,次元数Iとしては200や400が良く用いられる。話者特徴量抽出処理104は、この作業を集合Cの全ての要素に対して行い,その話者特徴量を抽出する。
<最適聴取区間検出105>
続いて最適聴取区間検出処理105が動作する。この処理の流れを図5のフローチャートに従って説明する。
最適聴取区間検出処理105は、音声区間クラスタリング103によって得られた集合Cの全ての要素に対して以下を行う。
ここでは集合Cの要素のうち要素Zを選択したとする。図3で示したように、要素Zは同一話者が発したと想定される音声IDの集合である。まずZに含まれる各音声IDに対応する音声区間Xi全てに対して話者特徴量wiを求める(図5の402)。ここでの話者特徴量の抽出方法は話者特徴量抽出処理104と同一である。続いてZに含まれる音声IDに対応する音声区間Xiそれぞれに対して以下のスコア、異話者間距離スコアSdiff、同一話者内相関スコアSsame、雑音スコアSSN、雑音種スコアSnoise、音声長スコアSlengthを求める。いずれのスコアも、当該音声区間Xiをユーザが聴取してある音声と比較をする際に要するコスト(労力)が低いほど小さいスコアを算出するように定義される。このユーザが聴取してある音声と比較をする際に要する労力を「聴取コスト」と定義する。
<異話者間距離の算出>
最適聴取区間検出処理105は、一般の話者の声と異なる特性を持つ音声区間ほど当該話者の固有性が高く、当該区間の聴取コストは低くなるものとしたスコアを算出する。具体的には、音声区間Xiの話者性がどれほど特異かを測る異話者間距離スコアSdiffを求める(図5の404)。音声区間Xiの話者性が特異であることは、一般話者を多数集めた音声と音声区間Xiを比較することで求める。
具体的には、異話者間距離スコアSdiffを求めるにあたり、話者が既知である多数の音声データ、もしくは、少なくとも音声区間Xiの話者とは同一の話者ではないと知っている多数の音声データのいずれかを用意しておく。この多数の音声データは音声データ蓄積装置114に蓄積されている。これらの音声データ群から、話者特徴量抽出処理104と同一の方法によって、それぞれの音声に対する話者特徴量の集合
Figure 2014155652
を求める。
この時、音声区間Xiに対する異話者間距離スコアSdiffは次で求められる。
Figure 2014155652

ただし、wiは前述の通り、音声区間Xiに対する話者特徴量である。また sim(wi,wj)は話者特徴量wiとwjの間の近さを算出する関数であり、話者特徴量どうしが類似している場合には1、そうでない場合には0に近い値を取る。sim(wi,wj)はいくつかの定義が可能であり、例えば次のコサイン距離による定義が利用できる。
Figure 2014155652
また、次の確率モデルに基づいた定義を用いることもできる。
Figure 2014155652
ただし、
Figure 2014155652
Figure 2014155652
ここでΣwcは話者内の変動を表す共分散行列,Σacは話者間の変動を表す共分散行列である。これらの共分散行列は多数の話者特徴量から因子分析の手法を用いてシステム開発時に推定しておく。
<同一話者内相関の算出>
最適聴取区間検出処理105は、同一話者の発話内で繰り返し出現する音声区間Xiほど、当該音声区間Xiの話者固有性が高く、当該区間の聴取コストは低くなるものとしたスコアを算出する。具体的には音声区間Xiの話者性が同一話者内で繰り返されている度合いを測る同一話者内相関スコアSsameを求める(図5の405)。スコアSsameの求め方としてはいくつかの定義が考えられ、例えば以下の定義が用いられる。
Figure 2014155652
ここでZは集合Cの要素であり、|Z|はZに含まれる音声IDの数である。
また、スコアSsameは次の定義を用いてもよい。
Figure 2014155652
その他の定義でも、音声区間Xiの話者性が同一話者内で繰り返されている度合いであればスコアSsameとして用いることができる。
<雑音の大きさの算出>
最適聴取区間検出処理105は、雑音が大きいほど、当該音声波形Xiの聴取コストは高くなるものとした雑音スコアを算出する。具体的には音声区間Xiの雑音の大きさを測る雑音スコアSSNを求める(図5の406)。
ここでの実施例としては以下の方法を用いる。音声区間Xiは音声区間検出で音声と非音声の判別の結果抽出された音声区間であるので、音声区間Xiに隣接する非音声区間が当該音声の前後に存在する。これを雑音Npreおよび雑音Npostとする。このとき、スコアSSNは次のように求められる。スコアは雑音が大きくなるほど大きくなるように設計されている。
Figure 2014155652
ここでpower()は音声波形の平均パワーを求める関数である。平均パワーを求める方法は当該業者であれば周知であるので説明は省略する。
<雑音の種類の算出>
最適聴取区間検出処理105は、雑音の種類に応じて、当該音声区間Xiの聴取コストが変動するものとした雑音種スコアを算出する。例えば音声区間Xiに白色雑音が重畳している場合は、ピンクノイズが重畳している場合よりも話者性の違いを判別することが難しくなる。これらの性質を音声区間Xiの聴取コストを表すスコアSnoiseとして算出する(図5の407)。
具体的には、次のような方法が可能である。白色雑音、ピンク雑音などの雑音を予め用意しておき、当該雑音からMFCC特徴量を抽出する。MFCC特徴量から、それぞれの雑音を表すGaussian Mixture Model(GMM)を作成する。なお、MFCC特徴量の抽出方法及び、GMMについては当該業者であれば既知であるため詳細を省略する。
最適聴取区間検出処理105は、スコアSSNを求めた場合と同様の方法によって得られた雑音Npreおよび雑音Npostを用い、以下のようにスコアSnoiseを計算する。
Figure 2014155652
ここでnは予め定義されたノイズ種類を表す変数であり、GMMnは当該ノイズに対応するGMMから得られる尤度を算出する関数である。また、table()はノイズ種別ごとに用意されたコストを返すテーブル関数であり、そのコストは人手でノイズ種別ごとに既定しておく。
<音声の長さの算出>
最適聴取区間検出処理105は、音声が長いほど、当該音声区間Xiの聴取コストは高くなるものとしたスコアを算出する。具体的には音声区間Xiの長さに対応する音声長スコアSlengthを求める(図5の408)。
Figure 2014155652
ここでlength()は音声波形の長さを求める関数である。
最適聴取区間検出処理105は、各スコアと算出すると、各音声IDに対応する音声波形Xiについて下記の式によって聴取コストを算出する(図5の409)。
Figure 2014155652
ここでα1〜α5はそれぞれのスコアに対して定められた重みであり、予め人手で設定されている。聴取に適した音声区間ほどCostが小さくなるように定義しておく。
要素Zに含まれる音声IDのうちでCostが最小となる音声IDを、最適聴取区間の音声ID iZ,minとして求める。
なお、ここでの重みα1〜α5をユーザが希望に応じて変更できるインタフェースを備えていても良い。このためには図9のようなスライドバーで当該コストを重視するかしないかをユーザが指定できるようなインタフェースを表示装置116に備えていても良い。ここでは各コストに対応するスライドバー901とそのコストを重視する(すなわち当該コストに係る重みαを大きくする)か、重視しない(重みαを小さくする)か、の度合いを決定するアイコン902が備えられている。例えば聴取時間が長くても、話者の特異性が明確な音声区間を最適聴取区間として設定する場合には、ユーザは聴取時間のコストSlengthに対する重みα5を小さくするために、当該コストに関わるスライドバーの値を「重視しない」方向へスライドさせる(図9 903)。
上記の処理によって、話者インデクスサーバ101は、集合C(クラスタリング結果)に含まれる要素Z(同一話者と判定された音声の音声IDの集合)ごとに、要素Zに対応する話者特徴量wzと、iZ,minを得る。
話者インデクスサーバ101は、これらを話者検索用データベース113に登録する。
<話者検索用データベース>
話者検索用データベース113の構造を図6に示す。各行ごとに要素Zに対応した情報が格納される。
ファイルID 501には、要素Zに含まれる音声IDに対応する音声を含む音声ファイルの名前が記載される。音声区間502には要素Zに含まれる音声IDに対応する音声の始端と終端(図3を参照)の情報が格納される。話者特徴量503には話者特徴量wzをバイナリ形式で保存した場合の保存ファイル名が格納される。最適聴取区間504には音声ID iZ,minに対応する音声区間XiZ,minの始端と終端が格納される。
例えば図6における第1行めは、AAA.wavという音声ファイルから(図6 501)、音声区間検出102と音声区間クラスタリング103の結果0.5秒〜3.4秒、4.1秒〜8.4秒、30.0秒〜32.3秒の3つの音声区間が同一話者の音声として切り出され(図6 502)、その話者特徴量はAAA-1.datというファイルに格納されており(図6 503)、最適聴取区間検出105によって最適聴取区間は30.0秒〜32.3秒の音声区間であると判定された(図6 504)、ということを表している。
なお、話者検索用データベースには上記の他に、Sdiff、Ssame、SSN、Snoise、SlengthおよびCostの各値を保存しておいてもよい。
さらに話者識別技術を用いて、話者検索用データベースの各行に対応する音声に話者ラベルを付与しておいても良い。話者識別技術の詳細は従来技術において開示されており、当該業者には周知であるため詳細は省略する。
以上が登録フェーズ(図2)の説明である。
続いて、図2の流れに従い、検索フェーズの動作の説明を行う。
検索フェーズではユーザが、検索したい話者の音声Xsearchをシステムへ入力する。ここでは、音声入力装置118を通すか、もしくは端末内音声データ蓄積装置111を入力装置117で操作するか、もしくは音声データ蓄積装置114を入力装置117で操作するか、のいずれかの手段によって検索サーバ106に音声を入力するものとする。
検索サーバ106は、検索したい話者の音声Xsearchの入力を受け付けると話者特徴量抽出107を動作させ、音声Xsearchから話者特徴量wsearchを抽出する。これは話者特徴量抽出104と同一の手段を用いる。
その後ベクトル検索108モジュールが動作する。ベクトル検索108は、話者検索用データベースに登録された話者特徴量wk(k=1,…,K)と、音声Xsearchから得られた話者特徴量wsearchとを関数sim(wsearch,wk)によって比較し、sim(wsearch,wk)の降順に話者検索用データベース(図6)の各行を並べ替える。
なお、ここで用いる関数sim()は最適聴取区間検出105で定義したもののいずれを用いてもよい。また、話者特徴量wsearchとを関数sim(wsearch,wk)によって比較し、sim(wsearch,wk)が大きい上位N件だけを抽出してもよい。
検索結果表示手段109は、上述のようにして並べ替えた話者検索用データベースを表示装置116に出力する。
図7に表示画面を示す。検索窓701にユーザから検索したい音声ファイルの名前が入力された後、検索ボタン702が押下されると、検索サーバ106は、上述した検索フェーズを動作させ検索結果703を出力する。ここではベクトル検索108が並べ替えた順に、[C:\wav\kanda.wav]と同一だと思われる音声が含まれたファイル名704、その発話時刻の代表値705が提示される。代表値としては発話時刻のうちでもっとも早いものを提示してもよいし、最適聴取発話区間(図6の504)を提示しても良い。
また「確認用音声再生」という箇所(図7の706)が押下されると、音声出力装置は、最適聴取区間(図6の504)に相当する音声を再生する。ここで再生される音声は、最適聴取区間検出105によって最も当該話者の判定が容易に行えるように選択されているため、ユーザは容易に検索結果が正解か不正解かを判定できる。
「ファイル冒頭から再生」(図7の707)という箇所を押されると、当該ファイルの冒頭から音声を再生することもできる。
上記に加えて、Sdiff、Ssame、SSN、Snoise、SlengthおよびCostの各値を保存している場合には、検索提示インタフェースに上記の他にそれらの値も同時に表示してもよい。
また、話者検索用データベース113(図6)の各行に対応する音声に対して話者識別技術で話者ラベルが付与されている場合には、上記とは異なり、ユーザが話者名を検索窓701に入力することで話者データベースを検索することも可能である。この場合にも検出結果の提示と再生のインタフェースは図7のようになり、「確認用音声再生」という箇所(図7の706)を押下することで最適聴取区間検出結果を聞くことができるため、ユーザは本発明の効果を受けることができる。
さらに、ユーザが聴取に関わる条件を入力し、それに従って出力結果を限定することも可能である。具体的には聴取に関わる条件として、聴取時間の上限、聴取コストの上限のいずれか一方または全てを検索用音声Xsearchと同時に入力できるようにしておく。これは例えば、入力用の窓をインタフェースに設けたり、複数の条件の中から選択できるようにするなどの方法で実現される。この時、ベクトル検索108は話者検索用データベースの各行をsim(wsearch,wk)に従って並べ替えた後、当該条件に達するまでユーザに上位N件の検索結果を出力する。
スタンドアローンシステム
以下、本発明の第2の実施形態を添付図面に基づいて説明する。
図8は第2の実施形態のシステム構成を表したものである。計算機101は、音声区間検出102、音声区間クラスタリング103、話者特徴量抽出104、最適聴取区間検出105、話者特徴量抽出107、ベクトル検索108、検索結果提示109、の各プログラムを備えるメモリ801、音声データ蓄積装置114、端末内音声データ蓄積装置111、話者検索用データベース113、各プログラムをメモリから読みだして実行するプロセッサ802、音声出力装置115、表示装置116、入力装置117、音声入力装置118と接続されるI/F(A)803、I/F(B)804、I/F(C)805、I/F(D)805を備える。音声区間検出102、音声区間クラスタリング103、話者特徴量抽出104、最適聴取区間検出105、話者特徴量抽出107、ベクトル検索108、検索結果提示109、音声データ蓄積装置114、端末内音声データ蓄積装置111、話者検索用データベース113、音声出力装置115、表示装置116、入力装置117、音声入力装置118は実施例1のものと同一である。実施例1との違いは、本システムでは全てのモジュールが一つの計算機101に収められている点である。
処理の流れについては実施例1と同一であるので省略する。
最適聴取区間検出の第2の実施例
実施例3は実施例1と構成は同じであるが、最適聴取区間検出の挙動が異なる。具体的には、実施例1では最適聴取区間検出の候補となる音声区間は、要素Znに含まれる音声IDに対応する音声であったが、本実施例では要素Znに含まれる音声IDに対応する音声を接続することによって音声を生成し、その生成された音声区間も最適聴取区間の候補とする。
処理の流れを図10に従って説明する。
実施例3では、最適聴取区間検出は、クラスタリング結果である集合C(図3)の要素Znに対して、要素Znに含まれる音声IDを昇順に並べたときに連続するk個組の音声を接続した音声Xzn(i),…,zn(i+i-1)を抽出する。この作業をk=1からk=Kまで実行することで複数の音声を抽出する(図10の1003)。
その後の処理は実施例1の場合と同様であり、最適聴取区間検出は、まず音声から話者特徴量を抽出(図10の1003)した後、音声からスコアSdiff、Ssame、SSN、Snoise、Slengthを求め、最後にCostを算出する。話者特徴量の抽出や各スコア及びCostの算出方法は実施例1と同様なので省略する。
101 話者インデクスサーバ
106 検索サーバ
110 操作端末
113 話者検索用データベース
114 音声データ蓄積装置
115 音声出力装置
116 表示装置
117 入力装置
118 音声入力装置

Claims (10)

  1. 音声データを蓄積する音声データベースと
    前記蓄積された音声データから話者の固有性が高い最適聴取区間を検出する最適聴取区間検出部と
    ユーザが入力した音声または話者名に従い、当該音声または話者と同一話者が発話している音声データを前記蓄積された音声データから検索する話者検索部と
    前記話者検索部により得られた音声データに関する情報を、前記最適聴取区間検出部で検出された当該音声データの話者の固有性が高い最適聴取区間に関する情報とともに提示する検索結果提示部と
    を備えた話者検索システム。
  2. 請求項1に記載のシステムにおいて、
    前記最適聴取区間検出部は、他話者音声との類似度と同一話者の音声データ内での類似度との両方もしくはいずれか一方に基づき前記最適聴取区間の前記固有性を算出し、
    前記検索結果提示部は、前記最適聴取区間検出部により検出された話者の固有性が高い最適聴取区間を出力することを特徴とする,
    話者検索システム。
  3. 請求項1に記載のシステムにおいて、
    前記最適聴取区間検出部は、前記話者の固有性に加えて,音声の長さ、雑音量の有無、雑音の種類に係る情報を規定のパラメータに従って組み合わせて前記最適聴取区間の聴取コストを算出し、
    前記検索結果提示部は、前記聴取コストの低い音声区間を出力することを特徴とする、
    話者検索システム
  4. 請求項3に記載のシステムにおいて、
    前記最適聴取区間検出部で話者の固有性,音声の長さ、雑音量の有無、雑音の種類に係る情報から聴取コストを算出するためのパラメータをユーザが指定できるインタフェースを備えることを特徴とする、
    話者検索システム
  5. 請求項3に記載のシステムにおいて、
    聴取時間の総和、聴取コストの総和のうち少なくともいずれか一方に係る条件をユーザが指定できるインタフェースを備え、
    前記話者検索部は、当該条件に基づいて聴取コストの低い区間を出力することを特徴とする、
    話者検索システム
  6. 前記最適聴取区間の始端及び終端と、該音声が格納された音声ファイルを識別する識別子と、を少なくとも保持する話者検索用データベースを備え、
    前記話者検索部は、前記蓄積された各音声データの話者特徴量と、前記ユーザが入力した音声の話者特徴量とに基づいて、前記話者検索用データベースの行を並べ替え、
    検索結果提示部は、前記並べ替えた話者検索用データベースを提示することを特徴とする話者検索システム。
  7. コンピュータを
    音声データを蓄積する音声データ蓄積手段と
    ユーザが入力した音声または話者名に従い、当該音声と同一話者が発話している音声区間を検索する話者検索手段と、
    当該検索結果の音声区間の中で話者の固有性が高い音声区間を検出する最適聴取区間検出手段と
    最適聴取区間検出手段により検出された音声区間を話者検索手段により得られた話者検索結果とともに提示する検索結果提示手段
    として機能させるための話者検索プログラム
  8. 請求項7に記載の話者検索プログラムにおいて、
    前記最適聴取区間検出手段は、他話者音声との類似度もしくは同一話者の音声データ内での類似度の両方もしくはいずれか一方に基づき前記最適聴取区間の前記固有性を算出し、
    前記検索結果提示手段は、前記最適聴取区間検出部により検出された話者の固有性が高い最適聴取区間を出力することを特徴とする,話者検索プログラム
  9. 請求項8に記載の話者検索プログラムにおいて、
    前記最適聴取区間検出手段は、話者の固有性に加えて,音声の長さ、雑音量の有無、雑音の種類に係る情報を規定のパラメータに従って組み合わせて前記最適聴取区間の聴取コストを算出し、
    前記検索結果提示手段は、前記聴取コストの低い音声区間を出力することを特徴とする、
    話者検索プログラム
  10. 請求項9に記載の話者検索プログラムにおいて、
    前記話者検索手段は、入力を受け付けた聴取時間の総和、聴取コストの総和に係る条件の範囲内で聴取コストの低い区間を出力することを特徴とする、話者検索プログラム
JP2015507859A 2013-03-29 2013-03-29 話者検索システム、プログラム Pending JPWO2014155652A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/059450 WO2014155652A1 (ja) 2013-03-29 2013-03-29 話者検索システム、プログラム

Publications (1)

Publication Number Publication Date
JPWO2014155652A1 true JPWO2014155652A1 (ja) 2017-02-16

Family

ID=51622717

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015507859A Pending JPWO2014155652A1 (ja) 2013-03-29 2013-03-29 話者検索システム、プログラム

Country Status (2)

Country Link
JP (1) JPWO2014155652A1 (ja)
WO (1) WO2014155652A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018051945A1 (ja) * 2016-09-14 2018-03-22 日本電気株式会社 音声処理装置、音声処理方法、および記録媒体
CN107147618B (zh) * 2017-04-10 2020-05-15 易视星空科技无锡有限公司 一种用户注册方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001069436A (ja) * 1999-08-30 2001-03-16 Nippon Hoso Kyokai <Nhk> 話者情報記録装置および検索装置
JP2002169592A (ja) * 2000-11-29 2002-06-14 Sony Corp 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム
JP2009020461A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム
JP2009237353A (ja) * 2008-03-27 2009-10-15 Fujitsu Ltd 関連付け装置、関連付け方法及びコンピュータプログラム
JP2010286702A (ja) * 2009-06-12 2010-12-24 Nec Corp 話者照合装置、話者照合方法およびプログラム
JP2012053218A (ja) * 2010-08-31 2012-03-15 Nippon Hoso Kyokai <Nhk> 音響処理装置および音響処理プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001069436A (ja) * 1999-08-30 2001-03-16 Nippon Hoso Kyokai <Nhk> 話者情報記録装置および検索装置
JP2002169592A (ja) * 2000-11-29 2002-06-14 Sony Corp 情報分類・区分化装置、情報分類・区分化方法、情報検索・抽出装置、情報検索・抽出方法、記録媒体および情報検索システム
JP2009020461A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム
JP2009237353A (ja) * 2008-03-27 2009-10-15 Fujitsu Ltd 関連付け装置、関連付け方法及びコンピュータプログラム
JP2010286702A (ja) * 2009-06-12 2010-12-24 Nec Corp 話者照合装置、話者照合方法およびプログラム
JP2012053218A (ja) * 2010-08-31 2012-03-15 Nippon Hoso Kyokai <Nhk> 音響処理装置および音響処理プログラム

Also Published As

Publication number Publication date
WO2014155652A1 (ja) 2014-10-02

Similar Documents

Publication Publication Date Title
US10593332B2 (en) Diarization using textual and audio speaker labeling
US10726848B2 (en) Word-level blind diarization of recorded calls with arbitrary number of speakers
AU2017294791B2 (en) Method and system for automatically diarising a sound recording
WO2018108080A1 (zh) 一种基于声纹搜索的信息推荐方法及装置
US9984677B2 (en) Bettering scores of spoken phrase spotting
CN105723449B (zh) 言语内容分析系统和言语内容分析方法
US8249870B2 (en) Semi-automatic speech transcription
US7725318B2 (en) System and method for improving the accuracy of audio searching
JP5024154B2 (ja) 関連付け装置、関連付け方法及びコンピュータプログラム
CN107342077A (zh) 一种基于因子分析的说话人分段聚类方法及系统
US9311914B2 (en) Method and apparatus for enhanced phonetic indexing and search
KR101616112B1 (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
CN107480152A (zh) 一种音频分析及检索方法和系统
Pandit et al. Feature selection for a DTW-based speaker verification system
CN110689906A (zh) 一种基于语音处理技术的执法检测方法及系统
Verma et al. Indian language identification using k-means clustering and support vector machine (SVM)
WO2014203328A1 (ja) 音声データ検索システム、音声データ検索方法、及びコンピュータ読み取り可能な記憶媒体
US8423354B2 (en) Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method
JP2011053569A (ja) 音響処理装置およびプログラム
WO2014155652A1 (ja) 話者検索システム、プログラム
JP2016042152A (ja) 音声認識装置及びプログラム
CN113990288B (zh) 一种语音客服自动生成部署语音合成模型的方法
JP2012053218A (ja) 音響処理装置および音響処理プログラム
JP2011248107A (ja) 音声認識結果検索方法とその装置とプログラム
Backstrom et al. Forced-alignment of the sung acoustic signal using deep neural nets

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170111

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170113

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170124