JPWO2011007497A1

JPWO2011007497A1 - 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム

Info

Publication number: JPWO2011007497A1
Application number: JP2011522695A
Authority: JP
Inventors: 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-07-16
Filing date: 2010-06-03
Publication date: 2012-12-20
Anticipated expiration: 2030-06-03
Also published as: WO2011007497A1; US8954327B2; US20120116763A1; JP5704071B2

Abstract

音声データ解析装置は、話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する話者モデル導出手段と、話者モデル導出手段が導出した話者モデルを用いて、音声データを一連の会話の単位で分割したセッションデータから、話者間の共起関係の強さを表すモデルである話者共起モデルを導出する話者共起モデル導出手段とを備えることを特徴とする。

Description

本発明は、音声データ解析装置、音声データ解析方法及び音声データ解析用プログラムに関し、特に、多数の話者から発せられる音声データから話者を学習または認識することに用いる音声データ解析装置、音声データ解析方法及び音声データ解析用プログラムに関する。

音声データ解析装置の一例が、非特許文献１に記載されている。非特許文献１に記載されている音声データ解析装置は、予め記憶されている話者ごとの音声データと話者ラベルを用いて、話者ごとの音声の性質を規定する話者モデルを学習する。

例えば、話者Ａ（音声データＸ_１，Ｘ_４，・・・），話者Ｂ（音声データＸ_２，・・・），話者Ｃ（音声データＸ_３，・・・），話者Ｄ（音声データＸ_５，・・・），・・・の各々について、話者モデルを学習する。

そして、記憶されている音声データとは独立に得られた未知の音声データＸを受け取り、学習した個々の話者モデルと音声データＸとの類似度を、「当該話者モデルが音声データＸを生成する確率」といったものから定義される定義式に基づいて計算するマッチング処理を行う。ここでは、類似度上位あるいは所定のしきい値を超えるモデルに対応する話者ＩＤ（話者を識別する識別子。前述のＡ、Ｂ、Ｃ、Ｄ、・・・に相当）を出力する。あるいは、話者マッチング手段２０５は、未知の音声データＸとある話者ＩＤ（指定話者ＩＤ）の対を受け取り、その指定話者ＩＤのモデルと音声データＸとの類似度を計算するマッチング処理を行う。そして、類似度が所定のしきい値を超えたか否か、すなわち音声データＸがその指定話者ＩＤのものであるか否かの判定結果を出力する。

また、例えば、特許文献１には、標準話者に対する声道長の伸縮係数に基づいてクラスタリングされた各クラスタに属する話者集合毎の学習によって混合ガウス分布型音響モデルを生成し、生成した各音響モデルに対する学習話者の音響サンプルの尤度を算出することにより、入力話者の特徴として１つの音響モデルを抽出する話者特徴抽出装置が記載されている。

特開２００３−２２０８８号公報

Douglas A, Reynolds et al, "Speaker Verification Using Adapted Gaussian Mixture Models", Digital signal Processing, Vol.10, 2000, p.19-41

非特許文献１および特許文献１に記載されている技術の問題点は、話者間に何らかの関係性がある場合に、その関係性有効に利用できず、認識精度の低下を招くということである。

例えば、非特許文献１に記載されている方法では、話者ごとに独立に用意された音声データ及び話者ラベルを使い、話者ごとに独立に話者モデルを学習する。そして、話者モデルごとに独立に、入力された音声データＸとのマッチング処理を行う。このような方法においては、ある話者と別の話者との間の関係性は一切考慮されない。

また、例えば、特許文献１に記載されている方法では、各学習話者に対して、標準話者に対する声道長の伸縮係数を求めて、学習話者をクラスタリングする。このような方法においては、非特許文献１と同様に、ある話者と別の話者との間の関係性は一切考慮されない。

この種の音声データ解析装置の代表的な用途の一つとして、機密情報を保管したセキュリティルームの入退場管理（音声認証）が挙げられる。このような用途であれば、問題はさほど深刻ではない。なぜなら、セキュリティルームの入退場は、原則一人ずつ行われ、他者との関係性は基本的に生じないからである。

しかし、このような想定が成り立たない用途も存在する。例えば、犯罪捜査の場面では、誘拐犯が身代金要求の電話などで話した音声データを収集し、後の犯罪捜査に活用することがある。このようなケースでは、一人の犯人による単独犯の他に、犯人グループによる複数犯があり得る。例えば振り込め詐欺などが典型例である。近年、「劇団型振り込め詐欺」と呼ばれる犯行が増加していて、被害者の身内を装う者の他に、警察官や弁護士を装う者、交通事故や痴漢事件の当事者を装う者などが次々と電話口に登場し、被害者を巧妙に欺くという被害が起こっている。

そこで、本発明は、複数の話者に対しても、高精度に話者を認識できる音声データ解析装置、音声データ解析方法及び音声データ解析用プログラムを提供することを目的とする。

本発明による音声データ解析装置は、話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する話者モデル導出手段と、話者モデル導出手段が導出した話者モデルを用いて、音声データを一連の会話の単位で分割したセッションデータから、話者間の共起関係の強さを表すモデルである話者共起モデルを導出する話者共起モデル導出手段とを備えることを特徴とする。

本発明による他の態様の音声データ解析装置は、話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルを記憶する話者モデル記憶手段と、音声データを一連の会話の単位で分割したセッションデータから導出される、話者間の共起関係の強さを表すモデルである話者共起モデルを記憶する話者共起モデル記憶手段と、話者モデルと話者共起モデルとを用いて、指定された音声データに含まれる各発話について、話者モデルとの整合性および音声データ全体における共起関係の整合性を算出し、指定された音声データに含まれる各発話の話者がいずれの話者かを認識する話者認識手段を備えることを特徴とする。

本発明による音声データ解析方法は、話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する話者モデル導出ステップと、話者モデル導出ステップで導出される話者モデルを用いて、音声データを一連の会話の単位で分割したセッションデータから、話者間の共起関係の強さを表すモデルである話者共起モデルを導出する話者共起モデル導出ステップとを含むことを特徴とする。

本発明による他の態様の音声データ解析方法は、話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルと、音声データを一連の会話の単位で分割したセッションデータから導出される、話者間の共起関係の強さを表すモデルである話者共起モデルとを用いて、指定された音声データに含まれる各発話について、話者モデルとの整合性および音声データ全体における共起関係の整合性を算出し、指定された音声データに含まれる各発話の話者がいずれの話者かを認識する話者認識ステップを含むことを特徴とする。

本発明による音声データ解析用プログラムは、コンピュータに、話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する話者モデル導出処理、および話者モデル導出処理で導出される話者モデルを用いて、音声データを一連の会話の単位で分割したセッションデータから、話者間の共起関係の強さを表すモデルである話者共起モデルを導出する話者共起モデル導出処理を実行させることを特徴とする。

本発明による他の態様の音声データ解析用プログラムは、コンピュータに、話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルと、音声データを一連の会話の単位で分割したセッションデータから導出される、話者間の共起関係の強さを表すモデルである話者共起モデルとを用いて、指定された音声データに含まれる各発話について、話者モデルとの整合性および音声データ全体における共起関係の整合性を算出し、指定された音声データに含まれる各発話の話者がいずれの話者かを認識する話者認識処理を実行させることを特徴とする。

本発明によれば、上述のような構成を有することにより話者間の関係性を考慮して話者の認識を行うことができるので、複数の話者に対しても、高精度に話者を認識できる音声データ解析装置、音声データ解析方法及び音声データ解析用プログラムを提供することができる。

第１の実施形態の音声データ解析装置の構成例を示すブロック図である。セッション音声データ記憶手段及びセッション話者ラベル記憶手段に記憶される情報の例を示す説明図である。話者モデルを模式的に表す状態遷移図である。話者共起モデルの基本単位を模式的に表す状態遷移図である。話者共起モデルを模式的に表す状態遷移図である。第１の実施形態における学習手段の動作例を示すフローチャートである。第１の実施形態における認識手段の動作例を示すフローチャートである。第２の実施形態の音声データ解析装置の構成例を示すブロック図である。第２の実施形態における学習手段の動作例を示すフローチャートである。第３の実施形態の音声データ解析装置（モデル生成装置）の構成例を示すブロック図である。第４の実施形態の音声データ解析装置（話者認識装置）の構成例を示すブロック図である。本発明の概要を示すブロック図である。本発明の他の構成例を示すブロック図である。本発明の他の構成例を示すブロック図である。本発明の他の構成例を示すブロック図である。

実施形態１．
以下、本発明の実施形態を図面を参照して説明する。図１は、本発明の第１の実施形態の音声データ解析装置の構成例を示すブロック図である。図１に示すように、本実施形態の音声データ解析装置は、学習手段１１と、認識手段１２とを備える。

学習手段１１は、セッション音声データ記憶手段１００と、セッション話者ラベル記憶手段１０１と、話者モデル学習手段１０２と、話者共起学習手段１０４と、話者モデル記憶手段１０５と、話者共起モデル記憶手段１０６とを含む。

また、認識手段１２は、セッションマッチング手段１０７と、話者モデル記憶手段１０５と、話者共起モデル記憶手段１０６とを含む。なお、話者モデル記憶手段１０５と話者共起モデル記憶手段１０６は、学習手段１１と共有している。

これらの手段はそれぞれ概略次のように動作する。まず、学習手段１１は、当該学習手段１１に含まれる各手段の動作により、音声データと話者ラベルを用いて、話者モデルと話者共起モデルを学習する。

本実施形態では、セッション音声データ記憶手段１００は、話者モデル学習手段１０２が学習に使用する多数の音声データを記憶する。音声データは、何らかの録音機で録音した音声信号であってもよいし、メルケプストラム係数（ＭＦＣＣ）などの特徴ベクトル系列に変換したものであってもよい。また、音声データの時間長については特に制約はないが、一般には長いほどよいとされている。また、各々の音声データは、単一の話者のみが発声する形態の他に、複数の話者から構成され、これらの話者が交替で発声するような形態において生成される音声データも含む。例えば、前出の振り込め詐欺のケースでは、単独犯の犯行から採取した音声データの他に、複数人からなる犯行グループのメンバーが交替で電話口で台詞を述べたような音声データも含む。このような一連の会話として収録された音声データの一つ一つを、ここでは「セッション」と呼ぶ。振り込め詐欺の場合は、１回の犯行が１セッションに相当する。

なお、各々の音声データは、非音声区間を除去することにより、適当な単位に分割されているものとする。この分割の単位を以降では「発話」と呼ぶ。もし分割がなされていない場合は、図示しない音声検出手段により、音声区間のみを検出し、分割がなされた形式に容易に変換することができる。

セッション話者ラベル記憶手段１０１は、話者モデル学習手段１０２及び話者共起学習手段１０４が学習に使用する話者ラベルを記憶する。ここで話者ラベルとは、各セッションの各発話に付与されている、話者を一意に特定するＩＤである。図２は、セッション音声データ記憶手段１００及びセッション話者ラベル記憶手段１０１に記憶される情報の例を示す説明図である。なお、図２（ａ）でセッション音声データ記憶手段１００に記憶される例を示し、図２（ｂ）でセッション話者ラベル記憶手段１０１に記憶される情報の例を示している。図２（ａ）に示す例では、セッション音声データ記憶手段１００に、各セッションを構成する発話Ｘ_ｋ ^（ｎ）が記憶されている。また、図２（ｂ）に示す例では、セッション話者ラベル記憶手段１０１には、個々の発話に対応する話者ラベルｚ_ｋ ^（ｎ）が記憶されている。ここに、Ｘ_ｋ ^（ｎ）とｚ_ｋ ^（ｎ）は、それぞれ第ｎセッションのｋ番目の発話と話者ラベルを意味する。また、Ｘ_ｋ ^（ｎ）は、例えば以下の式（１）のように、メルケプストラム係数（ＭＦＣＣ）などの特徴ベクトル系列として扱うのが一般的である。ここに、Ｌ_ｋ ^（ｎ）は発話Ｘ_ｋ ^（ｎ）のフレーム数、つまり長さである。

話者モデル学習手段１０２は、セッション音声データ記憶手段１００及びセッション話者ラベル記憶手段１０１に記憶された音声データおよび話者ラベルを用いて、各話者のモデルを学習する。話者モデル学習手段１０２は、例えば、話者ごとの音声の性質を規定するモデル（確率モデルなどの数式モデル）を話者モデルとし、そのパラメータを導出する。具体的な学習の方法については、前述の非特許文献１に準じればよい。すなわち、話者Ａ、話者Ｂ、話者Ｃ、・・・の各々について、図２に示すようなデータ一式から、当該話者ラベルが付与された発話をすべて用いて、話者ごとの音声特徴量の出現確率を規定する確率モデル（例えば、ガウス混合モデル（ＧＭＭ）など）のパラメータを話者ごとに求めてもよい。

話者共起学習手段１０４は、セッション音声データ記憶手段１００に記憶された音声データ、セッション話者ラベル記憶手段１０１に記憶された話者ラベル及び話者モデル学習手段１０２が求めた各話者モデルを用いて、話者間の共起関係を集約したモデルである話者共起モデルを学習する。発明が解決しようとする課題でも述べたように、話者間には人間的な関係の強弱がある。話者と話者とのつながりをネットワークと考えた場合、そのネットワークは均質ではなく、結合の強い箇所、弱い箇所がある。ネットワークを大局的にみると、結合の特に強いサブネットワーク（クラスタ）が散在するような様相を呈する。

話者共起学習手段１０４が行う学習では、このようなクラスタを抽出し、当該クラスタの特徴を表す数式モデル（確率モデル）を導出する。

次に、話者モデル学習手段１０２および話者共起学習手段１０４の動作について、さらに詳しく述べる。

まず、話者モデル学習手段１０２が学習する話者モデルは、発話Ｘの確率分布を規定する確率モデルであり、例えば図３のような状態遷移図で表すことができる。厳密には、話者ｉ（ｉ＝１，２，・・・，Ｓ）のモデルは以下の式（２）の確率密度関数で表される。

このような確率モデルは１状態の隠れマルコフモデルと呼ばれる。特にパラメータａ_ｉは状態遷移確率と呼ばれる。ｆはパラメータλ_ｉで規定される関数で、発話を構成する個々の特徴ベクトルｘ_ｉの分布を規定する。話者モデルの実体はパラメータａ_ｉ、λ_ｉであり、話者モデル学習手段１０２における学習はこれらのパラメータの値を決定することといえる。なお、ｆの具体的な関数形としては、ガウス混合分布（ＧＭＭ）などが挙げられる。話者モデル学習手段１０２は、このような学習方法に基づき、パラメータａ_ｉ、λ_ｉを計算し、話者モデル記憶手段１０５に記録する。

次に、話者共起学習手段１０４が学習する話者共起モデルについては、上述の各話者（ｉ＝１，２，・・・，Ｓ）の話者モデルを並列させた図４に示すような状態遷移図を基本単位とし、さらにこれをＴ個並列させた図５に示すような状態遷移図（マルコフネットワーク)で表すことができる。

図４におけるｗ_ｊｉ（ｊ＝１，２，・・・，Ｔ、ｉ＝１，２，・・・，Ｓ）は、話者の集合（クラスタ）ｊにおける話者ｉの出現確率を意味するパラメータ（ｗ_ｊ，１＋・・・＋ｗ_ｊ，ｓ＝１）で、ｊに応じて異なるＴ通りのパターンがある。ｗ_ｊｉ=０であれば、話者ｉは決して出現しないことになる。逆に、ｗ_ｊｉ＞０なる話者は互いに共起する可能性がある、つまり人間的な関係性があるということになる。また、ｗ_ｊｉ＞０なる話者の集合は、話者のネットワークにおけるクラスタに相当し、劇団型振り込め詐欺の例でいえば、典型的な犯行グループ１つを表すといえる。

図４が１つの振り込め詐欺の犯行グループを表すとして、犯行グループはＴ個のパターンに大別されると仮定したのが、図５のマルコフネットワークで現される確率モデルである。ｕ_ｊは、犯行グループ、すなわち話者の集合（クラスタ）ｊの出現確率を表すパラメータで、犯行グループの活動の活発さと解釈できる。ｖ_ｊは、話者の集合ｊの１セッションにおける発話数に関係するパラメータである。話者共起モデルの実体はパラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉであり、話者共起学習手段１０４における学習は、これらのパラメータの値を決定することといえる。

ここまでに定義したパラメータのセットをθ＝｛ｕ_ｊ，ｖ_ｊ，ｗ_ｊｉ，ａ_ｉ，λ_ｉ｝として、Ｋ個の発話からなるセッションΞ＝（Ｘ_１，Ｘ_２，・・・，Ｘ_Ｋ）の確率分布を規定する確率モデルは以下の式（３）で表される。

ここに、ｙは話者の集合（クラスタ）を指定するインデクスであり、Ｚ＝（ｚ_１，ｚ_２，・・・，ｚ_Ｋ）は発話ごとに話者を指定するインデクス列である。また、表記の簡単化のため以下の式（４）のように置き換えを行っている。

話者共起学習手段１０４は、セッション音声データ記憶手段１００に記憶された音声データＸ_ｋ ^（ｎ）、セッション話者ラベル記憶手段１０１に記憶された話者ラベルｚ_ｋ ^（ｎ）及び話者モデル学習手段１０２が求めた各話者のモデルａ_ｉ、λ_ｉを用いて、パラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉを推定する。推定方法についてはいくつか考えられるが、尤度最大化基準（最尤基準）による方法が一般的である。すなわち、所与の音声データ、話者ラベル、各話者のモデルに対して、上述の式（３）の確率ｐ（Ξ｜θ）が最大となるように推定する。

最尤基準に基づく具体的な計算は、例えば期待値最大化法（Expectation-Maximization法、略してＥＭ法)によって導出できる。具体的には、以下のステップＳ０〜Ｓ３において、ステップＳ１とステップＳ２を交互に反復するアルゴリズムを実行する。

ステップＳ０：
パラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉに適当な値をセットする。

ステップＳ１：
セッションΞ^（ｎ）がクラスタｙに属する確立を、以下の式（５）に従って計算する。ここに、Ｋ^（ｎ）は、セッションΞ^（ｎ）に含まれる発話数である。

ステップＳ２：
パラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉを以下の式（６）に従って更新する。ここに、Ｎはセッション総数、δ_ｉｊはクロネッカのデルタである。

ステップＳ３：
以降、上述の式（３）の確率ｐ（Ξ｜θ）の値の上昇度合いなどから収束判定を行い、収束するまでステップＳ１とステップＳ２を交互に反復する。

以上のステップを経て計算された話者共起モデル、すなわちパラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉは、話者共起モデル記憶手段１０６に記録される。

また、認識手段１２は、当該認識手段１２に含まれる各手段の動作により、与えられた任意の音声データに含まれる話者を認識する。

本実施形態では、セッションマッチング手段１０７は、任意の音声データを受け取る。ここでの音声データは、学習手段１１で取り扱った音声データと同様、単一の話者のみが発声する形態の他に、複数の話者が交替で発声するような発話列の形態において生成される音声データも含む。このような音声データを、これまでと同様、Ξ＝（Ｘ_１，Ｘ_２，・・・，Ｘ_Ｋ）と表し、Ξをセッションと呼ぶ。

セッションマッチング手段１０７はさらに、学習手段１１によりあらかじめ計算されて、それぞれ話者モデル記憶手段１０４、話者共起モデル記憶手段１０６に記録された、話者モデル、話者共起モデルを参照して、セッションΞに含まれる各発話がどの話者から発せられたか、すなわち話者ラベル列Ｚ＝（ｚ_１，ｚ_２，・・・，ｚ_Ｋ）を推定する。具体的には、セッション音声データΞとパラメータθ＝｛ｕ_ｊ，ｖ_ｊ，ｗ_ｊｉ，ａ_ｉ，λ_ｉ｝を所与として、以下の式（７）に基づいて話者ラベル列Ｚの確率分布が理論的に計算できる。

よって、確率ｐ（Ξ｜θ）が最大となるＺを求めることで、各発話の話者ラベルを計算することができる。なお、式（７）の右辺分母はＺに依存しない定数となるので、計算を省略することができる。また、分子のクラスタｊに関する総和は、この種の計算でよく行われるように、最大値演算ｍａｘ_ｊに置き換えて近似計算としてもよい。さらに、Ｚの取り得る値の組合せはＳ^Ｋ通りあり、確率ｐ（Ξ｜θ）の最大値探索は計算量が膨大化する可能性があるが、動的計画法などの計算手法を適用することにより、効率的に探索することができる。

なお、以上述べた動作では、認識手段１２に入力される音声データが、学習手段１１で学習した話者の発話のみから構成されていることを前提としている。しかし、実際応用上は、学習手段１１で獲得し得なかった未知の話者の発話を含む音声データが入力される場合があり得る。このような場合には、各発話について、未知話者か否かを判定する後処理を容易に導入することが可能である。すなわち、以下の式（８）によって個々の発話Ｘ_ｋが話者ｚ_ｋに属する確率を計算し、所定のしきい値以下の値となった場合に未知話者であると判定してもよい。

上述の式（８）に代えて以下の式（９）に示すような近似計算を行ってもよい。

また、式（８）や式（９）の右辺は、話者モデルｉ＝１，・・・，Ｓに関する総和形式を含んでいるが、これらを非特許文献１に記載されている平均的な話者のモデル、すなわちユニバーサル・バックグラウンド・モデル（Universal Background model）に置き換えて計算してもよい。

本実施形態において、セッション音声データ記憶手段１００と、セッション話者ラベル記憶手段１０１と、話者モデル記憶手段１０５と、話者共起モデル記憶手段１０６とは、例えば、メモリなどの記憶装置によって実現される。また、話者モデル学習手段１０２と、話者共起学習手段１０４と、セッションマッチング手段１０７とは、例えば、ＣＰＵなどのプログラムに従って動作する情報処理装置（プロセッサユニット）によって実現される。なお、セッション音声データ記憶手段１００、セッション話者ラベル記憶手段１０１、話者モデル記憶手段１０５、話者共起モデル記憶手段１０６は、それぞれの別々の記憶装置として実現されていてもよい。また、話者モデル学習手段１０２、話者共起学習手段１０４、セッションマッチング手段１０７は、それぞれ別々のユニットとして実現されていてもよい。

次に、図６及び図７のフローチャートを参照して、本実施形態の全体の動作について詳細に説明する。なお、図６は、学習手段１１の動作の一例を示すフローチャートである。また、図７は、認識手段１２の動作の一例を示すフローチャートである。

まず、学習手段１１において、話者モデル学習手段１０２と話者共起モデル学習手段１０４は、セッション音声データ記憶手段１００から音声データを読み込む（図６のステップＡ１）。また、セッション話者ラベル記憶手段１０１から話者ラベルを読み込む（ステップＡ２）。これらのデータの読み込みについては、順序は任意である。また、話者モデル学習手段１０２と話者共起モデル学習手段１０４のデータ読み込みのタイミングを合わせなくてもよい。

次に、話者モデル学習手段１０２は、読み込んだ音声データおよび話者ラベルを用いて、各話者モデル、すなわちパラメータａ_ｉ，λ_ｉ（ｉ＝１，・・・，Ｓ）を計算し（ステップＡ３）、話者モデル記憶手段１０５に記録する（ステップＡ４）。

さらに、話者共起学習手段１０４は、音声データ、話者ラベル及び話者モデル学習手段１０２によって計算された各話者モデルを用いて、例えば上述の式（５），式（６）の計算を含む反復解法等の所定の計算を実行することにより、話者共起モデル、すなわちパラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉ（ｉ＝１，・・・，Ｓ、ｊ＝１，・・・，Ｔ）を計算し（ステップＡ５）、話者共起モデル記憶手段１０６に記録する（ステップＡ６）。

認識手段１２において、セッションマッチング手段１０７は、話者モデル記憶手段１０５から話者モデルを読み込み（図７のステップＢ１）、話者共起モデル記憶手段１０６から話者共起モデルを読み込む（ステップＢ２）。また、任意の音声データを受け取り（ステップＢ３）、さらに、例えば上述の式（７）及び必要に応じて式（８）または式（９）等の所定の計算をすることにより、受け取った音声データの各発話に対する話者ラベルを求める。

以上のように、本実施形態によれば、学習手段１１において、話者共起学習手段１０４が、会話などにおける一連の発話をまとめたセッションの単位で記録された音声データ及び話者ラベルを用いることにより、話者間の共起関係を話者共起モデルとして獲得（生成）する。また、認識手段１２において、セッションマッチング手段１０７が、個々の発話について独立に話者の認識を行うのではなく、学習手段１１が獲得した話者共起モデルを用いて、セッション全体の話者の共起の整合性を考慮して話者認識を行う。従って、話者のラベルを正確に求めることができ、話者を高精度に認識することができる。

例えば、前述の振り込め詐欺の例を考えると、劇団型振り込め詐欺のような複数犯の場合、話者間の関係性が生ずる。例えば、話者Ａと話者Ｂは同じ犯行グループに属して活動しており、１回の犯行（電話）の中に共に現れる可能性が高いとか、話者Ｂと話者Ｃは犯行グループが異なり、一緒には現れないとか、話者Ｄは常に単独犯である等である。話者Ａと話者Ｂのように、ある話者と話者が一緒に現れることを、本発明では「共起」と呼んでいる。

このような話者間の関係性が、話者、すなわち犯人を特定するための重要な情報である。とりわけ、電話から得られた音声は、帯域が狭く音質が劣悪であり、話者の区別が難しい。したがって、「ここに話者Ａが出てきているから、こっちのこの声はおそらく仲間の話者Ｂのものであろう」というような推論は有効と予想される。したがって、上述のような構成を採用し、話者間の関係性を考慮して話者の認識を行うことにより本発明の目的を達成することができる。

実施形態２．
次に、本発明の第２の実施形態について説明する。図８は、本発明の第２の実施形態の音声データ解析装置の構成例を示すブロック図である。図８に示すように、本実施形態の音声データ解析装置は、学習手段３１と、認識手段３２とを備える。

また、学習手段３１は、セッション音声データ記憶手段３００と、セッション話者ラベル記憶手段３０１と、話者モデル学習手段３０２と、話者分類手段３０３と、話者共起学習手段３０４と、話者モデル記憶手段３０５と、話者共起モデル記憶手段３０６とを含む。なお、話者分類手段３０３を含む点が第１の実施形態と異なる。

また、認識手段３２は、セッションマッチング手段３０７と、話者モデル記憶手段３０４と、話者共起モデル記憶手段３０６とを含む。なお、話者モデル記憶手段３０４と、話者共起モデル記憶手段３０６は、学習手段３１と共有している。

これらの手段はそれぞれ概略次のように動作する。

学習手段３１は、第１の実施形態と同様に、当該学習手段３１が含む各手段の動作により、音声データと話者ラベルを用いて、話者モデルと話者共起モデルを学習する。ただし、第１の実施形態における学習手段１１とは異なり、話者ラベルが不完全であってもよい。すなわち、音声データ中の一部のセッション、あるいは一部の発話に対応する話者ラベルが未知であってもよいとする。一般に、各発話に対して話者ラベルを付与する作業は、音声データの検聴などの多大な人的コストを伴うものであるから、このような状況は実際応用上しばしば起こり得る。

一部の話者ラベルが未知であるという点を除けば、セッション音声データ記憶手段３００及びセッション話者ラベル記憶手段３０１は、第１の実施形態におけるセッション音声データ記憶手段１００及びセッション話者ラベル記憶手段１０１と同様である。

話者モデル学習手段３０２は、セッション音声データ記憶手段３００及びセッション話者ラベル記憶手段３０１にそれぞれ記憶された音声データおよび話者ラベル、並びに、話者分類手段３０３によって計算される未知の話者ラベルの推定結果、話者共起学習手段３０４によって計算される各セッションの帰属クラスタの推定結果を用いて、各話者のモデルを学習した後、最終的な話者モデルを話者モデル記憶手段３０５に記録する。

話者分類手段３０３は、セッション音声データ記憶手段３００及びセッション話者ラベル記憶手段３０１にそれぞれ記憶された音声データおよび話者ラベル、並びに、話者モデル学習手段３０２によって計算される話者モデル、話者共起学習手段３０４によって計算される話者共起モデルを用いて、話者ラベル未知の発話に付与すべき話者ラベルを確率的に推定する。

話者共起学習手段３０４は、セッションごとに帰属クラスタを確率的に推定し、話者分類手段３０３によって計算される未知の話者ラベルの推定結果を参照し、話者共起モデルを学習する。また、最終的な話者共起モデルを話者共起モデル記憶手段３０６に記録する。

ここで、話者モデル学習手段３０２、話者分類手段３０３、話者共起学習手段３０４の動作についてさらに詳しく述べる。

話者モデル学習手段３０２が学習する話者モデル、話者共起学習手段３０４が学習する話者共起モデルは、いずれも第１の実施形態と同様であり、それぞれ図３や図５の状態遷移図で表される。ただし、話者ラベルが不完全であることから、話者モデル学習手段３０２、話者分類手段３０３、話者共起学習手段３０４は、互いの出力に依存し、交互に反復的に動作して、話者モデルおよび話者共起モデルを学習する。具体的には、以下のステップＳ３０〜Ｓ３５において、ステップＳ３１〜Ｓ３４をくり返すアルゴリズムによって推定する。

ステップＳ３０：
者共起学習手段３０４は、話者共起モデルのパラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉ（ｉ＝１，・・・，Ｓ、ｊ＝１，・・・，Ｔ）に適当な値をセットする。話者分類手段３０３は、未知の話者ラベルについて、乱数などにより適当なラベル（値）を付与する。

ステップ３１：
話者モデル学習手段３０２は、セッション音声データ記憶手段３００に記録された音声データ、セッション話者ラベル記憶手段３０１に記録された既知の話者ラベル及び話者分類手段３０３が推定した話者ラベルを用いて話者モデルを学習し、パラメータａ_ｉ，λ_ｉ（ｉ＝１，・・・，Ｓ）を更新する。例えば話者モデルが、平均μ_ｉと分散Σ_ｉで規定されるガウス分布モデル、すなわちλ_ｉ＝（ａ_ｉ，μ_ｉ，Σ_ｉ）であれば、以下の式（１０）によってパラメータを更新する。

ステップ３２：
話者分類手段３０３は、セッション音声データ記憶手段３００に記録された音声データ、並びに話者モデル、話者共起モデルを用いて、話者ラベルが未知の発話について、以下の式（１１）に従って話者ラベルを確率的に推定する。

ステップＳ３３：
話者共起学習手段３０４は、セッション音声データ記憶手段３００、セッション話者ラベル記憶手段３０１にそれぞれに記録された音声データ、既知の話者ラベル、並びに話者モデル学習手段３０２が算出した話者モデル、話者分類手段３０３が算出した未知の話者ラベルの推定結果を用いて、セッションΞ^（ｎ）がクラスタｙに属する確率を、上述の式（５）に従って計算する。

ステップＳ３４：
話者共起学習手段３０４はさらに、ステップＳ３３の算出結果を用いて、話者共起モデルを学習する。すなわち、パラメータｕ_ｊ，ｖ_ｊ，ｗ_ｊｉ（ｉ＝１，・・・，Ｓ、ｊ＝１，・・・，Ｔ）を以下の式（１２）に従って更新する。

ステップＳ３５：
以降、収束するまでステップＳ３１〜Ｓ３４を反復する。収束に至った時点で、話者モデル学習手段３０２は話者モデルを話者モデル記憶手段３０５に、話者共起学習手段３０４は話者共起モデルを話者共起モデル記憶手段３０６に、それぞれ記録する。

上記ステップＳ３１〜Ｓ３５の処理は、第１の実施形態と同様に、尤度最大化基準に基づく期待値最大化法から導出されるものである。また、この導出はあくまで一例であり、他のよく知られる基準、例えば事後確率最大化（ＭＡＰ）基準やベイズ基準に基づく定式化も可能である。

また、本実施形態の認識手段３２は、当該認識手段３２が含む各手段の動作により、与えられた任意の音声データに含まれる話者を認識する。動作の詳細については、第１の実施形態における認識手段１２と同じであるため、説明を省略する。

本実施形態において、例えば、セッション音声データ記憶手段３００と、セッション話者ラベル記憶手段３０１と、話者モデル記憶手段３０５と、話者共起モデル記憶手段３０６とは、メモリなどの記憶装置によって実現される。また、話者モデル学習手段３０２と、話者分類手段３０３と、話者共起学習手段３０４と、セッションマッチング手段３０７とは、ＣＰＵなどのプログラムに従って動作する情報処理装置（プロセッサユニット）によって実現される。なお、セッション音声データ記憶手段３００、セッション話者ラベル記憶手段３０１、話者モデル記憶手段３０５、話者共起モデル記憶手段３０６は、それぞれの別々の記憶装置として実現されていてもよい。また、話者モデル学習手段３０２、話者分類手段３０３、話者共起学習手段３０４、セッションマッチング手段３０７は、それぞれ別々のユニットとして実現されていてもよい。

次に、図９に示すフローチャートを参照して、本実施形態の動作について詳細に説明する。図９は、本実施形態の学習手段３１の動作の一例を示すフローチャートである。なお、認識手段３２の動作については、第１の実施形態と同様であるため、説明を省略する。

まず、話者モデル学習手段３０２、話者分類手段３０３、話者共起学習手段３０４は、セッション音声データ記憶手段３００に記憶された音声データを読み込む（図９のステップＣ１）。また、話者モデル学習手段３０２、話者共起学習手段３０４はさらに、セッション話者ラベル記憶手段３０１に記憶された既知の話者ラベルを読み込む（ステップＣ２）。

次に、話者モデル学習手段３０２は、話者分類手段３０３によって計算される未知の話者ラベルの推定結果、話者共起学習手段３０４によって計算される各セッションの帰属クラスタの推定結果を用いて、話者モデルを更新する（ステップＣ３）。

話者分類手段３０３は、話者モデル学習手段３０２から話者モデル、話者共起学習手段３０４から話者共起モデルをそれぞれ受け取り、話者ラベル未知の発話に付与すべきラベルを例えば、上述の式（１１）に従って確率的に推定する（ステップＣ４）。

話者共起学習手段３０４は、セッションごとに帰属クラスタを例えば、上述の式（５）に従って確率的に推定し、さらに話者分類手段３０３によって計算される未知の話者ラベルの推定結果を参照し、話者共起モデルを例えば、上述の式（１２）に従って更新する（ステップＣ５）。

ここで、収束判定を行い（ステップＣ６）、未収束であれば、ステップＣ３に戻る。収束していれば、話者モデル学習手段３０２は、話者モデルを話者モデル記憶手段３０５に記録し（ステップＣ７）、話者共起学習手段３０４は、話者共起モデルを話者共起モデル記憶手段３０６に記録する（ステップＣ８）。

なお、ステップＣ１とステップＣ２、ステップＣ７とステップＣ８の順序はそれぞれ任意である。また、ステップＳ３３〜Ｓ３５の順序についても、任意に入れ替え可能である。

以上のように、本実施形態によれば、学習手段３１において、話者ラベルが未知であっても、話者分類手段３０３が話者ラベルを推定し、話者モデル学習手段３０２、話者共起学習手段３０４を含めた３つの手段が協調して反復的に動作することにより、話者モデル、話者共起モデルを得るように構成されているため、話者ラベルが一部欠如している、さらには完全にない場合であっても、話者を高精度に認識することができる。なお、他の点に関しては第１の実施形態と同様である。

実施形態３．
次に、本発明の第３の実施形態について説明する。図１０は、本発明の第３の実施形態の音声データ解析装置（モデル生成装置）の構成例を示すブロック図である。図１０に示すように、本実施形態の音声データ解析装置は、音声データ解析用プログラム５１−１と、データ処理装置５２と、記憶装置５３とを備える。また、記憶装置５３には、セッション音声データ記憶領域５３１と、セッション話者ラベル記憶領域５３２と、話者モデル記憶領域５３３と、話者共起モデル記憶領域５３４とが含まれる。なお、本実施形態は、第１または第２の実施形態における学習手段（学習手段１１または学習手段３１）を、プログラムにより動作されるコンピュータにより実現した場合の構成例である。

音声データ解析用プログラム５１−１は、データ処理装置５２に読み込まれ、データ処理装置５２の動作を制御する。なお、音声データ解析用プログラム５１−１には、第１または第２の実施形態における学習手段（学習手段１１または学習手段３１）の動作がプログラム言語を用いて記述されている。より具体的には、データ処理装置５２は、音声データ解析用プログラム５１−１の制御により、第１の実施形態における話者モデル学習手段１０２および話者共起学習手段１０４の処理、または第２の実施形態における話者モデル学習手段３０２、話者分類手段３０３および話者共起学習手段３０４の処理と同一の処理を実行する。すなわち、記憶装置５３内のセッション音声データ記憶領域５３１、セッション話者ラベル記憶領域５３２にそれぞれ記録された音声データ、話者ラベルを読み込み、話者モデルおよび話者共起モデルを、記憶装置５３内の話者モデル記憶領域５３３、話者共起モデル記憶領域５３４にそれぞれ記録する。

以上のように、本実施形態の音声データ解析装置（モデル生成装置）によれば、多数の話者から発せられる音声データから話者を学習または認識する際に有効な話者モデルおよび話者共起モデルを得ることができるため、得られた話者モデルおよび話者共起モデルを用いることによって話者を高精度に認識することができる。

実施形態４．
次に、本発明の第４の実施形態について説明する。図１１は、本発明の第４の実施形態の音声データ解析装置（話者認識装置）の構成例を示すブロック図である。図１１に示すように、本実施形態の音声データ解析装置は、音声データ解析用プログラム５１−２と、データ処理装置５２と、記憶装置５３とを備える。また、記憶装置５３には、話者モデル記憶領域５３３と、話者共起モデル記憶領域５３４とが含まれる。なお、本実施形態は、第１または第２の実施形態における認識手段（認識手段１２または認識手段３２）を、プログラムにより動作されるコンピュータにより実現した場合の構成例である。

音声データ解析用プログラム５１−２は、データ処理装置５２に読み込まれ、データ処理装置５２の動作を制御する。なお、音声データ解析用プログラム５１−２には、第１または第２の実施形態における認識手段（認識手段１２または認識手段３２）の動作がプログラム言語を用いて記述されている。より具体的には、データ処理装置５２は、音声データ解析用プログラム５１−２の制御により、第１の実施形態におけるセッションマッチング手段１０７の処理、または第２の実施形態におけるセッションマッチング手段３０７の処理と同一の処理を実行する。すなわち、記憶装置５３内の話者モデル記憶領域５３３、話者共起モデル記憶領域５３４にそれぞれ記録されている話者モデル、話者共起モデルを参照し、任意の音声データに対して話者認識を行う。なお、話者モデル記憶領域５３３、話者共起モデル記憶領域５３４には、第１または第２の実施形態における学習手段、もしくは上記音声データ解析用プログラム５１−１によるデータ処理装置５２の制御によって生成されるものと同等の話者モデル、話者共起モデルが予め記憶されているものとする。

以上のように、本実施形態の音声データ解析装置（話者認識装置）によれば、話者モデルだけでなく、話者間の共起関係をモデル化（数式等で表現）した話者共起モデルを用いて、セッション全体の話者の共起の整合性を考慮して話者認識を行うので、話者を高精度に認識することができる。なお、話者モデルおよび話者共起モデルが予め記憶されていることによりモデル化のための演算処理が省略できる点を除けば、第１または第２の実施形態の効果と同様である。

なお、第３の実施形態の音声データ解析用プログラム５１−１と、第４の実施形態の音声データ解析用プログラム５１−２とを結合した音声データ解析用プログラム５１をデータ処理装置５２に読み込ませることにより、１つのデータ処理装置５２に、第１または第２の実施形態における学習手段および認識手段の各処理をさせることも可能である。

次に、本発明の概要について説明する。図１２は、本発明の概要を示すブロック図である。図１２に示す音声データ解析装置は、話者モデル導出手段６０１と、話者共起モデル導出手段６０２とを備える。

話者モデル導出手段６０１（例えば、話者モデル学習手段１０２，３０２）は、話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する。

話者モデル導出手段６０１は、例えば、話者モデルとして、話者ごとの音声特徴量の出現確率を規定する確率モデルを導出してもよい。確率モデルは、例えば、ガウス混合モデルまたは隠れマルコフモデルであってもよい。

話者共起モデル学習手段６０２（例えば、話者共起モデル学習手段１０３，３０４）は、話者モデル学習手段６０１が導出した話者モデルを用いて、音声データを一連の会話の単位で分割したセッションデータから、話者間の共起関係の強さを表すモデルである話者共起モデルを導出する。

話者共起モデル学習手段６０２は、例えば、話者共起モデルとして、共起関係の強い話者の集合すなわちクラスタの出現確率およびクラスタ内での話者の出現確率で規定されるマルコフネットワークを導出してもよい。

また、このような構成において、話者モデルおよび話者共起モデルを、音声データおよび話者ラベルに対する尤度最大化基準、事後確率最大化基準、ベイズ基準のいずれかの基準に基づいて、反復演算させることにより学習してもよい。

また、図１３は、本発明の音声データ解析装置の他の構成例を示すブロック図である。図１３に示すように、さらに話者推定手段６０３を備える構成であってもよい。話者推定手段６０３（例えば、話者分類手段３０３）は、話者モデル導出手段６０１または話者共起モデル導出手段６０２に入力される音声データ内に話者ラベルが付与されていない発話が存在する場合に、少なくともその時点において導出されている話者モデルまたは話者共起モデルを参照して、話者ラベルが付与されていない発話について話者ラベルを推定する。

このような構成の場合には、話者モデル導出手段６０１、話者共起モデル導出手段６０２および話者推定手段６０３を交互に反復動作させてもよい。

また、図１４は、本発明の音声データ解析装置の他の構成例を示すブロック図である。図１３に示すように、本発明の音声データ解析装置は、話者モデル記憶手段６０４と、話者共起モデル記憶手段６０５と、話者認識手段６０６とを備える構成であってもよい。

話者モデル記憶手段６０４（例えば、話者モデル記憶手段１０５，３０６）は、者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルを記憶する。

話者共起モデル記憶手段６０５（例えば、話者共起モデル記憶手段１０６，３０６）は、音声データを一連の会話の単位で分割したセッションデータから導出される、話者間の共起関係の強さを表すモデルである話者共起モデルを記憶する。

話者認識手段６０６（例えば、セッションマッチング手段１０７，３０７）は、記憶されている話者モデルと話者共起モデルとを用いて、指定された音声データに含まれる各発話について、話者モデルとの整合性および音声データ全体における共起関係の整合性を算出し、指定された音声データに含まれる各発話の話者がいずれの話者かを認識する。

なお、図１５に示すように、記憶手段の代わりに話者モデル導出手段６０１と話者共起モデル導出手段６０２とを備え、１つの装置によりモデルの生成から話者の認識までの動作を実現させることも可能である。

以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２００９年７月１６日に出願された日本特許出願２００９−１６８２９０を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、多数の話者の音声を記録した人物データベースと入力音声とを照合する話者検索装置や話者照合装置といった用途に適用可能である。また、映像や音声からなるメディアデータのインデクシング・検索装置、あるいは、会議で出席者の発言を記録する会議録作成支援装置、会議支援装置といった用途にも適用可能である。

１１，３１学習手段
１００，３００セッション音声データ記憶手段
１０１，３０１セッション話者ラベル記憶手段
１０２，３０２話者モデル学習手段
１０４，３０４話者共起学習手段
１０５，３０５話者モデル記憶手段
１０６，３０６話者共起モデル記憶手段
３０３話者分類手段
１２，３２認識手段
１０７，３０７，６０６セッションマッチング手段
５１，５１−１，５１−２音声データ解析用プログラム
５２データ処理装置
５３記憶装置
５３１セッション音声データ記憶領域
５３２セッション話者ラベル記憶領域
５３３話者モデル記憶領域
５３４話者共起モデル記憶領域
６０１話者モデル導出手段
６０２話者共起モデル導出手段
６０３話者推定手段
６０４話者モデル記憶手段
６０５話者共起モデル記憶手段
６０６話者認識手段

Claims

話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する話者モデル導出手段と、
前記話者モデル導出手段が導出した話者モデルを用いて、前記音声データを一連の会話の単位で分割したセッションデータから、前記話者間の共起関係の強さを表すモデルである話者共起モデルを導出する話者共起モデル導出手段とを備える
ことを特徴とする音声データ解析装置。
話者モデル導出手段または話者共起モデル導出手段に入力される音声データ内に話者ラベルが付与されていない発話が存在する場合に、少なくともその時点において導出されている話者モデルまたは話者共起モデルを参照して、前記話者ラベルが付与されていない発話について話者ラベルを推定する話者推定手段を備える
請求項１に記載の音声データ解析装置。
話者モデル導出手段、話者共起モデル導出手段および話者推定手段が交互に反復動作する
請求項２に記載の音声データ解析装置。
話者共起モデルが、共起関係の強い話者の集合すなわちクラスタの出現確率および前記クラスタ内での話者の出現確率で規定されるマルコフネットワークである
請求項１から請求項３のうちのいずれか１項に記載の音声データ解析装置。
話者モデルが、話者ごとの音声特徴量の出現確率を規定する確率モデルである
請求項１から請求項４のうちのいずれか１項に記載の音声データ解析装置。
話者モデルが、ガウス混合モデルまたは隠れマルコフモデルであることを特徴とする
請求項５に記載の音声データ解析装置。
話者モデルおよび話者共起モデルが、前記音声データおよび話者ラベルに対する尤度最大化基準、事後確率最大化基準、ベイズ基準のいずれかの基準に基づいて、反復演算されることにより学習される
請求項１から請求項６のうちのいずれか１項に記載の音声データ解析装置。
前記話者モデル導出手段が導出した話者モデルと、前記話者共起モデル導出手段が導出した話者共起モデルとを用いて、指定された音声データに含まれる各発話について、話者モデルとの整合性および音声データ全体における共起関係の整合性を算出し、指定された音声データに含まれる各発話の話者がいずれの話者かを認識する話者認識手段を備えた
請求項１から請求項７のうちのいずれか１項に記載の音声データ解析装置。
話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルを記憶する話者モデル記憶手段と、
前記音声データを一連の会話の単位で分割したセッションデータから導出される、前記話者間の共起関係の強さを表すモデルである話者共起モデルを記憶する話者共起モデル記憶手段と、
前記話者モデルと前記話者共起モデルとを用いて、指定された音声データに含まれる各発話について、話者モデルとの整合性および音声データ全体における共起関係の整合性を算出し、指定された音声データに含まれる各発話の話者がいずれの話者かを認識する話者認識手段を備える
ことを特徴とする音声データ解析装置。
話者認識手段は、各発話について、各話者に該当する確率を算出し、前記確率が最大となる話者を認識結果として選択する
請求項８または請求項９に記載の音声データ解析装置。
話者認識手段は、確率が最大となる話者の確率が所定の閾値に達していない場合に、該当する話者なしと判定する
請求項１０に記載の音声データ解析装置。
話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する話者モデル導出ステップと、
前記話者モデル導出ステップで導出される話者モデルを用いて、前記音声データを一連の会話の単位で分割したセッションデータから、前記話者間の共起関係の強さを表すモデルである話者共起モデルを導出する話者共起モデル導出ステップとを含む
ことを特徴とする音声データ解析方法。
話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルと、前記音声データを一連の会話の単位で分割したセッションデータから導出される、前記話者間の共起関係の強さを表すモデルである話者共起モデルとを用いて、指定された音声データに含まれる各発話について、話者モデルとの整合性および音声データ全体における共起関係の整合性を算出し、指定された音声データに含まれる各発話の話者がいずれの話者かを認識する話者認識ステップを含む
ことを特徴とする音声データ解析方法。
コンピュータに、
話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する話者モデル導出処理、および
前記話者モデル導出処理で導出される話者モデルを用いて、前記音声データを一連の会話の単位で分割したセッションデータから、前記話者間の共起関係の強さを表すモデルである話者共起モデルを導出する話者共起モデル導出処理
を実行させるための音声データ解析用プログラム。
コンピュータに、
話者を識別する情報である話者ラベルが付与された複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルと、前記音声データを一連の会話の単位で分割したセッションデータから導出される、前記話者間の共起関係の強さを表すモデルである話者共起モデルとを用いて、指定された音声データに含まれる各発話について、話者モデルとの整合性および音声データ全体における共起関係の整合性を算出し、指定された音声データに含まれる各発話の話者がいずれの話者かを認識する話者認識処理
を実行させるための音声データ解析用プログラム。