WO2022130471A1

WO2022130471A1 - 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム

Info

Publication number: WO2022130471A1
Application number: PCT/JP2020/046585
Authority: WO
Inventors: 厚志安藤; 有実子村田; 岳至森
Original assignee: 日本電信電話株式会社
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2022-06-23
Also published as: JP7505584B2; US20240105182A1; JPWO2022130471A1

Abstract

配列生成部（１５ｂ）が、音響信号のフレームごとの音響特徴の系列を所定長のセグメントに分割し、分割した複数の行方向のセグメントを列方向に配置した配列を生成する。学習部（１５ｄ）が、生成された配列を用いて、各フレームの話者ベクトルの話者ラベルを推定する話者ダイアライゼーションモデル（１４ａ）を学習により生成する。

Description

話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム

　本発明は、話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラムに関する。

　近年、音響信号を入力とし、音響信号に含まれる全ての話者の発話区間を同定する話者ダイアライゼーション技術が期待されている。話者ダイアライゼーション技術によれば、例えば、会議において誰がいつ発言したかを記録する自動書き起こしや、コンタクトセンタにおいて通話からオペレータと顧客との発話の自動切り出し等、様々な応用が可能となる。

　従来、話者ダイアライゼーション技術として、深層学習に基づくＥＥＮＤ（End-to-End　Neural　Diarization）と呼ばれる技術が開示されている（非特許文献１参照）。ＥＥＮＤでは、音響信号をフレームごとに分割し、各フレームから抽出した音響特徴から、当該フレームにおいて特定の話者が存在するか否かを表す話者ラベルをフレームごとに推定する。音響信号内の最大話者数Ｓである場合に、フレームごとの話者ラベルはＳ次元のベクトルであり、当該フレームにおいて、ある話者が発話している場合に１、発話していない場合に０となる。すなわち、ＥＥＮＤでは、話者数のマルチラベル二値分類を行うことにより、話者ダイアライゼーションを実現している。

　ＥＥＮＤでフレームごとの話者ラベル系列の推定に用いられるＥＥＮＤモデルは、誤差逆伝搬可能な層で構成される深層学習に基づくモデルであって、音響特徴系列からフレームごとの話者ラベル系列を一気通貫で推定できる。ＥＥＮＤモデルには、時系列モデル化を行うＲＮＮ（Recurrent　Neural　Network）層が含まれる。これにより、ＥＥＮＤでは当該フレームだけでなく周囲のフレームの音響特徴量を用いて、フレームごとの話者ラベルを推定することが可能となる。このＲＮＮ層には、双方向ＬＳＴＭ（Long　Short-Term　Memory）－ＲＮＮやＴｒａｎｓｆｏｒｍｅｒ　Ｅｎｃｏｄｅｒが用いられる。

　なお、非特許文献２には、ＲＮＮ　Ｔｒａｎｓｄｕｃｅｒについて記載されている。また、非特許文献３には、音響特徴量について記載されている。

Yusuke　Fujita,　Naoyuki　Kanda,　Shota　Horiguchi,　Yawen　Xue,　Kenji　Nagamatsu,　Shinji　Watanabe, "END-TO-END　NEURAL　SPEAKER　DIARIZATION　WITH　SELF-ATTENTION",　Proc.　ASRU,　2019年,　pp.　296-303 Yi　Luo,　Zhuo Chen,　Takuya　Yoshioka,　"DUAL-PATH　RNN:　EFFICIENT　LONG　SEQUENCE　MODELING　FOR　TIME-DOMAIN　SINGLE-CHANNEL　SPEECH　SEPARATION",　ICASSP,　2020年鹿野　清宏,　伊藤　克亘,　河原　達也,　武田　一哉,　山本　幹雄,　"音声認識システム",　オーム社,　2001年,　pp.13-14

　しかしながら、従来技術では、長い音響信号に対する話者ダイアライゼーションを高精度に行うことが困難であった。つまり、従来のＥＥＮＤモデルは、ＲＮＮ層が非常に長い音響特徴系列を取り扱うことが困難であるため、非常に長い音響信号が入力された場合には、話者ダイアライゼーションの誤りが増加する恐れがある。

　例えば、ＲＮＮにＢＬＳＴＭ－ＲＮＮを用いる場合には、ＢＬＳＴＭ－ＲＮＮは入力されたフレームとこれに隣接するフレームの内部状態とを用いて当該フレームの話者ラベルを推定する。そのため、当該フレームから離れたフレームほど、その音響特徴を話者ラベルの推定に利用することが困難である。

　また、ＲＮＮにＴｒａｎｓｆｏｒｍｅｒ　Ｅｎｃｏｄｅｒを用いる場合には、当該フレームの話者ラベルの推定に役立つ情報が、どのフレームにあるかを推定するように、ＥＥＮＤモデルを学習する。そのため、音響特徴系列が長くなるほど、フレーム推定の選択肢が増加して、話者ラベルの推定が困難となる。

　本発明は、上記に鑑みてなされたものであって、長い音響信号に対する話者ダイアライゼーションを高精度に行うことを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る話者ダイアライゼーション方法は、音響信号のフレームごとの音響特徴の系列を所定長のセグメントに分割し、分割した複数の行方向のセグメントを列方向に配置した配列を生成する生成工程と、前記配列を用いて、各フレームの話者ベクトルの話者ラベルを推定するモデルを学習により生成する学習工程と、を含んだことを特徴とする。

　本発明によれば、長い音響信号に対する話者ダイアライゼーションを高精度に行うことが可能となる。

図１は、話者ダイアライゼーション装置の概要を説明するための図である。図２は、話者ダイアライゼーション装置の概略構成を例示する模式図である。図３は、話者ダイアライゼーション装置の処理を説明するための図である。図４は、話者ダイアライゼーション装置の処理を説明するための図である。図５は、話者ダイアライゼーション処理手順を示すフローチャートである。図６は、話者ダイアライゼーション処理手順を示すフローチャートである。図７は、話者ダイアライゼーションプログラムを実行するコンピュータを例示する図である。

　以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［話者ダイアライゼーション装置の概要］
　図１は、話者ダイアライゼーション装置の概要を説明するための図である。図１に示すように、本実施形態の話者ダイアライゼーション装置は、入力される二次元の音響特徴系列をセグメントに分割し、三次元の音響特徴配列に変換する。そして、この音響特徴配列を、列向きＲＮＮと行向きＲＮＮとの２つの系列モデルを含む話者ダイアライゼーションモデルに入力する。

　具体的には、話者ダイアライゼーション装置は、Ｔフレーム×Ｄ次元の二次元の音響特徴系列をＬフレームのセグメントにシフト幅Ｎフレームで分割する。そして、各セグメントを各行とし、各行の先頭を列方向にそろえるように結合することにより、（Ｔ－Ｌ）／Ｎ行×Ｌ列×Ｄ次元の三次元の音響特徴配列を生成する。

　このようにして生成した配列を、各行に対してＲＮＮ処理を行う行向きＲＮＮ層を適用して、各セグメント内の音響特徴系列を用いて隠れ層出力を得る。続けて、配列を各列に対してＲＮＮ処理を行う列向きＲＮＮ層を適用して、複数のセグメントにまたがる隠れ層出力系列を得て、フレームごとの話者ラベルの推定に用いられる埋め込み系列が得られる。そして、フレームごとの埋め込み系列の各行をオーバーラップ加算して、Ｔフレームのフレームごとの話者ラベル埋め込み系列を得る。

　その後、話者ダイアライゼーション装置は、Ｌｉｎｅａｒ（線形）層とｓｉｇｍｏｉｄ層とを用いて、フレームごとの話者ラベル系列を得る。

　このように、話者ダイアライゼーション装置は、行向きＲＮＮ層を適用することにより、局所的な文脈情報を用いて話者ダイアライゼーションを行うことが可能となる。この場合には、隣接するフレームで同じ話者ラベルを出力する傾向になる。また、話者ダイアライゼーション装置は、列向きＲＮＮ層を適用することにより、大局的な文脈情報を用いて話者ダイアライゼーションを行うことが可能となる。これにより、時間的に離れた同一の話者の発話を話者ダイアライゼーションの対象とすることが可能となる。

［話者ダイアライゼーション装置の構成］
　図２は、話者ダイアライゼーション装置の概略構成を例示する模式図である。また、図３および図４は、話者ダイアライゼーション装置の処理を説明するための図である。まず、図２に例示するように、本実施形態の話者ダイアライゼーション装置１０は、パソコン等の汎用コンピュータで実現され、入力部１１、出力部１２、通信制御部１３、記憶部１４、および制御部１５を備える。

　入力部１１は、キーボードやマウス等の入力デバイスを用いて実現され、実施者による入力操作に対応して、制御部１５に対して処理開始などの各種指示情報を入力する。出力部１２は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置等によって実現される。通信制御部１３は、ＮＩＣ（Network　Interface　Card）等で実現され、サーバや、音響信号を取得する装置等の外部の装置と制御部１５とのネットワークを介した通信を制御する。

　記憶部１４は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。なお、記憶部１４は、通信制御部１３を介して制御部１５と通信する構成でもよい。本実施形態において、記憶部１４には、例えば、後述する話者ダイアライゼーション処理に用いられる話者ダイアライゼーションモデル１４ａ等が記憶される。

　制御部１５は、ＣＰＵ（Central　Processing　Unit）やＮＰ（Network　Processor）やＦＰＧＡ（Field　Programmable　Gate　Array）等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部１５は、図２に例示するように、音響特徴抽出部１５ａ、配列生成部１５ｂ、話者ラベル生成部１５ｃ、学習部１５ｄ、推定部１５ｅおよび発話区間推定部１５ｆとして機能する。なお、これらの機能部は、それぞれが異なるハードウェアに実装されてもよい。例えば、学習部１５ｄは学習装置として実装され、推定部１５ｅは、推定装置として実装されてもよい。また、制御部１５は、その他の機能部を備えてもよい。

　音響特徴抽出部１５ａは、話者の発話を含む音響信号のフレームごとの音響特徴を抽出する。例えば、音響特徴抽出部１５ａは、入力部１１を介して、あるいは音響信号を取得する装置等から通信制御部１３を介して、音響信号の入力を受け付ける。また、音響特徴抽出部１５ａは、音響信号をフレームごとに分割し、各フレームからの信号に対して離散フーリエ変換やフィルタバンク乗算を行うことにより音響特徴ベクトルを抽出し、フレーム方向に結合した音響特徴系列を出力する。本実施形態では、フレーム長は２５ｍｓ、フレームシフト幅は１０ｍｓとする。

　ここで、音響特徴ベクトルは、例えば、２４次元のＭＦＣＣ（Mel　Frequency　Cepstral　Coefficient）であるが、これに限定されず、例えば、メルフィルタバンク出力等の他のフレームごとの音響特徴量でもよい。

　配列生成部１５ｂは、音響信号のフレームごとの音響特徴の系列を所定長のセグメントに分割し、分割した複数の行方向のセグメントを列方向に配置した配列を生成する。具体的には、配列生成部１５ｂは、図１に示したように、入力される二次元の音響特徴系列をセグメントに分割し、三次元の音響特徴配列に変換する。

　すなわち、配列生成部１５ｂは、Ｔフレーム×Ｄ次元の二次元の音響特徴系列をＬフレームのセグメントにシフト幅Ｎフレームで分割する。そして、各セグメントを各行とし、各行の先頭を列方向にそろえるように結合することにより、（Ｔ－Ｌ）／Ｎ行×Ｌ列×Ｄ次元の三次元の音響特徴配列を生成する。本実施形態では、例えば、Ｌ＝５００、Ｎ＝２５０とする。

　なお、配列生成部１５ｂは、後述する学習部１５ｄおよび推定部１５ｅに内包されてもよい。例えば、後述する図３および図４には、学習部１５ｄおよび推定部１５ｅが配列生成部１５ｂの処理を行う例が示されている。

　話者ラベル生成部１５ｃは、音響特徴系列を用いて、各フレームの話者ラベルを生成する。具体的には、話者ラベル生成部１５ｃは、図３に示すように、音響特徴系列と話者の発話区間の正解ラベルとを用いて、フレームごとの話者ラベルを生成する。これにより、後述する学習部１５ｄの処理に用いられる教師データとして、音響特徴系列とフレームごとの話者ラベルとの組が生成される。

　ここで、話者数がＳである（話者１、話者２、…、話者Ｓ）場合に、ｔフレーム目（ｔ＝０，１，…，Ｔ）の話者ラベルはＳ次元のベクトルとなる。例えば、時刻ｔ×フレームシフト幅のフレームがいずれかの話者の発話区間に含まれる場合には、当該話者に対応する次元の値が１、それ以外の次元の値が０となる。したがって、フレームごとの話者ラベルは、Ｔ×Ｓ次元の二値［０，１］のマルチラベルとなる。

　図２の説明に戻る。学習部１５ｄは、生成された配列を用いて、各フレームの話者ベクトルの話者ラベルを推定する話者ダイアライゼーションモデル１４ａを学習により生成する。具体的には、学習部１５ｄは、図３および図４に示すように、音響特徴系列とフレームごとの話者ラベルとの組を教師データとして用いて、双方向ＲＮＮに基づく話者ダイアライゼーションモデル１４ａの学習を行う。

　ここで、図４には、本実施形態の双方向ＲＮＮに基づく話者ダイアライゼーションモデル１４ａの構成が例示されている。図４に示すように、話者ダイアライゼーションモデル１４ａは、配列生成部１５ｂの処理であるセグメント分割・配列化層の他、行向きＲＮＮ層および列向きＲＮＮ層を含む複数の層で構成される。行向きＲＮＮ層および列向きＲＮＮ層では、入力される三次元の音響特徴配列の行方向および列方向の双方向の処理が行われる。本実施形態において、行向きＲＮＮ層としては行向きＢＬＳＴＭ－ＲＮＮが適用され、列向きＲＮＮ層としては列向きＢＬＳＴＭ－ＲＮＮが適用される。

　また、話者ダイアライゼーションモデル１４ａは、オーバーラップ加算層を有する。オーバーラップ加算層は、図１に示したように、三次元の音響特徴配列の各行をセグメント分割前の音響特徴系列と同様に配置して、オーバーラップありで加算する。これにより、音響特徴系列と同様のＴ×Ｄ次元の話者ラベル埋め込み系列が得られる。

　また、話者ダイアライゼーションモデル１４ａは、線形変換を行うＬｉｎｅａｒ（線形）層およびシグモイド関数を適用するｓｉｇｍｏｉｄ層を有する。図１に示したように、Ｌｉｎｅａｒ層およびｓｉｇｍｏｉｄ層にＴ×Ｄ次元の話者ラベル埋め込み系列を入力することにより、Ｔ×Ｓ次元のフレームごとの話者ラベル事後確率が出力される。

　学習部１５ｄは、フレームごとの話者ラベルの事後確率と、フレームごとの話者ラベルとのマルチラベル二値交差エントロピーを損失関数として、誤差逆伝搬法により、話者ダイアライゼーションモデル１４ａの線形層、行向きＢＬＳＴＭ－ＲＮＮ層および列向きＢＬＳＴＭ－ＲＮＮ層のパラメータの最適化を行う。学習部１５ｄは、パラメータの最適化には、確率的勾配降下法を用いたオンライン最適化アルゴリズムを用いる。

　このように、学習部１５ｄは、配列を行方向に処理を行うＲＮＮと、列方向に処理を行うＲＮＮとを含む話者ダイアライゼーションモデル１４ａを生成する。これにより、局所的な文脈情報を用いた話者ダイアライゼーションと、大局的な文脈情報を用いた話者ダイアライゼーションとが可能となる。したがって、学習部１５ｄは、時間的に離れた同一の話者の発話を話者ダイアライゼーションの対象として学習することが可能となる。

　図２の説明に戻る。推定部１５ｅは、生成された話者ダイアライゼーションモデル１４ａを用いて、音響信号のフレームごとの話者ラベルを推定する。具体的には、推定部１５ｅは、図３に示すように、配列生成部１５ｂが音響特徴列から生成した配列を、話者ダイアライゼーションモデル１４ａに順伝搬させることにより、音響特徴系列のフレームごとの話者ラベル事後確率（話者ラベルの推定値）を得る。

　発話区間推定部１５ｆは、出力された話者ラベル事後確率を用いて、音響信号中の話者の発話区間を推定する。具体的には、発話区間推定部１５ｆは、複数のフレームの移動平均を用いて、話者ラベルを推定する。すなわち、発話区間推定部１５ｆは、まず、フレームごとの話者ラベル事後確率に対し、自フレームとその前後の５フレームとの長さ１１での移動平均を算出する。これにより、１フレームしかない発話等、現実的ではない短い発話区間の誤検出を防止することが可能となる。

　次に、発話区間推定部１５ｆは、算出した移動平均の値が０．５より大きい場合に、当該フレームが、当該次元の話者の発話区間と推定する。また、発話区間推定部１５ｆは、各話者について、連続する発話区間フレーム群を１つの発話とみなし、所定の時刻までの発話区間の開始時刻と終了時刻とをフレームから逆算する。これにより、話者ごとの発話ごとの所定の時刻までの発話開始時刻と発話終了時刻とを得ることができる。

［話者ダイアライゼーション処理］
　次に、話者ダイアライゼーション装置１０による話者ダイアライゼーション処理について説明する。図５よび図６は、話者ダイアライゼーション処理手順を示すフローチャートである。本実施形態の話者ダイアライゼーション処理は、学習処理と推定処理とを含む。まず、図４は、学習処理手順を示す。図５のフローチャートは、例えば、学習処理の開始を指示する入力があったタイミングで開始される。

　まず、音響特徴抽出部１５ａが、話者の発話を含む音響信号のフレームごとの音響特徴を抽出し、音響特徴系列を出力する（ステップＳ１）。

　次に、配列生成部１５ｂが、音響信号のフレームごとの二次元の音響特徴系列を所定長のセグメントに分割し、分割した複数の行方向のセグメントを列方向に配置した三次元の音響特徴配列を生成する（ステップＳ２）。

　そして、学習部１５ｄが、生成された音響特徴配列を用いて、各フレームの話者ベクトルの話者ラベルを推定する話者ダイアライゼーションモデル１４ａを、学習により生成する（ステップＳ３）。その際に、学習部１５ｄは、配列を行方向に処理を行うＲＮＮと、列方向に処理を行うＲＮＮとを含む話者ダイアライゼーションモデル１４ａを生成する。これにより、一連の学習処理が終了する。

　次に、図６は、推定処理手順を示す。図６のフローチャートは、例えば、推定処理の開始を指示する入力があったタイミングで開始される。

　また、配列生成部１５ｂが、音響信号のフレームごとの二次元の音響特徴系列を所定長のセグメントに分割し、分割した複数の行方向のセグメントを列方向に配置した三次元の音響特徴配列を生成する（ステップＳ２）。

　次に、推定部１５ｅが、生成された話者ダイアライゼーションモデル１４ａを用いて、音響信号のフレームごとの話者ラベルを推定する（ステップＳ４）。具体的には、推定部１５ｅは、音響特徴系列のフレームごとの話者ラベル事後確率（話者ラベルの推定値）を出力する。

　そして、発話区間推定部１５ｆが、出力された話者ラベル事後確率を用いて、音響信号中の話者の発話区間を推定する（ステップＳ５）。これにより、一連の推定処理が終了する。

　以上、説明したように、本実施形態の話者ダイアライゼーション装置１０において、配列生成部１５ｂが、音響信号のフレームごとの音響特徴の系列を所定長のセグメントに分割し、分割した複数の行方向のセグメントを列方向に配置した配列を生成する。また、学習部１５ｄが、生成された配列を用いて、各フレームの話者ベクトルの話者ラベルを推定する話者ダイアライゼーションモデル１４ａを学習により生成する。

　具体的には、学習部１５ｄは、配列を行方向に処理を行うＲＮＮと、列方向に処理を行うＲＮＮとを含む話者ダイアライゼーションモデル１４ａを生成する。これにより、局所的な文脈情報を用いた話者ダイアライゼーションと、大局的な文脈情報を用いた話者ダイアライゼーションとが可能となる。したがって、学習部１５ｄは、時間的に離れた同一の話者の発話を話者ダイアライゼーションの対象として学習することが可能となる。これにより、話者ダイアライゼーション装置１０は、長い音響信号に対する話者ダイアライゼーションを高精度に行うことが可能となる。

　また、推定部１５ｅが、生成された話者ダイアライゼーションモデル１４ａを用いて、音響信号のフレームごとの話者ラベルを推定する。これにより、長い音響信号に対する高精度な話者ダイアライゼーションが可能となる。

　また、発話区間推定部１５ｆが、複数のフレームの移動平均を用いて、話者ラベルを推定する。これにより、現実的ではない短い発話区間の誤検出を防止することが可能となる。

［プログラム］
　上記実施形態に係る話者ダイアライゼーション装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、話者ダイアライゼーション装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の話者ダイアライゼーション処理を実行する話者ダイアライゼーションプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の話者ダイアライゼーションプログラムを情報処理装置に実行させることにより、情報処理装置を話者ダイアライゼーション装置１０として機能させることができる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。また、話者ダイアライゼーション装置１０の機能を、クラウドサーバに実装してもよい。

　図７は、話者ダイアライゼーションプログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

　ここで、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

　また、話者ダイアライゼーションプログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した話者ダイアライゼーション装置１０が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

　また、話者ダイアライゼーションプログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

　なお、話者ダイアライゼーションプログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、話者ダイアライゼーションプログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮ（Local　Area　Network）やＷＡＮ（Wide　Area　Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

　１０　話者ダイアライゼーション装置
　１１　入力部
　１２　出力部
　１３　通信制御部
　１４　記憶部
　１４ａ　話者ダイアライゼーションモデル
　１５　制御部
　１５ａ　音響特徴抽出部
　１５ｂ　配列生成部
　１５ｃ　話者ラベル生成部
　１５ｄ　学習部
　１５ｅ　推定部
　１５ｆ　発話区間推定部

Claims

　話者ダイアライゼーション装置が実行する話者ダイアライゼーション方法であって、
　音響信号のフレームごとの音響特徴の系列を所定長のセグメントに分割し、分割した複数の行方向のセグメントを列方向に配置した配列を生成する生成工程と、
　前記配列を用いて、各フレームの話者ベクトルの話者ラベルを推定するモデルを学習により生成する学習工程と、
　を含んだことを特徴とする話者ダイアライゼーション方法。
　前記学習工程は、前記配列を行方向に処理を行うＲＮＮと、列方向に処理を行うＲＮＮとを含む前記モデルを生成することを特徴とする請求項１に記載の話者ダイアライゼーション方法。
　生成された前記モデルを用いて、音響信号のフレームごとの話者ラベルを推定する推定工程を、さらに含んだことを特徴とする請求項１に記載の話者ダイアライゼーション方法。
　前記推定工程は、複数のフレームの移動平均を用いて、前記話者ラベルを推定することを特徴とする請求項３に記載の話者ダイアライゼーション方法。
　音響信号のフレームごとの音響特徴の系列を所定長のセグメントに分割し、分割した複数の行方向のセグメントを列方向に配置した配列を生成する生成部と、
　前記配列を用いて、各フレームの話者ベクトルの話者ラベルを推定するモデルを学習により生成する学習部と、
　を有することを特徴とする話者ダイアライゼーション装置。
　音響信号のフレームごとの音響特徴の系列を所定長のセグメントに分割し、分割した複数の行方向のセグメントを列方向に配置した配列を生成する生成ステップと、
　前記配列を用いて、各フレームの話者ベクトルの話者ラベルを推定するモデルを学習により生成する学習ステップと、
　をコンピュータに実行させるための話者ダイアライゼーションプログラム。