JPWO2020084741A1

JPWO2020084741A1 - 音声処理装置、音声処理方法、及びプログラム

Info

Publication number: JPWO2020084741A1
Application number: JP2020552456A
Authority: JP
Inventors: 山本　仁; 山本　　仁; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2021-09-09
Anticipated expiration: 2038-10-25
Also published as: JP7205546B2; US20220005482A1; EP3872808A4; EP3872808A1; WO2020084741A1

Abstract

音声処理装置１００は、話者認識における訓練データを生成するための装置である。音声処理装置１００は、訓練データの元になる音声信号をサンプルデータとして取得する、データ取得部１０と、取得されたサンプルデータに対して、信号処理を実行し、サンプルデータとの類似度が設定範囲内となる新たな音声信号を、訓練データとして生成する、データ生成部２０と、を備えている。

Description

本発明は、話者認識に必要となる訓練データを生成するための、音声処理装置及び音声処理方法に関し、更には、これらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。

従来から、音声認識の分野では、音声信号をテキストデータに変換する処理だけでなく、音声信号から音声の特徴を抽出し、抽出した特徴に基づいて話者を識別する処理（話者認識）も行われている。

ここで、話者認識について説明する。特許文献１は、話者認識を行うシステムを開示している。特許文献１に開示されたシステムは、まず、音声信号が入力されてくると、入力された音声信号から、人の発話の特徴を抽出する。続いて、特許文献１に開示されたシステムは、抽出した特徴を、予め登録されている特徴に照合し、照合結果に基づいて話者を識別する。

また、特許文献１に開示されたシステムにおいて、音声信号からの特徴の抽出は、特徴抽出器によって行われている。具体的には、特徴抽出器は、機械学習によって構築されたモデルを用いて、音声信号から、発話した人の特徴を抽出する。また、モデルは、例えば、多数の人から得られた訓練データを用いて、ニューラルネットワークのパラメータを最適化することによって構築される。

国際公開第２０１６／０９２８０７号

ところで、特許文献１に開示されたシステムにおいて、話者の識別精度を高めるためには、特徴抽出器における抽出精度を高める必要がある。そして、特徴抽出器における抽出精度を高めるためには、できるだけ多くの人から訓練データを収集する必要がある。

しかしながら、訓練データの収集は、個々の発話を録音することによって行われるので、多くの人から訓練データを収集するためには、多大なコストがかかってしまう、という問題がある。また、コストは、収集元の人が多くなるほど増加してしまう。このため、従来においては、訓練データの収集には、限界がある。

本発明の目的の一例は、上記問題を解消し、話者認識に必要となる訓練データの収集にかかるコストの上昇を抑制しつつ、特徴抽出器の抽出精度の向上を図り得る、音声処理装置、音声処理方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。

上記目的を達成するため、本発明の一側面における音声処理装置は、話者認識における訓練データを生成するための装置であって、
前記訓練データの元になる音声信号をサンプルデータとして取得する、データ取得部と、
取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、データ生成部と、
を備えている、
ことを特徴とする。

また、上記目的を達成するため、本発明の一側面における音声処理方法は、話者認識における訓練データを生成するための方法であって、
（ａ）前記訓練データの元になる音声信号をサンプルデータとして取得する、ステップと、
（ｂ）取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、ステップと、
を有する、
ことを特徴とする。

更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体は、コンピュータによって、話者認識における訓練データを生成するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）前記訓練データの元になる音声信号をサンプルデータとして取得する、ステップと、
（ｂ）取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、ステップと、
を実行させる命令を含む、プログラムを記録している、
ことを特徴とする。

以上のように本発明によれば、話者認識に必要となる訓練データの収集にかかるコストの上昇を抑制しつつ、特徴抽出器の抽出精度の向上を図ることができる。

図１は、本発明の実施の形態１における音声処理装置の概略構成を示すブロック図である。図２は、本発明の実施の形態１における音声処理装置の構成をより具体的に示すブロック図である。図３は、本発明の実施の形態１における音声処理装置の動作を示すフロー図である。図４は、本発明の実施の形態１の変形例１における音声処理装置の構成を示すブロック図である。図５は、本発明の実施の形態１の変形例２における音声処理装置の構成を示すブロック図である。図６は、本発明の実施の形態２における音声処理装置の構成を示すブロック図である。図７は、本発明の実施の形態２における音声処理装置の動作を示すフロー図である。図８は、本発明の実施の形態２の変形例１における音声処理装置の構成を示すブロック図である。図９は、本発明の実施の形態２の変形例２における音声処理装置の構成を示すブロック図である。図１０は、本発明の実施の形態２の変形例３における音声処理装置の構成を示すブロック図である。図１１は、本発明の実施の形態２の変形例３におけるデータ生成部の処理を具体的に示す図である。図１２は、本発明の実施の形態１及び２における音声処理装置を実現するコンピュータの一例を示すブロック図である。

（実施の形態１）
以下、本発明の実施の形態１における、音声処理装置、音声処理方法、及びプログラムについて、図１〜図５を参照しながら説明する。

［装置構成］
最初に、図１を用いて、本実施の形態１における音声処理装置の構成について説明する。図１は、本発明の実施の形態１における音声処理装置の概略構成を示すブロック図である。

図１に示す本実施の形態１における音声処理装置１００は、話者認識における訓練データを生成するための装置である。図１に示すように、音声処理装置１００は、データ取得部１０と、データ生成部２０とを備えている。

データ取得部１０は、訓練データの元になる音声信号をサンプルデータとして取得する。データ生成部２０は、取得されたサンプルデータに対して、信号処理を実行し、サンプルデータとの類似度が設定範囲内となる新たな音声信号を、訓練データとして生成する。

このように、本実施の形態１では、既存の音声信号から、話者認識に必要となる訓練データを生成できるので、訓練データの収集にかかるコストの上昇を抑制できる。また、本実施の形態１によれば、簡単に訓練データの量を増加させることができるので、話者認識における特徴抽出器の抽出精度の向上を図ることもできる。

続いて、図２を用いて、本実施の形態１における音声処理装置のより具体的な構成について説明する。図２は、本発明の実施の形態１における音声処理装置の構成をより具体的に示すブロック図である。

図２に示すように、本実施の形態では、音声処理装置１００は、外部の話者データベース２００に接続されている。話者データベース２００は、録音された話者の音声信号を格納している。データ取得部１０は、本実施の形態では、話者データベース２００から、サンプルとなる音声信号を取得する。

図２に示すように、本実施の形態では、データ生成部２０は、信号処理を実行する音声変換部２１を備えている。音声変換部２１は、信号処理として、サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する。

具体的には、音声変換部２１は、例えば、サンプルデータである音声信号に対して、時間軸上の伸縮処理を施し、この音声信号を、声の高さが異なる人物を模した音声信号に変換する。また、音声変換部２１は、サンプルデータである音声信号に対して、周波数軸上の伸縮処理を施し、この音声信号を声道長が異なる人物を模した音声信号に変換することもできる。

また、データ生成部２０は、変換後の音声信号を、訓練データとして、外部の話者認識装置３００へと出力する。この場合、話者認識装置３００において、例えば、話者性の特徴を算出する特徴抽出器は、出力されてきた訓練データを用いて、話者間の差異を学習する。また、類似度を評価してスコアを算出する話者照合器、及び話者による類似度の値域を揃える類似度正規化器も、この訓練データを用いて学習することができる。

［装置動作］
次に、本実施の形態１における音声処理装置１００の動作について図３を用いて説明する。図３は、本発明の実施の形態１における音声処理装置の動作を示すフロー図である。以下の説明においては、適宜図１を参酌する。また、本実施の形態１では、音声処理装置１００を動作させることによって、音声処理方法が実施される。よって、本実施の形態１における音声処理方法の説明は、以下の音声処理装置１００の動作説明に代える。

図３に示すように、最初に、データ取得部１０は、話者データベース２００から、サンプルとなる音声信号を取得する（ステップＡ１）。

次に、データ生成部２０において、音声変換部２１が、サンプルデータである音声信号を、時間軸又は周波数軸において伸張又は収縮させる処理を実行して、訓練データとなる新たな音声信号を生成する（ステップＡ２）。

ステップＡ２の実行後、データ生成部２０は、話者認識装置３００に、ステップＡ２で生成した訓練データを出力する（ステップＡ３）。ステップＡ３の実行によって、音声処理装置１００における処理は、一旦終了するが、上述のステップＡ１〜Ａ３は、サンプルとなる音声信号を変えて、必要な訓練データが揃うまで、繰り返し実行される。

［実施の形態における効果］
以上のように、本実施の形態１では、元の音声信号から、声の高さが異なる人物を模した音声信号、又は声道長が異なる人物を模した音声信号が得られる。本実施の形態１によれば、訓練データの収集にかかるコストの上昇を抑制しつつ、話者認識における特徴抽出器の抽出精度の向上を図ることができる。

［プログラム］
本実施の形態１におけるプログラムは、コンピュータに、図３に示すステップＡ１〜Ａ３を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における音声処理装置１００と音声処理方法とを実現することができる。この場合、コンピュータのプロセッサは、データ取得部１０、及びデータ生成部２０として機能し、処理を行なう。

また、本実施の形態１におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、データ取得部１０、及びデータ生成部２０のいずれかとして機能しても良い。

［変形例１］
ここで、図４を用いて、本実施の形態１における音声処理装置１００の変形例１について説明する。図４は、本発明の実施の形態１の変形例１における音声処理装置の構成を示すブロック図である。

図４に示すように、本変形例１では、データ生成部２０は、音声変換部２１に加えて、類似度判定部２２を備え、これにより、既存話者の音声信号と、変換後の音声信号との類似度を評価する。

類似度判定部２２は、音声変換部２１による信号処理の実行後に、類似度として、サンプルデータから抽出される話者特徴と新たな音声信号から抽出される話者特徴との類似度を求める。そして、類似度判定部２２は、求めた類似度が設定範囲内にない場合は、音声変換部２１に対して、再度、信号処理を実行させる。

具体的には、類似度判定部２２は、音声信号から、話者特徴として、例えば、既存の手法を用いてi-vectorを抽出する。また、類似度判定部２２は、類似度として、例えば、コサイン類似度を算出する。

音声変換部２１は、本変形例１では、求められた類似度を取得し、類似度が設定範囲内となるように、再度変換処理を行う。例えば、類似度が所定の値より大きい場合、即ち、サンプルデータと新たな音声信号とが似ている場合は、音声変換部２１は、話者特徴の差異が大きくなるように変換処理を実行する。

本変形例１によれば、声質が既存話者と異なる話者の音声信号を、確実に生成することができるので、話者認識における特徴抽出器の抽出精度をよりいっそう向上させることができる。

［変形例２］
続いて、図５を用いて、本実施の形態１における音声処理装置１００の変形例２について説明する。図５は、本発明の実施の形態１の変形例２における音声処理装置の構成を示すブロック図である。

図５に示すように、本変形例２では、データ生成部２０は、音声変換部２１に加えて、評価確認部２３を備え、これにより、信号処理後の新たな音声信号の音声らしさを評価する。

評価確認部２３は、信号処理の実行後に、新たな音声信号の評価を実行する。そして、評価確認部２３は、得られた評価結果が設定範囲内とならない場合は、音声変換部２１に対して、再度、信号処理を実行させる。

具体的には、評価確認部２３は、既存の手法を用いて、変換処理後の新たな音声信号について、音声らしさを評価する。既存の手法としては、例えば、ＶＡＤ（Voice Activity Detection）等が挙げられる。また、音声変換部２１は、本変形例２では、評価結果を取得し、評価結果が低く、音声らしさが不足している場合は、評価結果が高くなるように変換処理を実行する。

本変形例２によれば、人の音声らしくない音声信号は除外されるので、この場合も、話者認識における特徴抽出器の抽出精度をよりいっそう向上させることができる。

また、本実施の形態１は、上述した変形例１と変形例２とを合わせた態様であっても良い。この場合は、データ生成部２０は、音声変換部２１に加えて、類似度判定部２２と、評価確認部２３との両方を備えることになる。

（実施の形態２）
次に、本発明の実施の形態２における、音声処理装置、音声処理方法、及びプログラムについて、図６〜図１０を参照しながら説明する。

［装置構成］
最初に、図６を用いて、本実施の形態２における音声処理装置の構成について説明する。図６は、本発明の実施の形態２における音声処理装置の構成を示すブロック図である。

図６に示す本実施の形態２における音声処理装置１０１も、図１及び図２に示した実施の形態１における音声処理装置１００と同様に、話者認識における訓練データを生成するための装置である。但し、本実施の形態２では、音声処理装置１０１は、データ生成部２０の構成及び機能において、実施の形態１と異なっている。以下、相違点を中心に説明する。

本実施の形態２では、データ生成部２０は、符号化処理部２４と、演算処理部２５と、復号処理部２６とを備えている。符号化処理部２４は、サンプルデータに対する符号化処理を行う。演算処理部２５は、符号化処理によって得られた潜在変数に対する演算処理を行う。復号処理部２６は、演算処理された潜在変数に対する復号処理を実行する。

具体的には、符号化処理部２４は、例えば、自己符号化器（オートエンコーダ）の符号化部（エンコーダ）用いて、音声信号を符号化して、潜在変数、即ち、圧縮された特徴を生成する。演算処理部２５は、演算処理として、例えば、潜在変数に乱数を加算する。複合処理部２６は、同じ自己符号化器の復号部（デコーダ）を用いて、演算処理後の潜在変数に対して、復号を実行する。この結果、新たな音声信号が生成される。本実施の形態２では、自己符号化器として、変分自己符号化器（Variational Autoencoder）を用いてもよい。

本実施の形態２では、このように、データ生成部２０は、信号処理として、符号化処理と、演算処理と、復号処理とを実行する。そして、符号化によって得られた潜在変数に対して、演算処理が行われるので、復号された音声信号は、元のサンプルデータと異なった音声信号となる。なお、演算処理は、上述した乱数の加算処理以外の処理であっても良い。

［装置動作］
次に、本実施の形態２における音声処理装置１０１の動作について図７を用いて説明する。図７は、本発明の実施の形態２における音声処理装置の動作を示すフロー図である。以下の説明においては、適宜図６を参酌する。また、本実施の形態２では、音声処理装置１０１を動作させることによって、音声処理方法が実施される。よって、本実施の形態２における音声処理方法の説明は、以下の音声処理装置１００の動作説明に代える。

図７に示すように、最初に、データ取得部１０は、話者データベース２００から、サンプルとなる音声信号を取得する（ステップＢ１）。

次に、データ生成部２０において、符号化処理部２４が、サンプルデータに対して、符号化処理を実行する（ステップＢ２）。続いて、演算処理部２５は、ステップＢ２の符号化処理によって得られた潜在変数に対して、演算処理を実行する（ステップＢ３）。更に、復号処理部２６は、ステップＢ３の演算処理された潜在変数に対して、復号処理を実行して、新たな音声信号を生成する（ステップＢ４）。

ステップＢ４の実行後、データ生成部２０は、話者認識装置３００に、ステップＢ４で生成した訓練データを出力する（ステップＢ５）。ステップＢ５の実行によって、音声処理装置１０１における処理は、一旦終了するが、上述のステップＢ１〜Ｂ５は、サンプルとなる音声信号を変えて、必要な訓練データが揃うまで、繰り返し実行される。

［実施の形態２における効果］
以上のように、本実施の形態２においても、実施の形態１と同様に、元の音声信号から、それとは異なる新たな音声信号が得られる。本実施の形態２によっても、訓練データの収集にかかるコストの上昇を抑制しつつ、話者認識における特徴抽出器の抽出精度の向上を図ることができる。

［プログラム］
本実施の形態２におけるプログラムは、コンピュータに、図７に示すステップＢ１〜Ｂ５を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態２における音声処理装置１０１と音声処理方法とを実現することができる。この場合、コンピュータのプロセッサは、データ取得部１０、及びデータ生成部２０として機能し、処理を行なう。

また、本実施の形態２におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、データ取得部１０、及びデータ生成部２０のいずれかとして機能しても良い。

［変形例１］
ここで、図８を用いて、本実施の形態２における音声処理装置１０１の変形例１について説明する。図８は、本発明の実施の形態２の変形例１における音声処理装置の構成を示すブロック図である。

図４に示すように、本変形例１では、データ生成部２０は、符号化処理部２４、演算処理部２５、及び復号処理部２６に加えて、類似度判定部２２を備え、これにより、既存話者の音声信号と、変換後の音声信号との類似度を評価する。

類似度判定部２２は、実施の形態１の変形例１と同様に、信号処理の実行後に、類似度として、サンプルデータから抽出される話者特徴と新たな音声信号から抽出される話者特徴との類似度を求める。そして、類似度判定部２２は、求めた類似度が設定範囲内にない場合は、符号化処理部２４、演算処理部２５、及び復号処理部２６に対して、再度、信号処理を実行させる。

具体的には、本変形例１でも、類似度判定部２２は、音声信号から、話者特徴として、例えば、既存の手法を用いてi-vectorを抽出する。また、類似度判定部２２は、類似度として、例えば、コサイン類似度を算出する。

本変形例１では、演算処理部２５が、求められた類似度を取得し、類似度が設定範囲内となるように、演算処理を行う。例えば、類似度が所定の値より大きい場合、即ち、サンプルデータと新たな音声信号とが似ている場合は、演算処理部２５は、加算する乱数の値を増加させて演算処理を実行する。

本変形例１によれば、実施の形態１の変形例１と同様に、声質が既存話者と異なる話者の音声信号を、確実に生成することができるので、話者認識における特徴抽出器の抽出精度をよりいっそう向上させることができる。

［変形例２］
続いて、図９を用いて、本実施の形態２における音声処理装置１０１の変形例２について説明する。図９は、本発明の実施の形態２の変形例２における音声処理装置の構成を示すブロック図である。

図９に示すように、本変形例２では、データ生成部２０は、符号化処理部２４、演算処理部２５、及び復号処理部２６に加えて、評価確認部２３を備え、これにより、信号処理後の新たな音声信号の音声らしさを評価する。

評価確認部２３は、実施の形態１の変形例２と同様に、信号処理の実行後に、新たな音声信号の評価を実行する。そして、評価確認部２３は、得られた評価結果が設定範囲内とならない場合は、符号化処理部２４、演算処理部２５、及び復号処理部２６に対して、再度、信号処理を実行させる。

具体的には、本変形例２でも、評価確認部２３は、既存の手法を用いて、変換処理後の新たな音声信号について、音声らしさを評価する。既存の手法としては、例えば、ＶＡＤ（Voice Activity Detection）等が挙げられる。また、本変形例２では、演算処理部２５が、評価結果を取得し、評価結果が低く、音声らしさが不足している場合は、評価結果が高くなるように演算処理を実行する

本変形例２によれば、人の音声らしくない音声信号は除外されるので、この場合も、実施の形態１の変形例２と同様に、話者認識における特徴抽出器の抽出精度をよりいっそう向上させることができる。

また、本実施の形態２も、実施の形態１と同様に、上述した変形例１と変形例２とを合わせた態様であっても良い。この場合は、データ生成部２０は、符号化処理部２４、演算処理部２５、及び復号処理部２６に加えて、類似度判定部２２と、評価確認部２３との両方を備えることになる。

［変形例３］
ここで、図１０及び図１１を用いて、本実施の形態２における音声処理装置１０１の変形例３について説明する。図１０は、本発明の実施の形態２の変形例３における音声処理装置の構成を示すブロック図である。

図１０に示すように、本変形例３では、データ生成部２０は、符号化処理部２４、演算処理部２５、及び復号処理部２６に加えて、第２の符号化処理部２７と、差分算出部２８とを備えている。

第２の符号化処理部２７は、信号処理の前に、まず、データ取得部１０を介して、サンプルデータの発話者の別の音声信号、及びサンプルデータの発話者とは異なる発話者の音声信号を取得する。そして、第２の符号化処理部２７は、サンプルデータの発話者の別の音声信号、及びサンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成する。

差分算出部２８は、第２の符号化処理部２７で生成された各潜在変数間の差分を算出する。その後、演算処理部２５は、差分算出部２８で算出された差分を用いて、演算処理を実行する。

続いて、図１１を用いて、本変形例３でのデータ生成部２０の処理を具体的に説明する。図１１は、本発明の実施の形態２の変形例３におけるデータ生成部の処理を具体的に示す図である。

図１１に示すように、まず、サンプルデータは音声信号Ｅ１の音声信号である。また、サンプルデータの発話者は、識別番号（ＩＤ）が１２３の発話者である。この場合において、第２の符号化処理部２７には、データ取得部１０を介して、ＩＤ１２３の発話者のサンプルデータとは異なる音声信号Ｅ３と、ＩＤ４５６の発話者の音声信号Ｅ４とが、入力される。

よって、第２の符号化処理部２７は、音声信号Ｅ３の潜在変数と、音声信号Ｅ４の潜在変数とを生成し、これらを差分算出部２８に入力する。差分算出部２８は、入力された２つの潜在変数について、両者の差分Ｄを算出し、算出した差分Ｄを演算処理部２５に入力する。

そして、符号化処理部２４は、サンプルデータである音声信号Ｅ１の潜在変数を生成するので、演算処理部２５は、入力された差分Ｄを用いて、音声信号Ｅ１の潜在変数に対して演算処理を実行する。この場合の演算処理としては、例えば、音声信号Ｅ１の潜在変数への差分Ｄの加算処理が挙げられる。また、この場合においては、差分Ｄに対して、所定の係数αが乗算されていても良い。その後、符号処理部１６は、演算処理後の潜在変数に対して、複合処理を実行して、新たな音声信号Ｅ２を生成する。

本変形例３によれば、既存の話者間の相違に基づいて、新たな音声信号を生成できるので、話者認識における特徴抽出器の抽出精度をよりいっそう向上させることができる。

（物理構成）
ここで、実施の形態１及び２におけるプログラムを実行することによって、音声処理装置を実現するコンピュータについて図１２を用いて説明する。図１２は、本発明の実施の形態１及び２における音声処理装置を実現するコンピュータの一例を示すブロック図である。

図１２に示すように、コンピュータ１１０は、ＣＰＵ（Central Processing Unit）１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。なお、コンピュータ１１０は、ＣＰＵ１１１に加えて、又はＣＰＵ１１１に代えて、ＧＰＵ（Graphics Processing Unit）、又はＦＰＧＡ（Field-Programmable Gate Array）を備えていても良い。

ＣＰＵ１１１は、記憶装置１１３に格納された、本実施の形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであっても良い。

また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記録媒体、又はＣＤ−ＲＯＭ（Compact Disk Read Only Memory）などの光学記録媒体が挙げられる。

なお、本実施の形態における音声処理装置１００は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、音声処理装置１００は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。

上述した実施の形態の一部又は全部は、以下に記載する（付記１）〜（付記１８）によって表現することができるが、以下の記載に限定されるものではない。

（付記１）
話者認識における訓練データを生成するための装置であって、
前記訓練データの元になる音声信号をサンプルデータとして取得する、データ取得部と、
取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、データ生成部と、
を備えている、
ことを特徴とする音声処理装置。

（付記２）
付記１に記載の音声処理装置であって、
前記データ生成部が、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
ことを特徴とする音声処理装置。

（付記３）
付記１に記載の音声処理装置であって、
前記データ生成部が、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
ことを特徴とする音声処理装置。

（付記４）
付記１〜３のいずれかに記載の音声処理装置であって、
前記データ生成部が、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理装置。

（付記５）
付記１〜４のいずれかに記載の音声処理装置であって、
前記データ生成部が、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理装置。

（付記６）
付記３に記載の音声処理装置であって、
前記データ生成部が、
前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
ことを特徴とする音声処理装置。

（付記７）
話者認識における訓練データを生成するための方法であって、
（ａ）前記訓練データの元になる音声信号をサンプルデータとして取得する、ステップと、
（ｂ）取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、ステップと、
を有する、
ことを特徴とする音声処理方法。

（付記８）
付記７に記載の音声処理方法であって、
前記（ｂ）のステップにおいて、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
ことを特徴とする音声処理方法。

（付記９）
付記７に記載の音声処理方法であって、
前記（ｂ）のステップにおいて、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
ことを特徴とする音声処理方法。

（付記１０）
付記７〜９のいずれかに記載の音声処理方法であって、
前記（ｂ）のステップにおいて、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理方法。

（付記１１）
付記７〜１０のいずれかに記載の音声処理方法であって、
前記（ｂ）のステップにおいて、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理方法。

（付記１２）
付記９に記載の音声処理方法であって、
前記（ｂ）のステップにおいて、
前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
ことを特徴とする音声処理方法。

（付記１３）
コンピュータによって、話者認識における訓練データを生成するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）前記訓練データの元になる音声信号をサンプルデータとして取得する、ステップと、
（ｂ）取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、ステップと、
を実行させる命令を含む、プログラムを記録している、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記１４）
付記１３に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｂ）のステップにおいて、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記１５）
付記１３に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｂ）のステップにおいて、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記１６）
付記１３〜１５のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｂ）のステップにおいて、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記１７）
付記１３〜１６のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｂ）のステップにおいて、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記１８）
付記１５に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｂ）のステップにおいて、
前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

以上のように本発明によれば、話者認識に必要となる訓練データの収集にかかるコストの上昇を抑制しつつ、特徴抽出器の抽出精度の向上を図ることができる。本発明者、話者認識が求められる各種分野に有用である。

１０データ取得部
２０データ生成部
２１音声変換部
２２類似度判定部
２３評価確認部
２４符号化処理部
２５演算処理部
２６復号処理部
２７第２の符号化処理部
２８差分算出部
１００音声処理装置（実施の形態１）
１０１音声処理装置（実施の形態２）
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス
２００話者データベース
３００話者認識装置

本発明は、話者認識に必要となる訓練データを生成するための、音声処理装置及び音声処理方法に関し、更には、これらを実現するためのプログラムに関する。

本発明の目的の一例は、上記問題を解消し、話者認識に必要となる訓練データの収集にかかるコストの上昇を抑制しつつ、特徴抽出器の抽出精度の向上を図り得る、音声処理装置、音声処理方法、及びプログラムを提供することにある。

更に、上記目的を達成するため、本発明の一側面におけるプログラムは、コンピュータによって、話者認識における訓練データを生成するためのプログラムであって、
前記コンピュータに、
（ａ）前記訓練データの元になる音声信号をサンプルデータとして取得する、ステップと、
（ｂ）取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、ステップと、
を実行させる、プログラム。

［装置動作］
次に、本実施の形態２における音声処理装置１０１の動作について図７を用いて説明する。図７は、本発明の実施の形態２における音声処理装置の動作を示すフロー図である。以下の説明においては、適宜図６を参酌する。また、本実施の形態２では、音声処理装置１０１を動作させることによって、音声処理方法が実施される。よって、本実施の形態２における音声処理方法の説明は、以下の音声処理装置１０１の動作説明に代える。

そして、符号化処理部２４は、サンプルデータである音声信号Ｅ１の潜在変数を生成するので、演算処理部２５は、入力された差分Ｄを用いて、音声信号Ｅ１の潜在変数に対して演算処理を実行する。この場合の演算処理としては、例えば、音声信号Ｅ１の潜在変数への差分Ｄの加算処理が挙げられる。また、この場合においては、差分Ｄに対して、所定の係数αが乗算されていても良い。その後、符号処理部１６は、演算処理後の潜在変数に対して、符号化処理を実行して、新たな音声信号Ｅ２を生成する。

（付記１３）
コンピュータによって、話者認識における訓練データを生成するためのプログラムであって、
前記コンピュータに、
（ａ）前記訓練データの元になる音声信号をサンプルデータとして取得する、ステップと、
（ｂ）取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、ステップと、
を実行させる、プログラム。

（付記１４）
付記１３に記載のプログラムであって、
前記（ｂ）のステップにおいて、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
ことを特徴とするプログラム。

（付記１５）
付記１３に記載のプログラムであって、
前記（ｂ）のステップにおいて、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
ことを特徴とするプログラム。

（付記１６）
付記１３〜１５のいずれかに記載のプログラムであって、
前記（ｂ）のステップにおいて、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
ことを特徴とするプログラム。

（付記１７）
付記１３〜１６のいずれかに記載のプログラムであって、
前記（ｂ）のステップにおいて、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
ことを特徴とするプログラム。

（付記１８）
付記１５に記載のプログラムであって、
前記（ｂ）のステップにおいて、
前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
ことを特徴とするプログラム。

以上のように本発明によれば、話者認識に必要となる訓練データの収集にかかるコストの上昇を抑制しつつ、特徴抽出器の抽出精度の向上を図ることができる。本発明は、話者認識が求められる各種分野に有用である。

Claims

話者認識における訓練データを生成するための装置であって、
前記訓練データの元になる音声信号をサンプルデータとして取得する、データ取得部と、
取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、データ生成部と、
を備えている、
ことを特徴とする音声処理装置。
請求項１に記載の音声処理装置であって、
前記データ生成部が、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
ことを特徴とする音声処理装置。
請求項１に記載の音声処理装置であって、
前記データ生成部が、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
ことを特徴とする音声処理装置。
請求項１〜３のいずれかに記載の音声処理装置であって、
前記データ生成部が、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理装置。
請求項１〜４のいずれかに記載の音声処理装置であって、
前記データ生成部が、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理装置。
請求項３に記載の音声処理装置であって、
前記データ生成部が、
前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
ことを特徴とする音声処理装置。
話者認識における訓練データを生成するための方法であって、
（ａ）前記訓練データの元になる音声信号をサンプルデータとして取得する、ステップと、
（ｂ）取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、ステップと、
を有する、
ことを特徴とする音声処理方法。
請求項７に記載の音声処理方法であって、
前記（ｂ）のステップにおいて、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
ことを特徴とする音声処理方法。
請求項７に記載の音声処理方法であって、
前記（ｂ）のステップにおいて、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
ことを特徴とする音声処理方法。
請求項７〜９のいずれかに記載の音声処理方法であって、
前記（ｂ）のステップにおいて、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理方法。
請求項７〜１０のいずれかに記載の音声処理方法であって、
前記（ｂ）のステップにおいて、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理方法。
請求項９に記載の音声処理方法であって、
前記（ｂ）のステップにおいて、
前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
ことを特徴とする音声処理方法。
コンピュータによって、話者認識における訓練データを生成するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）前記訓練データの元になる音声信号をサンプルデータとして取得する、ステップと、
（ｂ）取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、ステップと、
を実行させる命令を含む、プログラムを記録している、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１３に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｂ）のステップにおいて、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１３に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｂ）のステップにおいて、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１３〜１５のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｂ）のステップにおいて、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１３〜１６のいずれかに記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｂ）のステップにおいて、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
請求項１５に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｂ）のステップにおいて、
前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。