WO2020049687A1

WO2020049687A1 - 音声処理装置、音声処理方法、およびプログラム記録媒体

Info

Publication number: WO2020049687A1
Application number: PCT/JP2018/033027
Authority: WO
Inventors: 山本　仁; 孝文越仲
Original assignee: 日本電気株式会社
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2020-03-12
Also published as: JP7107377B2; US20210327435A1; JPWO2020049687A1

Abstract

話者認識の精度を高めた音声処理装置、音声処理方法およびプログラム記録媒体を提供する。　音声処理装置１００は、音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出する音声統計量算出部１２０と、音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する第二の特徴量算出部１４０と、を備える。

Description

音声処理装置、音声処理方法、およびプログラム記録媒体

　本開示は、音声処理装置、音声処理方法、およびプログラム記録媒体に関する。

　音声信号から、音声を発した話者を特定するための個人性を表す話者特徴を算出する音声処理装置が知られている。また、この話者特徴を用いて、音声信号を発した話者を推定する話者認識装置が知られている。

　この種の音声処理装置を用いる話者認識装置は、話者を特定するために、第１の音声信号から抽出した第１の話者特徴と、第２の音声信号から抽出した第２の話者特徴との類似度を評価する。そして、話者認識装置は、類似度の評価結果に基づいて２つの音声信号の話者が同一か判定する。

　非特許文献１には、音声信号から話者特徴を抽出する技術が記載されている。非特許文献１に記載の話者特徴抽出技術は、音声モデルを用いて音声統計量を算出する。そして、非特許文献１に記載の話者特徴抽出技術は、因子分析技術に基づいてその音声統計量を処理し、所定の要素数で表現されるベクトルとして算出する。すなわち、非特許文献１においては、話者特徴ベクトルを話者の個人性を表す話者特徴として利用する。

Najim Dehak, Patrick Kenny, Reda Dehak, Pierre Dumouchel, and Pierre Ouellet, "Front-End Factor Analysis for Speaker Verification," IEEE Transactions on Audio, Speech and Language Processing, Vol. 19, No. 4, pp. 788-798, 2011.

　しかしながら、非特許文献１に記載の技術には、抽出した話者特徴を用いる話者認識の精度が十分でないという問題があった。

　非特許文献１に記載の技術は、話者特徴抽出装置に入力された音声信号に対して所定の統計処理を行い、話者特徴ベクトルを算出する。具体的には、非特許文献１に記載の技術は、話者特徴抽出装置に入力された音声信号について、部分区間の単位で音響的な分析処理を行うことで、話者が個々の音を発する声質を表す個人性特徴を算出し、それらに対して統計処理を行うことにより、音声信号全体の話者特徴ベクトルを算出している。そのため、非特許文献１に記載の技術は、音声信号の上記の部分区間よりも広い範囲で現れる話者の個人性を捉えることができない。よって、話者認識の精度を損なうおそれがある。

　本開示は、上記問題に鑑みてなされたものであり、その目的の一例は、話者認識の精度を高めた音声処理装置、音声処理方法およびプログラム記録媒体を提供することにある。

　本開示の一態様にかかる音声処理装置は、音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出する音声統計量算出手段と、
　前記音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する第二の特徴量算出手段と、を備える。

　本開示の一態様にかかる音声処理方法は、音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出し、前記音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する。

　本開示の一態様にかかるプログラム記録媒体は、音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出する処理と、前記音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する処理とを、コンピュータに実行させるプログラムを記録する。

　本開示によれば、話者認識の精度を高めた音声処理装置、音声処理方法、およびプログラム記録媒体を提供することができる。

各実施形態における装置を実現するコンピュータ装置のハードウェア構成を示すブロック図である。第１の実施形態における音声処理装置の機能構成を示すブロック図である。第１の実施形態における音声処理装置の第二の特徴量算出部が第二の特徴量を算出する方法を模式的に説明する図である。第１の実施形態における音声処理装置の第二の特徴量算出部が第二の特徴量を算出する方法を模式的に説明する図である。第１の実施形態における音声処理装置の第二の特徴量算出部が第二の特徴量を算出する方法を模式的に説明する図である。第１の実施形態における音声処理装置の動作の一例を示すフローチャートである。第２の実施形態に係る音声処理装置２００の構成を示すブロック図である。最小構成の実施形態にかかる音声処理装置の機能構成を示すブロック図である。

　以下、実施形態について、図面を参照して説明する。なお、実施形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。また、図面における矢印の方向は、一例を示すものであり、ブロック間の信号の向きを限定するものではない。

　第１の実施形態
　第１の実施形態および他の実施形態にかかる音声処理装置を構成するハードウェアについて説明する。図１は、各実施形態における音声処理装置および音声処理方法を実現するコンピュータ装置１０のハードウェア構成を示すブロック図である。なお、各実施形態において、以下に示す音声処理装置の各構成要素は、機能単位のブロックを示している。音声処理装置の各構成要素は、例えば図１に示すようなコンピュータ装置１０とソフトウェアとの任意の組み合わせにより実現することができる。

　図１に示すように、コンピュータ装置１０は、プロセッサ１１、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１２、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１３、記憶装置１４、入出力インタフェース１５およびバス１６を備える。

　記憶装置１４は、プログラム１８を格納する。プロセッサ１１は、ＲＡＭ１２を用いて音声処理装置または音声処理方法にかかるプログラム１８を実行する。プログラム１８は、ＲＯＭ１３に記憶されていてもよい。また、プログラム１８は、記録媒体２０に記録され、ドライブ装置１７によって読み出されてもよいし、外部装置からネットワークを介して送信されてもよい。

　入出力インタフェース１５は、周辺機器（キーボード、マウス、表示装置など）１９とデータをやり取りする。入出力インタフェース１５は、データを取得または出力する手段として機能することができる。バス１６は、各構成要素を接続する。

　なお、音声処理装置の実現方法には様々な変形例がある。例えば、音声処理装置の各部は、ハードウェア（専用回路）として実現することができる。また、音声処理装置は、複数の装置の組み合わせにより実現することができる。

　本実施形態および他の実施形態の機能を実現するように各実施形態の構成を動作させるプログラム（より具体的には、図４等に示す処理をコンピュータに実行させるプログラム）を記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。

　該記録媒体としては例えばフロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ）－ＲＯＭ、磁気テープ、不揮発性メモリカード、ＲＯＭを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、ＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）上で動作して処理を実行するものも各実施形態の範疇に含まれる。

　図２は、第１の実施形態における音声処理装置１００の機能構成を示すブロック図である。図２に示すように、音声処理装置１００は、音声区間検出部１１０、音声統計量算出部１２０、第一の特徴量算出部１３０、第二の特徴量算出部１４０および音声モデル記憶部１５０を備える。

　音声区間検出部１１０は、外部から音声信号を受け取る。音声信号は、話者の発声に基づく音声を表す信号である。音声区間検出部１１０は、受け取った音声信号に含まれる音声区間を検出して区分化する。このとき、音声区間検出部１１０は、音声信号を一定の長さに区分化してもよいし、異なる長さに区分化してもよい。例えば、音声区間検出部１１０は、音声信号のうち音量が一定時間継続して所定値より小さい区間を無音と判定し、その区間の前後を、異なる音声区間と判定して区分化してもよい。そして、音声区間検出部１１０は、区分化した結果（音声区間検出部１１０の処理結果）である区分化音声信号を音声統計量算出部１２０に出力する。ここで、音声信号の受け取りとは、例えば、外部の装置または他の処理装置からの音声信号の受信、または、他のプログラムからの音声信号処理の処理結果の引き渡しのことである。また、出力とは、例えば、外部の装置や他の処理装置への送信、または、他のプログラムへの音声区間検出部１１０の処理結果の引き渡しのことである。

　音声統計量算出部１２０は、音声区間検出部１１０から区分化音声信号を受け取る。音声統計量算出部１２０は、受け取った区分化音声信号に基づいて、音響特徴を算出し、算出した音響特徴と１つ以上の音声モデル（詳細は後述する）とを用いて、該区分化音声信号に含まれる音の種類に関する音声統計量を算出する。ここで、音の種類とは、例えば、音素等の言語知識により定まるグループである。音の種類は、また、音声信号を類似度に基づいてクラスタリングして得られる音のグループであってもよい。そして、音声統計量算出部１２０は、算出した音声統計量（音声統計量算出部１２０の処理結果）を出力する。以降、ある音声信号に対して算出された音声統計量を、該音声信号の音声統計量と呼ぶ。音声統計量算出部１２０は、音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出する音声統計量算出手段を担う。

　音声統計量算出部１２０が、音声統計量を算出する方法の一例について説明する。音声統計量算出部１２０は、まず、受け取った音声信号を周波数分析処理することにより音響特徴を算出する。音声統計量算出部１２０が音響特徴を算出する手順について説明する。

　音声統計量算出部１２０は、例えば、音声区間検出部１１０から受け取った区分化音声信号を、短時間毎にフレームとして切り出して配列することにより短時間フレーム時系列に変換する。そして、音声統計量算出部１２０は、短時間フレーム時系列のそれぞれのフレームを周波数分析し、その処理結果として音響特徴を算出する。音声統計量算出部１２０は、例えば、短時間フレーム時系列として、２５ミリ秒区間のフレームを１０ミリ秒ごとに生成する。

　音声統計量算出部１２０は、例えば、周波数分析処理として、高速フーリエ変換処理（Ｆａｓｔ　Ｆｏｕｒｉｅｒ　Ｔｒａｎｓｆｏｒｍ：ＦＦＴ）およびフィルタバンク処理を行うことにより、音響特徴である周波数フィルタバンク特徴を算出する。あるいは、音声統計量算出部１２０は、ＦＦＴおよびフィルタバンク処理に加えて離散コサイン変換処理を行うことにより、音響特徴であるメル周波数ケプストラム係数（Ｍｅｌ－Ｆｒｅｑｕｅｎｃｙ　Ｃｅｐｓｔｒｕｍ　Ｃｏｅｆｆｉｃｉｅｎｔｓ：ＭＦＣＣ）などを算出する。

　次に、音声統計量算出部１２０が、算出した音響特徴と音声モデル記憶部１５０に記憶されている１つ以上の音声モデルとを用いて、音声統計量を算出する手順について説明する。

　音声モデル記憶部１５０は、１つ以上の音声モデルを記憶する。音声モデルは、音声信号が表す音の種類を識別するように構成される。音声モデルは、音響特徴と音の種類との対応関係を格納する。音声統計量算出部１２０は、音響特徴の時系列と、音声モデルとを用いて、音の種類を表す数値情報の時系列を算出する。音声モデルは、訓練用に用意された音声信号（訓練用音声信号）を用いて、一般的な最適化基準に従って予め訓練されたモデルである。音声モデル記憶部１５０は、例えば、話者の性別（男性または女性）、録音環境別（屋内または屋外）等のように複数の訓練用音声信号毎に訓練された２つ以上の音声モデルを記憶してもよい。なお、図２の例では、音声処理装置１００が音声モデル記憶部１５０を備えているが、音声モデル記憶部１５０は、音声処理装置１００とは別個の記憶装置で実現されるものであってもよい。

　例えば、用いる音声モデルがガウス混合モデル（Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌ：ＧＭＭ）であるとき、ＧＭＭが有する複数の要素分布はそれぞれ異なる音の種類に対応する。そこで、音声統計量算出部１２０は、音声モデル（ＧＭＭ）から複数の要素分布それぞれのパラメタ（平均、分散）および各要素分布の混合係数を取り出し、算出した音響特徴と、取り出した要素分布のパラメタ（平均、分散）および各要素分布の混合係数に基づいて、各要素分布の事後確率を算出する。ここで、各要素分布の事後確率は、音声信号に含まれる音の種類のそれぞれの出現度である。音声信号ｘについて、ガウス混合モデルのｉ番目の要素分布の事後確率Ｐ_ｉ（ｘ）は、以下の式（１）で計算できる。

　ここで、関数Ｎ（）はガウス分布の確率密度関数を表し、θ_ｉはＧＭＭのｉ番目の要素分布のパラメタ（平均と分散）、ｗ_ｉはＧＭＭのｉ番目の要素分布の混合係数を示す。

　また、例えば、用いる音声モデルがニューラルネットワーク（Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）であるとき、ニューラルネットワークが有する出力層の各要素がそれぞれ異なる音の種類に対応する。そこで、音声統計量算出部１２０は、音声モデル（ニューラルネットワーク）から各要素のパラメタ（重み係数、バイアス係数）を取り出し、算出した音響特徴と、取り出した要素のパラメタ（重み係数、バイアス係数）に基づいて、音声信号に含まれる音の種類のそれぞれの出現度を算出する。

　以上のように算出した、音声信号に含まれる音の種類のそれぞれの出現度が、音声統計量である。第一の特徴量算出部１３０は、音声統計量算出部１２０が出力した音声統計量を受け取る。第一の特徴量算出部１３０は、音声統計量を用いて、第一の特徴量を算出する。第一の特徴量とは、音声信号から特定の属性情報を認識するための情報である。第一の特徴量算出部１３０は、音声統計量に基づいて、話者の声質特徴を示す、特定の属性情報を認識するための第一の特徴量を算出する第一の特徴量算出手段を担う。

　第一の特徴量算出部１３０が第一の特徴量を算出する手順の一例を説明する。ここでは、第一の特徴量算出部１３０は、音声信号ｘの第一の特徴量として、ｉ－ｖｅｃｔｏｒに基づく特徴ベクトルＦ（ｘ）を算出する例を説明する。なお、第一の特徴量算出部１３０が算出する第一の特徴量Ｆ（ｘ）は、音声信号ｘに対して所定の演算を施して算出できるベクトルであって、話者の声質を表す特徴であればよく、ｉ－ｖｅｃｔｏｒはその一例である。

　第一の特徴量算出部１３０は、音声統計量算出部１２０から、音声信号ｘの音声統計量として、例えば、短時間フレームごとに算出された事後確率（以降、「音響事後確率」とも称する）Ｐ_ｔ（ｘ）および音響特徴Ａ_ｔ（ｘ）（ｔは１以上Ｌ以下の自然数、Ｌは１以上の自然数）を受け取る。Ｐ_ｔ（ｘ）は、要素数Ｃのベクトルである。第一の特徴量算出部１３０は、音響事後確率Ｐ_ｔ（ｘ）および音響特徴Ａ_ｔ（ｘ）を用いて、以下の式（２）に基づいて音声信号ｘの０次統計量Ｓ_０（ｘ）を算出する。そして、第一の特徴量算出部１３０は、式（３）に基づいて１次統計量Ｓ_１（ｘ）を算出する。

　第一の特徴量算出部１３０は、続いて、以下の式（４）に基づいて、音声信号ｘのｉ－ｖｅｃｔｏｒであるＦ（ｘ）を算出する。

　上記の式（２）～（４）において、Ｐ_ｔ，ｃ（ｘ）は、Ｐ_ｔ（ｘ）のｃ番目の要素の値、Ｌは、音声信号ｘから得たフレーム数、Ｓ_０，ｃは、統計量Ｓ_０（ｘ）のｃ番目の要素の値、Ｃは統計量Ｓ_０（ｘ）およびＳ_１（ｘ）の要素数、Ｄは音響特徴Ａ_ｔ（ｘ）の要素数（次元数）、ｍ_ｃは音響特徴空間におけるｃ番目の領域の音響特徴の平均ベクトル、Ｉ_Ｄは単位行列（要素数はＤ×Ｄ）、０は零行列（要素数はＤ×Ｄ）を表す。上付き文字のＴは、転置行列を表し、上付き文字でないＴはｉ－ｖｅｃｔｏｒ計算用のパラメータである。Σは音響特徴空間における音響特徴の共分散行列である。

　以上のように、第一の特徴量算出部１３０は、第一の特徴量Ｆ（ｘ）としてｉ－ｖｅｃｔｏｒに基づく特徴ベクトルＦ（ｘ）を算出する。

　次に、第二の特徴量算出部１４０により、音声信号から特定の属性情報を認識するための第二の特徴量を算出する手順について説明する。第二の特徴量算出部１４０は、音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する第二の特徴量算出手段を担う。

　まず、第二の特徴量算出部１４０が音声信号ｘの第二の特徴量としてＦ２（ｘ）を算出する方法の一例について説明する。第二の特徴量算出部１４０は、音声統計量算出部１２０から、音声信号ｘの音声統計量として、例えば、短時間フレームごとに算出された音響事後確率Ｐ_ｔ（ｘ）（ｔは１以上Ｔ以下の自然数、Ｔは１以上の自然数）を受け取る。第二の特徴量算出部１４０は、音響事後確率Ｐ_ｔ（ｘ）を用いて、音響事後確率差分ΔＰ_ｔ（ｘ）を算出する。第二の特徴量算出部１４０は、音響事後確率差分ΔＰ_ｔ（ｘ）を、例えば、以下の式（５）
　ΔＰ_ｔ（ｘ）＝Ｐ_ｔ（ｘ）－Ｐ_ｔ－１（ｘ）・・・（５）
により算出する。すなわち、第二の特徴量算出部１４０は、インデックスの隣り合う（少なくとも２つの時点の）音響事後確率間の差分を、音響事後確率差分ΔＰ_ｔ（ｘ）として算出する。そして、第二の特徴量算出部１４０は、上記の式（２）～（４）におけるＡ_ｔ（ｘ）をΔＰ_ｔ（ｘ）に置き替えて算出した話者特徴ベクトルを、第二の特徴量Ｆ２（ｘ）として算出する。ここで、第二の特徴量算出部１４０は、音響特徴のインデックスｔのすべてを用いる代わりに、偶数番号のみや奇数番号のみのように、一部のインデックスを用いるようにしてもよい。

　このように、音声処理装置１００において、第二の特徴量算出部１４０が、音声信号ｘに対して、該音声信号内に含まれる音の種類のそれぞれの出現度（音声統計量）の時間変化を表す情報（統計量）として、音響事後確率差分ΔＰ_ｔ（ｘ）を用いて特徴ベクトルＦ２（ｘ）を算出する。音声統計量の時間変化を表す情報は、話者の話し方の個人性を表す。すなわち、音声処理装置１００は、話者の話し方の個人性を表す特徴量を出力することができる。

　次に、第二の特徴量算出部１４０が音声信号ｘの第二の特徴量としてＦ２（ｘ）を算出する方法の他の一例について説明する。第二の特徴量算出部１４０は、外部から、音声信号ｘの読み（発話内容）を表す記号列であるテキスト情報Ｌ_ｎ（ｘ）（ｎは１以上Ｎ以下の自然数、Ｎは１以上の自然数）を受け取る。テキスト情報は、例えば音素列である。

　図３Ａ乃至図３Ｃは、第二の特徴量算出部１４０がＦ２（ｘ）を算出する方法を模式的に説明する図である。第二の特徴量算出部１４０は、上記の例と同様に、音声統計量算出部１２０から音声統計量として音響事後確率Ｐ_ｔ（ｘ）を受け取る。音の種類の数が、例えば「４０」であるとき、Ｐ_ｔ（ｘ）は、４０次元のベクトルとなる。

　第二の特徴量算出部１４０は、テキスト情報Ｌ_ｎ（ｘ）のそれぞれの要素と、音響事後確率Ｐ_ｔ（ｘ）のそれぞれの要素とを対応付ける。例えば、テキスト情報Ｌ_ｎ（ｘ）の要素が音素、音響事後確率Ｐ_ｔ（ｘ）の要素に対応する音の種類が音素であるとする。このとき、第二の特徴量算出部１４０は、例えば、音響事後確率Ｐ_ｔ（ｘ）の各インデックスｔにおける各音素の出現確率値をスコアとして、動的プログラミングに基づくマッチングアルゴリズムを用いることにより、テキスト情報Ｌ_ｎ（ｘ）のそれぞれの要素と音響事後確率Ｐ_ｔ（ｘ）のそれぞれの要素とを対応付ける。

　図３Ａ乃至図３Ｃを参照して、具体的に説明する。第二の特徴量算出部１４０が取得したテキスト情報Ｌ_ｎ（ｘ）が、「赤」の音素列、すなわち、音素「/a/」、「/k/」、「/a/」である例について説明する。図３Ａには、時刻ｔ＝１からｔ＝７までの各フレームの音響事後確率Ｐ_ｔ（ｘ）を例示している。例えば、時刻ｔ＝１のフレームの音響事後確率Ｐ_１（ｘ）における１番目の要素の値「０．７」は、音素「/a/」の出現確率値を表す。同様に、２番目の要素の値「０．０」は、音素「/k/」の出現確率値、３番目の要素の値「０．１」は、音素「/e/」の出現確率値をそれぞれ表す。このように、第二の特徴量算出部１４０は、時刻ｔ＝１からｔ＝７までのフレームについて、すべての音素の出現確率値を求める。

　第二の特徴量算出部１４０は、上記出現確率値をスコアとして動的プログラミングに基づくマッチングアルゴリズムを用いて、音響事後確率Ｐ_ｔ（ｘ）と音素の対応付けを行う。例えば、時刻ｔ＝１の音響事後確率Ｐ_１（ｘ）と、順番ｎ＝１のテキスト情報「/a/」の「類似度」を、「０．７」と設定する。同様に、音響事後確率Ｐ_ｔ（ｘ）の全要素と、テキスト情報の全要素との間の類似度を設定する。そして、テキスト情報「/a//k//a/」の並びの制約に基づいて、類似度が最も大きくなるように、各々のフレームと音素とを対応付ける。

　図３Ｂでは、フレーム毎の最大スコアに下線を付している。例えば、ｔ＝３の音響事後確率Ｐ_３（ｘ）は、「/a/」に対応付ける方が、「/k/」に対応付けるよりもスコアが大きくなる。このように、例えば「ａｋａａａａａ」、「ａａｋａａａａ」、「ａｋｋａａａａ」など多数のパターンから、各音素のスコアの合計スコアが最大となるパターンを選ぶ。ここでは、「ａａａｋｋａａ」が、合計スコアが最大となるパターン、すなわち、対応付けの結果とする。

　第二の特徴量算出部１４０は、テキスト情報Ｌ_ｎ（ｘ）のそれぞれの要素に対応付けることができた音響事後確率Ｐ_ｔ（ｘ）のインデックス数Ｏ_ｎを計算する。

　図３Ｃに示すように、テキスト情報「/a/ /k/ /a/」の、最初の「/a/」に対応付けることができた音響事後確率Ｐ_ｔ（ｘ）のインデックス数Ｏ_ｎは「３」である。同様に、「/k/」に対応付けることができた音響事後確率Ｐ_ｔ（ｘ）のインデックス数Ｏ_ｎは「２」、次の「/a/」に対応付けることができた音響事後確率Ｐ_ｔ（ｘ）のインデックス数Ｏ_ｎは「２」である。

　第二の特徴量算出部１４０は、テキスト情報Ｌ_ｎ（ｘ）のそれぞれの要素に対応付けることができた音響事後確率Ｐ_ｔ（ｘ）のインデックス数Ｏ_ｎを要素とするベクトルを、第二の特徴量Ｆ２（ｘ）として算出する。インデックス数Ｏ_ｎのそれぞれの値は、テキスト情報Ｌ_ｎ（ｘ）のそれぞれの音素（記号）の発話時間長を表す。

　このように、音声処理装置１００において、第二の特徴量算出部１４０は、音声信号ｘに対して、該音声信号ｘの読みを表すテキスト情報をさらに用いることによって、テキスト情報の各要素の発話時間長を用いて特徴ベクトルＦ２（ｘ）を算出する。これにより、音声処理装置１００は、話者の話し方の個人性を表す特徴量を出力することができる。

　以上述べたように、本実施形態にかかる音声処理装置１００において、第一の特徴量算出部１３０は話者の声質を表す特徴ベクトルを算出できる。また、第二の特徴量算出部１４０は話者の話し方の個人性を表す特徴ベクトルを算出できる。これにより、音声信号に対して、話者の声質と話し方のそれぞれを考慮した特徴ベクトルを出力できる。すなわち、本実施形態にかかる音声処理装置１００は、少なくとも話者の話し方の個人性を表す特徴ベクトルを算出できるので、話者認識の精度を高めるのに適した話者特徴を算出できる。

　第１の実施形態の動作
　次に、第１の実施形態における音声処理装置１００の動作について、図４のフローチャートを用いて説明する。図４は、音声処理装置１００の動作の一例を示すフローチャートである。

　音声処理装置１００は、外部から１つ以上の音声信号を受け取り、音声区間検出部１１０に提供する。音声区間検出部１１０は、受け取った音声信号を区分化し、区分化音声信号を音声統計量算出部１２０に出力する（ステップＳ１０１）。

　音声統計量算出部１２０は、受け取った１つ以上の区分化音声信号それぞれについて、短時間フレーム分析処理を行い、音響特徴と音声統計量の時系列を算出する（ステップＳ１０２）。

　第一の特徴量算出部１３０は、受け取った１つ以上の音響特徴と音声統計量の時系列に基づいて、第一の特徴量を算出して出力する。（ステップＳ１０３）。

　第二の特徴量算出部１４０は、受け取った１つ以上の音響特徴と音声統計量の時系列に基づいて、第二の特徴量を算出して出力する。（ステップＳ１０４）。音声処理装置１００は、外部からの音声信号の受理が終了したら、一連の処理を終了する。

　第１の実施形態の効果
　以上、説明したように、本実施形態にかかる音声処理装置１００によれば、音声処理装置１００が算出した話者特徴を用いる話者認識の精度を高めることができる。なぜならば、音声処理装置１００は、第一の特徴量算出部１３０が話者の声質を表す第一の特徴量を算出し、第二の特徴量算出部１４０が話者の話し方を表す第二の特徴量を算出することで、話者の声質と話し方の双方を考慮した特徴ベクトルを特徴量として出力するからである。

　このように、本実施形態にかかる音声処理装置１００によれば、音声信号に対して、話者の声質と話し方を考慮した特徴ベクトルを算出する。これにより、声質が似通っている話者がいる場合にも、話し方の差異、例えば、語句を話す速さや語句の中における音の切り替わりのタイミングの差などに基づいて、話者認識に適した特徴量を求めることができる。

　第２の実施形態
　図５は、第２の実施形態に係る音声処理装置２００の構成を示すブロック図である。図５に示すように、音声処理装置２００は、第１の実施形態で説明した音声処理装置１００に加えて、さらに属性認識部１６０を備える。属性認識部１６０は、音声処理装置１００と通信可能な別の装置に設けられていてもよい。属性認識部１６０は、第二の特徴量に基づいて、音声信号に含まれる特定の属性情報を認識する属性認識手段を担う。

　第１の実施形態において説明した第二の特徴量算出部１４０により算出された第二の特徴量を用いて、属性認識部１６０は、音声信号の話者を推定する話者認識を行うことができる。

　例えば、属性認識部１６０は、第１の音声信号から算出した第二の特徴量と、第２の音声信号から算出した第二の特徴量とから、２つの第二の特徴量の類似性を現す指標として、コサイン類似度を算出する。例えば、話者照合することを目的とする場合は、上記の類似度に基づく照合可否の判定情報を出力してもよい。

　また、話者識別することを目的とする場合は、第１の音声信号に対して複数の第２の音声信号を用意し、例えば第１の音声信号から算出された第二の特徴量と、複数の第２の音声信号のそれぞれから算出された第二の特徴量の各々の類似度を求め、類似度の値の大きい組を出力してもよい。

　以上のように、第２の実施形態によれば、音声処理装置２００は、属性認識部１６０において、複数の音声信号からそれぞれ算出された特徴量の類似度に基づいて、話者を推定する話者認識を行うことができるという効果が得られる。

　また、属性認識部１６０は、第二の特徴量算出部１４０により算出された第二の特徴量と、第一の特徴量算出部１３０により算出された第一の特徴量とを用いて、音声信号の話者を推定する話者認識を行ってもよい。これにより、属性認識部１６０は、話者認識の精度をより高めることができる。

　第３の実施形態
　本開示の最小構成の実施形態について説明する。

　図６は、本開示の最小構成の実施形態に係る音声処理装置１００の機能構成を示すブロック図である。図６に示すように、音声処理装置１００は、音声統計量算出部１２０および第二の特徴量算出部１４０を備える。

　音声統計量算出部１２０は、音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出する。第二の特徴量算出部１４０は、音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する。

　上記構成を採用することにより、本第３の実施形態によれば、話者の話し方の個人性を表す特徴ベクトルを算出できるので、話者認識の精度を高めることができるという効果が得られる。

　上記音声処理装置１００は、音声信号から特定の属性情報を認識するための特徴量を算出する特徴量算出装置の一例である。音声処理装置１００は、特定の属性が音声信号を発した話者であるとき、話者特徴抽出装置として利用可能である。また、音声処理装置１００は、例えば文発話の音声信号に対して、当該話者特徴を用いて推定した話者情報に基づいて、当該話者の話し方の特徴に適応化する機構を備える音声認識装置の一部としても利用可能である。また、ここで、話者を示す情報は、話者の性別を示す情報や、話者の年齢あるいは年齢層を示す情報であってもよい。

　音声処理装置１００は、特定の属性を音声信号が伝える言語（音声信号を構成する言語）を示す情報とするとき、言語特徴算出装置として利用可能である。また、音声処理装置１００は、例えば文発話の音声信号に対して、当該言語特徴を用いて推定した言語情報に基づいて、翻訳する言語を選択する機構を備える音声翻訳装置の一部としても利用可能である。

　音声処理装置１００は、特定の属性が話者の発話時の感情を示す情報であるとき、感情特徴算出装置として利用可能である。また、音声処理装置１００は、例えば蓄積された多数の発話の音声信号に対して、当該感情特徴を用いて推定した感情情報に基づいて、特定の感情に対応する音声信号を特定する機構を備える音声検索装置や音声表示装置の一部としても利用可能である。この感情情報には、例えば、感情表現を示す情報、発話者の性格を示す情報等が含まれる。

　以上のように、本実施形態における特定の属性情報は、音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される発話者の性格、の少なくともいずれか一つを表す情報である。

　以上、実施形態を用いて本開示を説明したが、本開示は、上記実施形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解しうる様々な変更をすることができる。すなわち、本開示は、以上の実施形態に限定されることなく、種々の変更が可能であり、それらも本開示の範囲内に包含されるものであることは言うまでもない。

　以上のように、本開示の一態様における音声処理装置等は、話者の声質に加えて語句の話し方を考慮した特徴ベクトルを抽出し、話者認識の精度を高めることができるという効果を有しており、音声処理装置等および話者認識装置として有用である。

　１００　音声処理装置
　１１０　音声区間検出部
　１２０　音声統計量算出部
　１３０　第一の特徴量算出部
　１４０　第二の特徴量算出部
　１５０　音声モデル記憶部
　１６０　属性認識部

Claims

　音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出する音声統計量算出手段と、
　前記音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する第二の特徴量算出手段と、
　を備える、音声処理装置。
　前記音声統計量に基づいて、話者の声質特徴を示す、特定の属性情報を認識するための第一の特徴量を算出する第一の特徴量算出手段をさらに備える、
　請求項１記載の音声処理装置。
　前記第二の特徴量算出手段は、
　前記第二の特徴量として、少なくとも２つの時点の前記音声統計量を用いて、前記音声統計量の時間変化を算出する
　請求項１または２記載の音声処理装置。
　前記第二の特徴量算出手段は、
　前記音声信号の発話内容を表す記号列であるテキスト情報と、前記音声統計量との対応付けを行い、
　前記第二の特徴量として、発話内容を表す各記号の発話時間長を表す値を算出する
　請求項１または２記載の音声処理装置。
　前記第二の特徴量に基づいて、前記音声信号に含まれる特定の属性情報を認識する属性認識手段を、さらに備える、
　請求項１乃至４のいずれか１項記載の音声処理装置。
　前記特定の属性情報は、
　前記音声信号を発した話者、前記音声信号を発した話者の性別、前記音声信号を発した話者の年齢、前記音声信号を構成する言語、前記音声信号に含まれる感情表現、前記音声信号から推定される話者の性格、の少なくともいずれかひとつを表す情報である、
　請求項１乃至５のいずれか１項記載の音声処理装置。
　音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出し、
　前記音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する
　音声処理方法。
　音声を表す音声信号に含まれる音の種類のそれぞれの出現度を表す音声統計量を算出する処理と、
　前記音声統計量の時間変化に基づいて、特定の属性情報を認識するための第二の特徴量を算出する処理と
　を、コンピュータに実行させるプログラムを記録するプログラム記録媒体。