WO2019244298A1

WO2019244298A1 - 属性識別装置、属性識別方法、およびプログラム記録媒体

Info

Publication number: WO2019244298A1
Application number: PCT/JP2018/023594
Authority: WO
Inventors: 山本　仁; 孝文越仲
Original assignee: 日本電気株式会社
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2019-12-26
Also published as: JP7160095B2; EP3813061A1; JPWO2019244298A1; US20210264939A1; EP3813061A4

Abstract

人物の属性識別の精度をより高めた属性識別装置、属性識別方法、およびプログラム記録媒体を提供することにある。　属性識別装置１００は、生体信号に基づき、上記生体信号から特定の属性の値の範囲である第一の属性情報を識別する第一の属性識別部１３０と、上記生体信号および上記第一の属性情報から特定の属性情報である第二の属性情報を識別する第二の属性識別部１４０とを備える。

Description

属性識別装置、属性識別方法、およびプログラム記録媒体

　本発明は、属性識別装置、属性識別方法、およびプログラム記録媒体に関する。

　話者の発話から得られた音声信号等の生体信号から、人物の性別や年齢等の属性情報を推定する音声処理装置が知られている。

　この種の音声処理装置は、人物の属性情報を推定する際に、属性情報を離散値として推定する場合と、属性情報を連続値として推定する場合がある。

　特許文献１には、顔画像信号から人物の属性として年齢を推定する技術が記載されている。特許文献１に記載の年齢推定技術は、まず、顔画像信号から年齢を離散値として推定し、かつ、年齢を連続値として推定する。そして、特許文献１に記載の年齢推定技術は、上記の離散値および連続値の推定結果を統合することにより最終的な推定値を算出する。

特許第４２７３３５９号公報

Najim Dehak, Patrick Kenny, Reda Dehak, Pierre Dumouchel, Pierre Ouellet著、 "Front-End Factor Analysis for Speaker Verification"、IEEE Transaction on Audio, Speech and Language Processing、第19巻、第4号、p.788-798、2011年

　しかしながら、特許文献１に記載の技術には、人物の属性の識別精度が十分でないという課題がある。

　特許文献１に記載の技術は、顔画像信号から人物の属性として年齢を推定する際に、離散値である第一の推定値と、連続値である第二の推定値をあらかじめ設計されたルールに基づいて統合して、最終的な推定値を算出する。特許文献１に記載の技術は、第一の推定値と第二の推定値を独立に求める。このため、第一の推定値と第二の推定値が大きく異なる場合があり、その場合には統合後も二つの推定値が有望となり一つの推定値に絞り込むことが難しい。したがって、年齢の識別精度を損なうおそれがある。

　本発明は、上記問題に鑑みてなされたものであり、その目的は、人物の属性識別の精度をより高めた属性識別装置、属性識別方法、およびプログラム記録媒体を提供することにある。

　本発明の一態様にかかる属性識別装置は、生体信号に基づき、前記生体信号から特定の属性の値の範囲である第一の属性情報を識別する第一の属性識別手段と、前記生体信号および前記第一の属性情報から特定の属性情報である第二の属性情報を識別する第二の属性識別手段とを備える。

　本発明の一態様にかかる属性識別方法は、生体信号に基づき、前記生体信号から特定の属性の値の範囲である第一の属性情報を識別し、前記生体信号および前記第一の属性情報から特定の属性情報である第二の属性情報を識別する。

　本発明の一態様にかかるプログラム記録媒体は、生体信号に基づき、前記生体信号から特定の属性の値の範囲である第一の属性情報を識別する処理と、前記生体信号および前記第一の属性情報から特定の属性情報である第二の属性情報を識別する処理とを、コンピュータに実行させるプログラムを記録する。

　本発明によれば、人物の属性識別の精度をより高めた属性識別装置、属性識別方法、およびプログラム記録媒体を提供することができる。

本発明の各実施形態における装置を実現するコンピュータ装置のハードウェア構成を示すブロック図である。本発明の第１の実施形態における音声処理装置の機能構成を示すブロック図である。本発明の第１の実施形態における音声処理装置の第一の属性識別部が出力する第一の属性情報の一例について説明する図である。本発明の第１の実施形態における音声処理装置の第二の属性識別部の他の例を説明する図である。本発明の第１の実施形態における音声処理装置の第一の属性識別部が出力する第一の属性情報の他の例について説明する図である。本発明の第１の実施形態における音声処理装置の動作を示すフローチャートである。最小構成の実施形態にかかる属性識別装置の機能構成を示すブロック図である。

　以下、本発明の実施形態について、図面を参照して説明する。なお、実施形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。また、図面における矢印の方向は、一例を示すものであり、ブロック間の信号の向きを限定するものではない。
＜第１の実施形態＞
　本発明の第１の実施形態および他の実施形態にかかる音声処理装置または属性識別装置を構成するハードウェアについて説明する。図１は、本発明の各実施形態における音声処理装置および音声処理方法を実現するコンピュータ装置１０のハードウェア構成を示すブロック図である。なお、本発明の各実施形態において、以下に示す音声処理装置の各構成要素は、機能単位のブロックを示している。音声処理装置の各構成要素は、例えば図１に示すようなコンピュータ装置１０とソフトウェアとの任意の組み合わせにより実現することができる。

　図１に示すように、コンピュータ装置１０は、プロセッサ１１、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１２、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１３、記憶装置１４、入出力インタフェース１５およびバス１６を備える。

　記憶装置１４は、プログラム１８を格納する。プロセッサ１１は、ＲＡＭ１２を用いて本音声処理装置にかかるプログラム１８を実行する。プログラム１８は、ＲＯＭ１３に記憶されていてもよい。また、プログラム１８は、記録媒体２０に記録され、ドライブ装置１７によって読み出されてもよいし、外部装置からネットワークを介して送信されてもよい。

　入出力インタフェース１５は、周辺機器（キーボード、マウス、表示装置など）１９とデータをやり取りする。入出力インタフェース１５は、データを取得または出力する手段として機能することができる。バス１６は、各構成要素を接続する。

　なお、音声処理装置の実現方法には様々な変形例がある。例えば、音声処理装置の各部は、ハードウエア（専用回路）として実現することができる。また、音声処理装置は、複数の装置の組み合わせにより実現することができる。

　本実施形態および他の実施形態の機能を実現するように各実施形態の構成を動作させるプログラム（より具体的には、図６等に示す処理をコンピュータに実行させるプログラム）を記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。

　該記録媒体としては例えばフロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ）－ＲＯＭ、磁気テープ、不揮発性メモリカード、ＲＯＭを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、ＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）上で動作して処理を実行するものも各実施形態の範疇に含まれる。

　図２は、第１の実施形態における音声処理装置１００の機能構成を示すブロック図である。図２に示すように、音声処理装置１００は、音声区間検出部１１０、話者特徴算出部１２０、第一の属性識別部１３０および第二の属性識別部１４０を備える。

　音声区間検出部１１０は、外部から音声信号を受け取る。音声信号は、話者の発声に基づく音声を表す信号である。なお、取得される信号は音声信号に限定されず、心拍、脳波、脈拍、呼吸、発汗などの生体現象によって体内から発せられる生体信号であってよい。

　音声区間検出部１１０は、受け取った音声信号に含まれる音声区間を検出して区分化する。このとき、音声区間検出部１１０は、音声信号を一定の長さに区分化してもよいし、異なる長さに区分化してもよい。例えば、音声区間検出部１１０は、音声信号のうち音量が一定時間継続して所定値より小さい区間を無音と判定し、その区間の前後を、異なる音声区間と判定して、区分化してもよい。そして、音声区間検出部１１０は、区分化した結果（音声区間検出部１１０の処理結果）である区分化音声信号を話者特徴算出部１２０に出力する。ここで、音声信号の受け取りとは、例えば、外部の装置または他の処理装置からの音声信号の受信、または、他のプログラムからの音声信号処理の処理結果の引き渡しのことである。また、出力とは、例えば、外部の装置や他の処理装置への送信、または、他のプログラムへの音声区間検出部１１０の処理結果の引き渡しのことである。

　話者特徴算出部１２０は、音声区間検出部１１０から区分化音声信号を受け取る。話者特徴算出部１２０は、受け取った区分化音声信号に基づいて、該区分化音声信号に含まれる個人性の特徴を表現する話者特徴を算出する。そして、話者特徴算出部１２０は、算出した話者特徴（話者特徴算出部１２０の処理結果）を出力する。
すなわち、話者特徴算出部１２０は、生体信号である、音声を表す音声信号に基づき、話者の個人性を表す話者特徴を算出する話者特徴算出手段を担う。以降、ある音声信号に対して算出された話者特徴を、該音声信号の話者特徴と呼ぶ。

　話者特徴算出部１２０が算出する話者特徴の一例を説明する。話者特徴算出部１２０は、音声区間検出部１１０から受け取った区分化音声信号に基づいて、話者の声質の個人性を表すｉ－ｖｅｃｔｏｒに基づく特徴ベクトルを算出する。話者特徴算出部１２０は、話者の声質の個人性を表すｉ－ｖｅｃｔｏｒに基づく特徴ベクトルを算出する手法として、例えば、非特許文献１に記載の手法を用いてもよい。なお、話者特徴算出部１２０が算出する話者特徴は、区分化音声信号に対して所定の演算を施して算出できるベクトルであって、話者の個人性を表す特徴であればよく、ｉ－ｖｅｃｔｏｒはその一例である。

　話者特徴算出部１２０が算出する話者特徴の他の一例を説明する。話者特徴算出部１２０は、音声区間検出部１１０から受け取った区分化音声信号に基づいて、音声信号の周波数分析結果を表す特徴ベクトルを算出する。話者特徴算出部１２０は、例えば、周波数分析結果を表す特徴として、高速フーリエ変換処理（ＦＦＴ）およびフィルタバンク処理によって得られた周波数フィルタバンク特徴や、さらに加えて離散コサイン変換処理を施して得られたメル周波数ケプストラム係数（ＭＦＣＣ）特徴などを算出する。

　第一の属性識別部１３０は、話者特徴算出部１２０が出力した話者特徴を受け取る。第一の属性識別部１３０は、話者特徴を用いて、特定の属性情報を推定（識別）し、第一の属性情報として出力する。特定の属性情報とは、例えば、話者の年齢層を示す情報であってよい。第一の属性識別部１３０は、生体信号に基づき、生体信号から特定の属性の値の範囲である第一の属性情報を識別する第一の属性識別手段を担う。なお、識別には、属性の値の推定、属性の値の範囲に基づく分類などが含まれる。

　第一の属性識別部１３０が第一の属性情報を推定する方法の一例について説明する。第一の属性識別部１３０は、例えば、ニューラルネットワーク（Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を識別器として用いてよい。第一の属性識別部１３０は、識別器として、ガウス混合分布などの確率モデル、線形判別分析またはサポートベクタマシンなどの識別モデルを利用してもよい。ここで、第一の属性識別部１３０の識別器は、音声信号に係る話者特徴と、話者の属性値が含まれるクラス（詳細は後述する）とが関連付けられた学習データを学習する。学習により、入力を話者特徴とし、出力をクラス（第一の属性情報）とする識別器が生成される。第一の属性識別部１３０は、例えば、ニューラルネットワークを識別器として用いるとき、入力の話者特徴と、ニューラルネットワークが有する重み係数に基づいて、出力する属性情報を算出する。

　図３は、第一の属性識別部１３０が出力する第一の属性情報の一例について説明する図である。図３を参照して、第一の属性識別部１３０が出力する第一の属性情報の一例について説明する。第一の属性識別部１３０は、例えば、推定する属性の取りうる値の範囲に基づいてクラスを定め、各クラスをスコア化し、そのスコアを値とするベクトルを、第一の属性情報として出力する。ここで、スコアとは、識別器が算出した結果と、推定対象の属性情報との相関性を示す値である。すなわち、スコアは、識別器が算出した推定結果の確からしさを示す値である。

　第一の属性識別部１３０は、推定する属性の取りうる値の範囲に基づいてクラスを定める。ここでは、例えば、推定する属性の取りうる値が、“１０”から“６０”の自然数であるとする。このとき、図３に示すように、第一の属性識別部１３０は、例えば、“１０”～“２０”を含むクラスをＣ１、“２１”～“４０”を含むクラスをＣ２、“４１”～“６０”を含むクラスをＣ３、とそれぞれ定める。そして、第一の属性識別部１３０は、識別器が算出した各クラスをスコア化し、各スコアを値に持つベクトルを、クラスＣ１～Ｃ３の推定値として出力する。図３に示すように、第一の属性識別部１３０は、例えば、クラスＣ１、Ｃ２およびＣ３のスコアを、それぞれ０．１、０．７および０．２と算出したとする。このとき、第一の属性識別部１３０は、例えば、上記のクラスＣ１～Ｃ３に対して、それぞれのクラスに対応するスコアを成分とするベクトルV１＝（０．１、０．７、０．２）を、推定値として出力する。第一の属性識別部１３０は、また、その推定値として、ひとつのクラスの番号を値に取るベクトルを出力してもよい。例えば、第一の属性識別部１３０は、ベクトル成分であるスコアのうち、スコアが最も高いクラスの番号を値に持つベクトルを、ベクトルV２=（２）のように出力してもよい。

　第二の属性識別部１４０は、話者特徴算出部１２０が出力した話者特徴、および、第一の属性識別部１３０が出力した第一の属性情報を受け取る。第二の属性識別部１４０は、受け取った話者特徴および第一の属性情報を用いて、特定の属性情報（第二の属性情報）を推定（識別）する。特定の属性情報とは、例えば、話者の年齢を示す情報であってよい。第二の属性識別部１４０は、生体信号および第一の属性情報から特定の属性情報である第二の属性情報を識別する第二の属性識別手段を担う。

　第二の属性識別部１４０が特定の属性情報を推定する方法の一例について説明する。第二の属性識別部１４０は、例えば、ニューラルネットワークを識別器として用いてよい。

　ここで、第二の属性識別部１４０の識別器は、音声信号に係る話者特徴と、話者の属性値と、属性値が含まれるクラスとが関連付けられた学習データを学習する。学習により、入力を話者特徴および当該話者特徴を入力した第一の属性識別部１３０の出力である第一の属性情報とし、出力を推定結果である属性情報（属性値）とする識別器が生成される。第二の属性識別部１４０は、ニューラルネットワークを識別器として用いるとき、話者特徴および第一の属性情報からなる入力と、ニューラルネットワークが有する重み係数に基づいて、出力する属性情報を算出する。

　このとき、第二の属性識別部１４０は、推定結果を連続値として算出する。

　上記のように、第二の属性識別部１４０は、第一の属性識別部１３０が出力した第一の属性情報を入力として用いることで、属性識別の精度を高めることができる。その理由は、第二の属性識別部１４０が、第一の属性識別部１３０により推定した結果を事前情報として用いて属性情報を推定することにより、事前情報なしに話者特徴のみから推定するよりも、真の値に近い値を出力する可能性が高いためである。特に、第二の属性識別部１４０が連続値を推定する場合には、学習の段階で残差を最小にしようと識別器が学習するため、全体的に性能を上げようとすると、推定値が全体の中央に偏りやすい。すなわち、真の値が平均値より低い場合には高めに推定されやすく、真の値が平均値よりも高い場合は低めに推定されやすい。これに対し、第一の属性識別部１３０により推定した属性値の範囲を事前情報として用いることにより、上記のような偏りを低減することができる。

　ここで、第二の属性識別部１４０は、推定結果を離散値として算出してもよい。この場合、第二の属性識別部１４０は、第一の属性識別部１３０の定めるクラスよりも値の範囲が狭い（限定した）クラスを、離散値の推定結果として算出する。第二の属性識別部１４０の識別器は、入力された音声信号に係る話者特徴と、話者の属性値が含まれるクラスとが関連付けられた学習データを学習しておく。このとき、第二の属性識別部１４０は、第一の属性識別部１３０の定める属性値の範囲よりも狭い範囲で定めたクラスを学習データに使用する。上述した例の場合、第一の属性識別部１３０の定めるクラスＣ１～Ｃ３およびクラスＤ１～Ｄ３にそれぞれ含まれる値の範囲は“１０”である。よって、第二の属性識別部１４０は、“１０”よりも範囲が狭くなるよう、例えば、“５”刻みでクラスを定める。第二の属性識別部１４０は、このように定められたクラスを学習データに使用する。学習により、入力を話者特徴および当該話者特徴を入力した第一の属性識別部１３０の出力である第一の属性情報とし、出力を推定結果である属性情報（クラス）とする識別器が生成される。

　上記モデルを使用した場合、第二の属性識別部１４０は、推定結果を離散値として算出する。

　第二の属性識別部１４０は、また、多段構成を有してもよい。図４は、多段構成を有する第二の属性識別部１４０の例を説明する図である。図４に示すように、第二の属性識別部１４０は、判別分析を実行する処理部１４１と、回帰分析を実行する処理部１４２とを備えてもよい。

　この場合、第二の属性識別部１４０は、処理部１４１において、離散値を仮推定値（仮属性情報）として算出し、その仮推定値を用いて、処理部１４２により連続値として推定値を算出する。

　処理部１４１は、音声信号に係る話者特徴と、話者の属性値が含まれるクラスとが関連付けられた学習データを学習する。学習により、入力を話者特徴と当該話者特徴を入力した第一の属性識別部１３０の出力とし、出力をクラス（仮推定値）とする識別器が生成される。このとき、処理部１４１は、話者特徴と第一の属性情報とを用いて、上述のように例えば“５”刻みのクラスで示される仮推定値を算出する。

　処理部１４２は、音声信号に係る話者特徴と、話者の属性値と、属性値が含まれるクラスとが関連付けられた学習データを学習する。学習により、入力を話者特徴、当該話者特徴を入力した処理部１４１の出力（仮推定値）および第一の属性情報とし、出力を推定結果である第二の属性情報（属性値）とする識別器が生成される。

　処理部１４２は、話者特徴と第一の属性情報と処理部１４１の出力である仮推定値とを用いて、連続値の推定値を算出する。処理部１４２は、また、処理部１４１が算出した仮推定値を用いて、処理部１４１が定めた属性値の範囲よりも狭く定めたクラスを離散値として算出し、出力してもよい。

　このように、第二の属性識別部１４０は、第一の属性識別部１３０が定めた属性値の範囲よりも、属性値の範囲を狭く（細かく）定めてクラスを推定する。あるいは、第二の属性識別部１４０は、属性値を連続値として推定する。したがって、第二の属性識別部１４０は、真の値を出力しうる機能を備えているといえる。また、音声処理装置１００は、複数の属性識別部を内包するが、第二の属性識別部１４０が最終的な推定値を算出するため、単一の推定値を算出することができる。　このように、音声処理装置１００において、第二の属性識別部１４０が、話者特徴に加え、第一の属性識別部１３０が出力した第一の属性情報を用いて属性情報を算出することにより、精度の高い属性推定結果を出力することができる。

　なお、上記では、第一の属性識別部１３０は、１つの属性情報を出力することを説明したが、第一の属性識別部１３０は、複数の属性情報を出力してもよい。図５は、第一の属性識別部１３０が出力する第一の属性情報の他の例について説明する図である。図５に示すように、第一の属性識別部１３０は、推定する属性の取りうる値の範囲に基づいて、互いに異なる値の範囲を含むクラスを定めて、それぞれに関する推定値を算出し、出力してもよい。第一の属性識別部１３０は、例えば、上記のＣ１～Ｃ３とは異なる値の範囲として、図５に示すように、例えば、“１０”～“３０”を含むクラスをＤ１、”３１”～”５０”を含むクラスをＤ２、”５１”～”６０”を含むクラスをＤ３、とそれぞれ定める。第一の属性識別部１３０は、上記と同様に、クラスＤ１～Ｄ３をスコア化し、各スコアを値に持つベクトルを、ベクトルＶ１と共に出力する。図５に示す例では、第一の属性識別部１３０は、ベクトルV１＝（０．１、０．７、０．２）およびベクトルＶ３＝（０．５、０．４、０．１）を出力する。第一の属性識別部１３０が用いる識別器がニューラルネットワークである場合は、クラスＣ１～Ｃ３とクラスＤ１～Ｄ３にそれぞれ対応する２つの出力層を有する１つの識別器として、第一の属性識別部１３０を構成してもよい。

　第一の属性識別部１３０は、このように、推定する属性の取りうる値の範囲の分け方が異なるように複数のクラスを定めることにより、属性識別の精度を高めることができる。例えば、属性の値が上記のクラスＣ１～Ｃ３のいずれに含まれるかを識別する場合において、”２１”～”４０”が含まれるクラスＣ２に着目する。この場合、Ｃ２に含まれる値の範囲の中央に近い”３０”とくらべて、境界に近い”２１”および”４０”の識別精度は低くなる。すなわち、“２１”はクラスＣ１とＣ２、“４０”はクラスＣ２とＣ３のいずれか正しくないクラスに識別される虞がある。そこで、“２１”および“４０”のような境界に近い値が中央に近くなるような値の範囲として、上述のように、別途クラスＤ１～Ｄ３を定める。すなわち、第一の属性識別部１３０は、属性の値の範囲の境界値が異なるように２通り以上に分割し、それぞれの分割において属性の値の範囲を識別する。これにより、クラスＣ１～Ｃ３における境界に近い値も、中央に近い値と同様に識別できるので、識別精度を高めることができる。

　以上述べたように、本実施形態にかかる音声処理装置１００において、第一の属性識別部１３０が、第一の属性情報として属性の値を粗く推定し、第二の属性識別部１４０が、第一の属性情報を用いて属性の値を詳細に推定する。これにより、本実施形態によれば、音声信号に対して、属性値を精度よく推定できる。すなわち、本実施形態にかかる音声処理装置１００は、人物の属性識別の精度を高めることができる。
＜第１の実施形態の動作＞
　次に、第１の実施形態における音声処理装置１００の動作について、図６のフローチャートを用いて説明する。図６は、音声処理装置１００の動作の一例を示すフローチャートである。

　音声処理装置１００は、外部から１つ以上の音声信号を受け取り、音声区間検出部１１０に提供する。音声区間検出部１１０は、受け取った音声信号を区分化し、区分化音声信号を話者特徴算出部１２０に出力する（ステップＳ１０１）。

　話者特徴算出部１２０は、受け取った１つ以上の区分化音声信号それぞれについて、話者特徴を算出する（ステップＳ１０２）。

　第一の属性識別部１３０は、受け取った１つ以上の話者特徴に基づいて、第一の属性情報を識別して出力する（ステップＳ１０３）。

　第二の属性識別部１４０は、受け取った１つ以上の話者特徴、および、第一の属性情報に基づいて、第二の属性情報を識別して出力する（ステップＳ１０４）。音声処理装置１００は、外部からの音声信号の受理が終了したら、一連の処理を終了する。
＜第１の実施形態の効果＞
　以上、説明したように、本実施形態にかかる音声処理装置１００によれば、人物の属性識別の精度を高めることができる。なぜならば、音声処理装置１００は、第一の属性識別部１３０が粗く推定した第一の属性情報を用いて、第二の属性識別部１４０がより詳細に属性情報を推定して出力するからである。

　このように、本実施形態にかかる音声処理装置１００によれば、人物の属性識別を段階的に詳細化しながら算出するという計算方式により、属性のとりうる値によらず一定の精度で推定値を求めることができる。

　第１の実施形態における音声処理装置１００は、音声信号から特定の属性情報を識別する属性識別装置の一例である。音声処理装置１００は、特定の属性情報が話者の年齢であるとき、年齢識別装置として利用可能である。属性情報は、話者の性別を示す情報、話者の年齢層を示す情報、話者の体格を示す情報であってもよい。

　音声処理装置１００は、特定の属性情報が話者の発話時の感情を示す情報であるとき、感情識別装置として利用可能である。また、音声処理装置１００は、例えば蓄積された複数の音声信号に対して、感情特徴を用いて推定した感情情報に基づいて、特定の感情に対応する音声信号を特定する機構を備える音声検索装置または音声表示装置の一部としても利用可能である。感情情報には、例えば、感情表現を示す情報、発話者の性格を示す情報等が含まれる。

　＜第２の実施形態＞
　本発明の最小構成の実施形態について説明する。

　図７は、本発明の最小構成の実施形態に係る属性識別装置１００の機能構成を示すブロック図である。図７に示すように、属性識別装置１００は、第一の属性識別部１３０および第二の属性識別部１４０を備える。

　第一の属性識別部１３０は、生体信号に基づき、生体信号から特定の属性の値の範囲である第一の属性情報を識別する。第二の属性識別部１４０は、生体信号および第一の属性情報から特定の属性情報である第二の属性情報を識別する。

　上記構成を採用することにより、第２の実施形態によれば、第二の属性識別部１４０は、第一の属性識別部１３０が出力した第一の属性情報を入力として用いるので、人物の属性識別の精度をより高めることができるという効果が得られる。

　以上、実施形態を用いて本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をすることができる。すなわち、本発明は、以上の実施形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

　以上のように、本発明の一態様における音声処理装置等は、人物の属性識別の精度を高めることができるという効果を有しており、音声処理装置等および属性識別装置として有用である。

　１００　　音声処理装置
　１１０　　　音声区間検出部
　１２０　　　話者特徴算出部
　１３０　　　第一の属性識別部
　１４０　　　第二の属性識別部

Claims

　生体信号に基づき、前記生体信号から特定の属性の値の範囲である第一の属性情報を識別する第一の属性識別手段と、
　前記生体信号および前記第一の属性情報から特定の属性情報である第二の属性情報を識別する第二の属性識別手段と
　を備える属性識別装置。
　前記第二の属性識別手段は、前記第二の属性情報として、
　特定の属性の値、あるいは、前記第一の属性識別手段よりも限定した属性の値の範囲、の少なくともいずれかひとつを識別する
　請求項１に記載の属性識別装置。
　前記第一の属性識別手段は、前記第一の属性情報として、
　属性の値の範囲の境界値が異なるように２通り以上に分割し、それぞれの分割において属性の値の範囲を識別する、
　請求項１または２に記載の属性識別装置。
　前記第二の属性識別手段は、
　前記生体信号および前記第一の属性情報から属性の値の範囲を仮属性情報として識別し、
　前記生体信号および前記仮属性情報から前記第二の属性情報を識別する、
　請求項１ないし請求項３のいずれか１項に記載の属性識別装置。
　前記生体信号である、音声を表す音声信号に基づき、話者の個人性を表す話者特徴を算出する話者特徴算出手段をさらに備え、
　前記第一の属性識別手段は、前記話者特徴から、前記第一の属性情報を識別し、
　前記第二の属性識別手段は、前記話者特徴および前記第一の属性情報から前記第二の属性情報を識別する

　請求項１ないし請求項４のいずれか１項に記載の属性識別装置。
　前記特定の属性情報は、
　前記生体信号から識別される人物の年齢、性別、体格、感情および性格の少なくともいずれかひとつを表す情報である
　請求項１ないし請求項５のいずれか１項に記載の属性識別装置。
　生体信号に基づき、前記生体信号から特定の属性の値の範囲である第一の属性情報を識別し、
　前記生体信号および前記第一の属性情報から特定の属性情報である第二の属性情報を識別する
　属性識別方法。
　生体信号に基づき、前記生体信号から特定の属性の値の範囲である第一の属性情報を識別する処理と、
　前記生体信号および前記第一の属性情報から特定の属性情報である第二の属性情報を識別する処理と
　を、コンピュータに実行させるプログラムを記録するプログラム記録媒体。