JPWO2018163279A1 - 音声処理装置、音声処理方法、および音声処理プログラム - Google Patents

音声処理装置、音声処理方法、および音声処理プログラム Download PDF

Info

Publication number
JPWO2018163279A1
JPWO2018163279A1 JP2019504164A JP2019504164A JPWO2018163279A1 JP WO2018163279 A1 JPWO2018163279 A1 JP WO2018163279A1 JP 2019504164 A JP2019504164 A JP 2019504164A JP 2019504164 A JP2019504164 A JP 2019504164A JP WO2018163279 A1 JPWO2018163279 A1 JP WO2018163279A1
Authority
JP
Japan
Prior art keywords
speech
signal
speaker
contribution
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019504164A
Other languages
English (en)
Other versions
JP6845489B2 (ja
Inventor
山本  仁
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2018163279A1 publication Critical patent/JPWO2018163279A1/ja
Application granted granted Critical
Publication of JP6845489B2 publication Critical patent/JP6845489B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

音声処理装置は、音声を表す音声信号に基づき、音声信号の部分区間の品質の程度を表す貢献度を算出する貢献度推定手段と、音声信号の部分区間の貢献度を、部分区間の重みとして用いて、音声信号から特定の属性情報を認識するための認識特徴量を算出する話者特徴算出手段とを備える。

Description

本発明は、音声処理装置、音声処理方法、および音声処理プログラムに関する。
音声信号から、音声を発した話者を特定するための個人性を表す話者特徴を算出する音声処理装置が知られている。また、この話者特徴を用いて、音声信号を発した話者を推定する話者認識装置が知られている。
この種の音声処理装置を用いる話者認識装置は、話者を特定するために、第1の音声信号から抽出した第1の話者特徴と、第2の音声信号から抽出した第2の話者特徴との類似度を評価する。そして、話者認識装置は、類似度の評価結果に基づいて2つの音声信号の話者が同一か否かを判定する。
非特許文献1には、音声信号から話者特徴を抽出する技術が記載されている。非特許文献1に記載の話者特徴抽出技術は、音声モデルを用いて音声信号の音声統計量を算出する。そして、非特許文献1に記載の話者特徴抽出技術は、因子分析技術に基づいてその音声統計量を処理し、所定の要素数で表現される話者特徴ベクトルとして算出する。すなわち、非特許文献1においては、話者特徴ベクトルを話者の個人性を表す話者特徴として利用する。
Najim Dehak, Patrick Kenny, Reda Dehak, Pierre Dumouchel, and Pierre Ouellet, "Front-End Factor Analysis for Speaker Verification," IEEE Transaction on Audio, Speech and Language Processing, Vol. 19, No. 4, pp. 788-798, 2011.
しかしながら、非特許文献1に記載の技術には、抽出した話者特徴を用いる話者認識の精度が十分でないという問題があった。
非特許文献1に記載の技術は、話者特徴抽出装置に入力された音声信号に対して所定の統計処理を行い、話者特徴ベクトルを算出する。具体的には、非特許文献1に記載の技術は、話者特徴抽出装置に入力された音声信号の全体に対して一律の統計処理を行うことにより、話者特徴ベクトルを算出している。そのため、非特許文献1に記載の技術は、音声信号の部分区間に、話者の個人性を算出する元として適切ではない信号が含まれている場合であっても、音声信号の全体から話者特徴ベクトルを算出してしまうので、話者認識の精度を損なうおそれがある。具体的には、音声信号の部分区間に、例えば、話者の不明瞭な発声、話者の咳や笑い声などの話し声とは異なる音、雑音などが混入している場合に、話者認識の精度を損なうおそれがある。
本発明は、上記問題に鑑みてなされたものであり、その目的は、話者認識の精度をより高めた音声処理装置、音声処理方法、および音声処理プログラムを提供することにある。
本発明の第1の態様の音声処理装置は、音声を表す音声信号に基づき、前記音声信号の部分区間の品質の程度を表す貢献度を算出する貢献度推定手段と、前記音声信号の前記部分区間の前記貢献度を、前記部分区間の重みとして用いて、前記音声信号から特定の属性情報を認識するための認識特徴量を算出する話者特徴算出手段とを備える。
本発明の第2の態様の音声処理方法は、音声を表す音声信号に基づき、前記音声信号の部分区間の品質の程度を表す貢献度を算出し、前記音声信号の前記部分区間の前記貢献度を、前記部分区間の重みとして用いて、前記音声信号から特定の属性情報を認識するための認識特徴量を算出する。
本発明の第3の態様の音声処理プログラムは、コンピュータに、音声を表す音声信号に基づき、前記音声信号の部分区間の品質の程度を表す貢献度を算出する処理と、前記音声信号の前記部分区間の前記貢献度を、前記部分区間の重みとして用いて、前記音声信号から特定の属性情報を認識するための認識特徴量を算出する処理とを実行させる。
本発明によれば、話者認識の精度をより高めた音声処理装置、音声処理方法、およびプログラムを提供することができる。
本発明の第1の実施形態に係る音声処理装置の構成を示すブロック図である。 本発明の第1の実施形態に係る音声処理装置の動作の流れを示すフローチャートである。 本発明の第2の実施形態に係る音声処理装置の構成を示すブロック図である。 本発明の第2の実施形態に係る音声処理装置の動作の流れを示すフローチャートである。 本発明の第3の実施形態に係る音声処理装置の構成を示すブロック図である。 本発明のその他の実施形態に係る音声処理装置の構成を示すブロック図である。
以下、音声処理装置等および話者特徴抽出装置の実施形態について、図面を参照して説明する。なお、実施形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
<第1の実施形態>
図1は、本発明の第1の実施形態に係る音声処理装置の構成を示すブロック図である。
音声処理装置100は、貢献度推定部11と、話者特徴算出部12とを備える。
貢献度推定部11は、外部から音声を表す音声信号を受け取る。また、貢献度推定部11は、受けた音声信号に基づき、その音声信号の部分区間の品質の程度を数値で表した貢献度を算出する。
話者特徴算出部12は、貢献度推定部11が算出した音声信号の部分区間の貢献度を、その部分区間の重みとして用いて、音声信号から特定の属性情報を認識するための認識特徴量を算出する。
ここで、特定の属性情報とは、音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、および音声信号から推定される話者の性格等を示す情報である。
図2を参照し、音声処理装置100の動作の流れについて説明する。図2は本発明の第1の実施形態に係る音声処理装置の動作の流れを示すフローチャートである。
まず、貢献度推定部11は、外部から受けた音声信号に基づいて、音声信号の部分区間の貢献度を算出する(ステップS101)。次いで、貢献度推定部11は、算出した音声信号の部分区間の貢献度を話者特徴算出部12に出力する。
次いで、話者特徴算出部12は、貢献度推定部11から受けた貢献度に基づいて、認識特徴量を算出する(ステップS102)。
<第2の実施形態>
図3は、第2の実施形態における音声処理装置200のブロック図である。音声処理装置200は、貢献度推定部11、話者特徴算出部12、音声区間検出部21、および音声統計量算出部22を備える。また、音声処理装置200は、さらに、貢献度記憶部23および貢献度学習部24を備えてもよい。
音声区間検出部21は、外部から音声信号を受け取る。また、音声区間検出部21は、受け取った音声信号に含まれる音声区間を検出して区分化する。この時、音声区間検出部21は、音声信号を一定の長さに区分化してもよいし、異なる長さに区分化してもよい。例えば、音声区間検出部21は、音声信号のうち音量が一定時間継続して所定値より小さい区間を無音と判定し、その区間の前後を異なる音声区間と判定して区分化してもよい。そして、音声区間検出部21は、区分化した結果(音声区間検出部21の処理結果)である区分化音声信号を、貢献度推定部11および音声統計量算出部22に出力する。ここで、音声信号の受け取りとは、例えば、外部の装置または他の処理装置からの音声信号の受信、または他のプログラムからの音声信号処理の処理結果の引き渡しのことである。また、出力とは、例えば、外部の装置や他の処理装置への送信、または他のプログラムへの音声区間検出部21の処理結果の引き渡しのことである。
音声統計量算出部22は、音声区間検出部21から区分化音声信号を受け取る。音声統計量算出部22は、受け取った区分化音声信号に基づいて、該区分化音声信号に含まれる音の種類を表す音声統計量を算出する。ここで、音の種類とは、例えば、言語により定まる音素や単語、音声信号を類似度に基づいてクラスタリングして得られる音のグループである。そして、音声統計量算出部22は、音声統計量を話者特徴算出部12に出力する。以降、ある音声信号に対して算出された音声統計量を、該音声信号の音声統計量と呼ぶ。
音声統計量算出部22が、音声統計量を算出する方法の一例について説明する。具体的には、音声統計量算出部22は、音声区間検出部21から受け取った区分化音声信号に基づいて、該区分化音声信号を周波数分析処理した計算結果で表現される音響特徴を算出し、算出した結果を出力する。例えば、音声統計量算出部22は、音声区間検出部21から受け取った区分化音声信号を、短時間フレーム時系列に変換する。そして、音声統計量算出部22は、短時間フレーム時系列のそれぞれのフレームを周波数分析し、その処理結果を音響特徴として出力する。この場合、音声統計量算出部22は、例えば、短時間フレーム時系列として、25ミリ秒区間のフレームを10ミリ秒ごとに生成する。音声統計量算出部22は、例えば、周波数分析結果である音響特徴として、高速フーリエ変換処理(Fast Fourier Transform;FFT)およびフィルタバンク処理によって得られた周波数フィルタバンク特徴や、さらに加えて離散コサイン変換処理を施して得られたメル周波数ケプストラム係数(Mel−Frequency Cepstrum Coefficients;MFCC)特徴などを算出する。
そして、音声統計量算出部22は、音響特徴の時系列と、音響特徴と音の種類との対応関係を格納する音声モデルを用いて、音の種類を表す数値情報の時系列を算出する。音声統計量算出部22は、例えば、音声モデルがガウス混合モデル(Gaussian Mixture Model;GMM)である場合、ガウス混合モデルが有する各要素分布の平均、分散、および混合係数に基づいて、各要素分布の事後確率を算出する。ここで、各要素分布の事後確率は、音声信号に含まれる音の種類それぞれの出現度である。また、音声統計量算出部22は、例えば、音声モデルがニューラルネットワーク(Neural Network)である場合、音響特徴と、ニューラルネットワークが有する重み係数に基づいて、音声信号に含まれる音の種類の出現度を算出する。
貢献度記憶部23は、1つ以上の貢献度推定器を記憶する。貢献度推定器は、音声信号を信号の品質によって複数の種類に仕分けるよう動作するように構成されるものである。貢献度推定器は、例えば、音声信号の品質を表す数値情報を出力する。信号の品質の種類とは、例えば、音声・非音声・無音である。また、信号の品質の種類とは、例えば、話者認識に正解する音声・話者認識に誤りを起こす音声である。
具体的には、貢献度記憶部23は、貢献度推定器が保有するパラメタを記憶する。貢献度記憶部23は、例えば、貢献度推定器がニューラルネットワークである場合、それを構成するノードの数やノード間の接続重み係数などの一式をパラメタとして記憶する。
なお、図3では、貢献度記憶部23が音声処理装置200内に内蔵されることを例に説明を行ったが、本発明はこれに限定されるものではない。貢献度記憶部23は、音声処理装置200の外部に設けられた記憶装置で実現されるものであってもよい。
貢献度推定部11は、音声区間検出部21から区分化音声信号を受け取る。貢献度推定部11は、貢献度記憶部23に記憶されている貢献度推定器を用いて、区分化音声信号の品質を表す数値情報を算出する。貢献度推定部11は、音声統計量算出部22と同様に、区分化音声信号を短時間フレーム時系列に変換し、それぞれのフレームの音響特徴を算出し、音響特徴の時系列を算出する。続いて、貢献度推定部11は、各フレームの音響特徴と貢献度推定器のパラメタとを用いて、各フレームの品質を表す数値を算出する。以降、ある音声信号に対して算出された信号の品質を表す数値のことを音声信号の貢献度と呼ぶ。
具体的には、貢献度推定部11は、例えば、貢献度推定器がニューラルネットワークである場合、音響特徴と、ニューラルネットワークが有する重み係数とに基づいて、音響特徴の貢献度を算出する。例えば、貢献度推定器がニューラルネットワークであり、その出力層が、2つの信号の品質の種類「話者認識に正解する信号」と「話者認識誤りを起こす信号」とに相当するものであるとする。このとき、貢献度推定器は、音響特徴が話者認識に正解する信号である確率と、音響特徴が話者認識誤りを起こす信号である確率とを算出し、貢献度として、例えば、「話者認識に正解する信号」である確率を出力する。また、貢献度推定部11は、話者認識を実行する前に、音声信号の部分区間が音声か否かを識別して音声である確率を算出してもよい。
話者特徴算出部12は、音声統計量算出部22が出力した音声統計量および貢献度推定部11が出力した貢献度を受け取る。話者特徴算出部12は、音声統計量および貢献度を用いて、音声信号から特定の属性情報を認識するための認識特徴量を算出する。
話者特徴算出部12が音声信号xの認識特徴量としてi−vectorに基づく特徴ベクトルF(x)を算出する方法の一例について説明する。なお、話者特徴算出部12が算出する特徴ベクトルF(x)は、音声信号xに対して所定の演算を施して算出できるベクトルであればよく、i−vectorはその一例である。
話者特徴算出部12は、音声統計量算出部22から、音声信号xの統計量の情報として、例えば、短時間フレームごとに算出された音響事後確率Pt(x)および音響特徴At(x)(t={1…T}、Tは1以上の自然数)とを受け取る。また、話者特徴算出部12は、貢献度推定部11から、音声信号xの貢献度の情報として、例えば、短時間フレームごとに算出された貢献度Ct(x)を受け取る。話者特徴算出部12は、以下の式(1)のように、音響事後確率Pt(x)の各要素に対して、貢献度Ct(x)をかけて、その結果をQt(x)として算出する。
Figure 2018163279
話者特徴算出部12は、貢献度によって重みづけされた音響事後確率Qt(x)および音響特徴At(x)を用いて、以下の式(2)に基づいて音声信号xの0次統計量S0(x)を算出し、式(3)に基づいて1次統計量S1(x)を算出する。
Figure 2018163279
Figure 2018163279
話者特徴抽出部14は、続いて、以下の式(4)に基づいて音声信号xのi−vectorであるF(x)を算出する。
Figure 2018163279
式(1)〜式(4)において、Cは統計量S0(x)およびS1(x)の要素数、Dは音響特徴At(x)の要素数(次元数)、mcは音響特徴空間におけるc番目の領域の音響特徴の平均ベクトル、Iは単位行列、0は零行列を表す。Tはi−vector計算用のパラメタであり、Σは音響特徴空間における音響特徴の共分散行列である。
話者特徴算出部12が上述の手順で特徴ベクトルF(x)を算出する際に、音声信号xのすべての時刻t(t={1…T}、Tは1以上の自然数)において、その貢献度Ct(x)が1であれば、非特許文献1に記載のi−vector算出手順と等価である。本実施形態において、話者特徴算出部12は、貢献度推定部11が音声信号xの時刻tに応じて推定した貢献度Ct(x)を用いることにより、非特許文献1に記載のi−vectorとは異なる特徴ベクトルF(x)を算出できる。
このように、音声処理装置200において、話者特徴算出部12が、音声信号xに対して、該音声信号の各部分区間の品質に応じた貢献度Ct(x)を用いて特徴ベクトルF(x)を算出することにより、音声信号の品質に応じた特徴ベクトルを出力することができる。
貢献度学習部24は、訓練用音声信号を用いて貢献度記憶部23が記憶できる貢献度推定器を学習する。貢献度学習部24は、例えば、貢献度推定器がニューラルネットワークである場合、それを構成するノード間の接続重み係数などのパラメタを、一般的な最適化基準に従って最適化する。貢献度学習部24が使用する訓練用音声信号は、複数の音声信号を集めたものであり、それぞれの音声信号は、貢献度推定部11が出力する信号の品質の種類のいずれかと対応付けられたものである。
以下では、入力が音響特徴であり、出力が「話者認識に正解する音声」および「話者認識に誤りを起こす音声」の2種類の信号の品質である貢献度推定器を貢献度学習部24が学習する方法の一例を説明する。
(a)まず、貢献度学習部24は、話者ラベルつきの複数の音声信号を用いて、音声信号の話者ラベルを識別することのできる識別器を学習する。(b)次に、貢献度学習部24は、話者ラベルつきの複数の音声信号のそれぞれを、短時間フレームごとに算出した音響特徴の時系列に変換し、(a)で学習した識別器を用いて、各フレームの話者ラベルを識別する。(c)次に、貢献度学習部24は、識別された各フレームの話者ラベルのうち、事前に付与された話者ラベルと、識別器が識別した話者ラベルが同一であるフレームを「話者認識に正解する音声」、そうでないフレームを「話者認識に誤りを起こす音声」とする。(d)そして、貢献度学習部24は、「話者認識に正解する音声」および「話者認識に誤りを起こす音声」を訓練用音声信号として、貢献度推定器を学習する。
以上述べたように、本実施形態に係る音声処理装置200において、貢献度推定部11は、音声信号の部分区間に応じた品質を表す指標として、音声信号の貢献度を算出できる。また、話者特徴算出部12は、音声信号の音響統計量と貢献度とに基づいて特徴ベクトルを算出する。これにより、音声信号に対して、音声信号の各部分区間の品質を考慮した特徴ベクトルを出力できる。すなわち、本実施形態にかかる音声処理装置200は、話者認識の精度を高めるのに適した話者特徴を算出できる。
なお、本実施形態に係る音声処理装置200における貢献度記憶部23は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。また、貢献度記憶部23に貢献度推定器が記憶される過程は特に限定されない。例えば、記録媒体を介して貢献度推定器が貢献度記憶部23に記憶されてもよいし、通信回線等を介して送信された貢献度推定器が貢献度記憶部23に記憶されてもよい。または、入力デバイスを介して入力された貢献度推定器が貢献度記憶部23で記憶されてもよい。
(第2の実施形態の動作)
次に、第2の実施形態における音声処理装置200の動作について、図4のフローチャートを用いて説明する。図4は、音声処理装置200の動作の一例を示すフローチャートである。
音声処理装置200は、外部から1つ以上の音声信号を受け取り、音声区間検出部21に提供する。具体的には、音声区間検出部21は、受け取った音声信号を区分化し、区分化音声信号を貢献度推定部11および音声統計量算出部22に出力する(ステップS201)。
音声統計量算出部22は、受け取った1つ以上の区分化音声信号それぞれについて、短時間フレーム分析処理を行い、音響特徴と音声統計量の時系列を算出する(ステップS202)。
貢献度推定部11は、受け取った1つ以上の区分化音声信号のそれぞれについて、短時間分析フレーム処理を行い、貢献度の時系列を算出する(ステップS203)。
話者特徴算出部12は、受け取った1つ以上の音響特徴・音声統計量・貢献度の時系列に基づいて、話者認識特徴量を算出して出力する。(ステップS204)。音声処理装置200は、外部からの音声信号の受理が終了したら、一連の処理を終了する。
(第2の実施形態の効果)
以上、説明したように、本実施形態にかかる音声処理装置200によれば、音声処理装置200が算出した話者特徴を用いる話者認識の精度を高めることができる。なぜならば、音声処理装置200は、貢献度推定部11が音声信号の品質を貢献度として算出し、話者特徴算出部12が貢献度を考慮した特徴ベクトルを算出することで、音声信号の品質の高い部分区間に重きを置いた特徴ベクトルを出力するからである。
このように、本実施形態に係る音声処理装置200は、音声信号に対して、各部分区間の品質に応じた貢献度を考慮した特徴ベクトルを算出する。これにより、音声信号の部分区間に、話者の不明瞭な発声、話者の咳や笑い声などの話し声とは異なる音、雑音などが混入している場合にも、話者認識に適した認識特徴量を求めることができる。
<第3の実施形態>
図5は、本発明の第3の実施形態に係る、音声処理装置の構成の一例を示すブロック図である。
図5に示すように、音声処理装置300は、貢献度推定部11と、話者特徴算出部12と、属性認識部13とを備える。音声処理装置300は、属性情報を認識することのできる音声処理装置である。
貢献度推定部11および話者特徴算出部12については、第1および第2の実施形態と同様なので説明は省略する。
属性認識部13は、話者特徴算出部12から属性情報を認識するための認識特徴量を受け取る。属性認識部13は、認識特徴量に基づいて、音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される発話者の性格等を認識する。具体的には、属性認識部13は、例えば、認識特徴量を比較するための比較用音声データを格納する記憶装置(図示しない)を参照する。この場合、属性認識部13は、認識特徴量と、比較用音声データの類似の度合い等を算出することで、属性情報を認識することができる。
<第3の実施形態の具体例>
次に、本発明の第3の実施形態に係る音声処理装置300の具体的な応用例について説明する。
本発明の第3の実施形態に係る音声処理装置300が算出した話者特徴は、音声信号の話者を推定する話者認識に利用可能である。例えば、第1の音声信号から算出した第1の話者特徴と、第2の音声信号から算出した第2の話者特徴とから、2つの話者特徴の類似性を現す指標として、コサイン類似度を算出する。例えば、話者照合することを目的とする場合は、前記の類似度に基づく照合可否の判定情報を出力してもよい。また、話者識別することを目的とする場合は、第1の音声信号に対して複数の第2の音声信号を用意して各々の類似度を求め、値の大きい組を出力してもよい。
本発明の第3の実施形態に係る音声処理装置300は、音声信号から特定の属性情報を認識するための認識特徴量を算出する特徴算出装置の一例である。音声処理装置300は、特定の属性が音声信号を発した話者であるとき、話者特徴抽出装置として利用可能である。また、音声処理装置300は、例えば文発話の音声信号に対して、当該話者特徴を用いて推定した話者情報に基づいて、当該話者の話し方の特徴に適応化する機構を備える音声認識装置の一部としても利用可能である。また、ここで、話者を示す情報は、話者の性別を示す情報や、話者の年齢あるいは年齢層を示す情報であってもよい。
本発明の第3の実施形態に係る音声処理装置300は、特定の属性を音声信号が伝える言語(音声信号を構成する言語)を示す情報とするとき、言語特徴算出装置として利用可能である。また、音声処理装置200は、例えば文発話の音声信号に対して、当該言語特徴を用いて推定した言語情報に基づいて、翻訳する言語を選択する機構を備える音声翻訳装置の一部としても利用可能である。
本発明の第3の実施形態に係る音声処理装置300は、特定の属性が話者の発話時の感情を示す情報であるとき、感情特徴算出装置として利用可能である。また、音声処理装置300は、例えば蓄積された多数の発話の音声信号に対して、当該感情特徴を用いて推定した感情情報に基づいて、特定の感情に対応する音声信号を特定する機構を備える音声検索装置や音声表示装置の一部としても利用可能である。この感情情報には、例えば、感情表現を示す情報、発話者の性格を示す情報等が含まれる。
以上のように、本実施形態における特定の属性情報は、音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される発話者の性格、の少なくともいずれか一つを表す情報である。
(ハードウエア構成についての説明)
以上、実施形態を用いて本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をすることができる。すなわち、本発明は、以上の実施形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明の一態様における音声処理装置等は、音声信号の品質を考慮した特徴ベクトルを抽出し話者認識の精度を高めることができるという効果を有しており、音声処理装置等および話者認識装置として有用である。なお、本発明において使用者に関する情報を取得、利用する場合は、これを適法に行うものとする。
<その他の実施形態>
音声処理装置は、ハードウエアによって実現してもよいし、ソフトウエアによって実現してもよい。また、音声処理装置は、ハードウエアとソフトウエアの組み合わせによって実現してもよい。
図6は、音声処理装置を構成する情報処理装置(コンピュータ)の一例を示すブロック図である。
図6に示すように、情報処理装置400は、制御部(CPU:Central Processing Unit)410と、記憶部420と、ROM(Read Only Memory)430と、RAM(Random Access Memory)440と、通信インターフェース450と、ユーザインターフェース460とを備えている。
制御部(CPU)410は、記憶部420またはROM430に格納されたプログラムをRAM440に展開して実行することで、商品登録装置および商品精算装置の各種の機能を実現することができる。また、制御部(CPU)410は、データ等を一時的に格納できる内部バッファを備えていてもよい。
記憶部420は、各種のデータを保持できる大容量の記憶媒体であって、HDD(Hard Disc Drive)、およびSSD(Solid State Drive)等の記憶媒体で実現することができる。また、記憶部420は、情報処理装置400が通信インターフェース250を介して通信ネットワークと接続されている場合には、通信ネットワーク上に存在するクラウドストレージであってもよい。また、記憶部420は、制御部(CPU)410が読み取り可能なプログラムを保持していてもよい。
ROM430は、記憶部420と比べると小容量なフラッシュメモリ等で構成できる不揮発性の記憶装置である。また、ROM430は、制御部(CPU)410が読み取り可能なプログラムを保持していてもよい。なお、制御部(CPU)410が読み取り可能なプログラムは、記憶部420およびROM430の少なくとも一方が保持していればよい。
なお、制御部(CPU)410が読み取り可能なプログラムは、コンピュータが読み取り可能な様々な記憶媒体に非一時的に格納した状態で、情報処理装置400に供給してもよい。このような記憶媒体は、例えば、磁気テープ、磁気ディスク、光磁気ディスク、CD−ROM、CD−R、CD−R/W、半導体メモリである。
RAM440は、DRAM(Dynamic Random Access Memory)及びSRAM(Static Random Access Memory)等の半導体メモリであり、データ等を一時的に格納する内部バッファとして用いることができる。
通信インターフェース450は、有線または無線を介して、情報処理装置400と、通信ネットワークとを接続するインターフェースである。
ユーザインターフェース460は、例えば、ディスプレイ等の表示部、およびキーボード、マウス、タッチパネル等の入力部である。
上記の実施の形態の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。
[付記1]
音声を表す音声信号に基づき、前記音声信号の部分区間の品質の程度を表す貢献度を算出する貢献度推定手段と、
前記音声信号の前記部分区間の前記貢献度を、前記部分区間の重みとして用いて、前記音声信号から特定の属性情報を認識するための認識特徴量を算出する話者特徴算出手段とを備える、音声処理装置。
[付記2]
前記音声信号に含まれる音の種類の比率を表す音声統計量を算出する音声統計量算出手段をさらに備え、
前記話者特徴算出手段は、前記音声信号の前記音声統計量と、前記音声信号の前記貢献度とに基づいて、前記認識特徴量を算出する、付記1に記載の音声処理装置。
[付記3]
前記貢献度推定手段は、前記音声信号の前記貢献度として、
前記音声信号の一部が音声か否かを識別して算出した音声らしさを表す値、前記音声信号の一部が話者認識に正解する音声か否かを識別して算出した話者認識の正解しやすさを表す値、前記音声信号の一部が話者認識誤りを起こす音声か否かを識別して算出した話者認識の誤りやすさを表す値の少なくともいずれかひとつを算出する、付記1または2に記載の音声処理装置。
[付記4]
前記貢献度推定手段は、
ニューラルネットワークを用いて前記音声信号の前記貢献度を算出する、付記3に記載の音声処理装置。
[付記5]
前記話者特徴算出手段は、
前記認識特徴として i-vector を算出する、付記3または4に記載の音声処理装置。
[付記6]
前記話者認識特徴量に基づいて前記属性情報を認識する属性認識手段を備える、付記1〜5のいずれか1つに記載の音声処理装置。
[付記7]
前記特定の属性情報は、
音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格の少なくともいずれか1つを表す情報である、付記1〜6のいずれか1つに記載の音声処理装置。
[付記8]
音声を表す音声信号に基づき、前記音声信号の部分区間の品質の程度を表す貢献度を算出し、
前記音声信号の前記部分区間の前記貢献度を、前記部分区間の重みとして用いて、前記音声信号から特定の属性情報を認識するための認識特徴量を算出する、音声処理方法。
[付記9]
前記音声信号に含まれる音の種類の比率を表す音声統計量をさらに算出し、
前記音声信号の前記音声統計量と、前記音声信号の前記貢献度とに基づいて、前記認識特徴量を算出する、付記8に記載の音声処理方法。
[付記10]
前記音声信号の前記貢献度として、
前記音声信号の一部が音声か否かを識別して算出した音声らしさを表す値、前記音声信号の一部が話者認識に正解する音声か否かを識別して算出した話者認識の正解しやすさを表す値、前記音声信号の一部が話者認識誤りを起こす音声か否かを識別して算出した話者認識の誤りやすさを表す値の少なくともいずれかひとつを算出する、付記8または9に記載の音声処理方法。
[付記11]
ニューラルネットワークを用いて前記音声信号の前記貢献度を算出する、付記10に記載の音声処理方法。
[付記12]
前記認識特徴として i-vector を算出する、付記10または11に記載の音声処理方法。
[付記13]
前記話者認識特徴量に基づいて前記属性情報を認識する、付記8〜12のいずれか1つに記載の音声処理方法。
[付記14]
前記特定の属性情報は、
音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格の少なくともいずれか1つを表す情報である、付記8〜13のいずれか1つに記載の音声処理方法。
[付記15]
コンピュータに、
音声を表す音声信号に基づき、前記音声信号の部分区間の品質の程度を表す貢献度を算出する処理と、
前記音声信号の前記部分区間の前記貢献度を、前記部分区間の重みとして用いて、前記音声信号から特定の属性情報を認識するための認識特徴量を算出する処理とを実行させる、音声処理プログラム。
[付記16]
前記コンピュータに、
前記音声信号に含まれる音の種類の比率を表す音声統計量をさらに算出する処理と、
前記音声信号の前記音声統計量と、前記音声信号の前記貢献度とに基づいて、前記認識特徴量を算出する処理とを実行させる、付記15に記載の音声処理方法。
[付記17]
前記コンピュータに、
前記音声信号の前記貢献度として、
前記音声信号の一部が音声か否かを識別して算出した音声らしさを表す値、前記音声信号の一部が話者認識に正解する音声か否かを識別して算出した話者認識の正解しやすさを表す値、および前記音声信号の一部が話者認識誤りを起こす音声か否かを識別して算出した話者認識の誤りやすさを表す値の少なくともいずれかひとつを算出する処理を実行させる、付記15または16に記載の音声処理プログラム。
[付記18]
前記コンピュータに、
ニューラルネットワークを用いて前記音声信号の前記貢献度を算出する処理を実行させる、付記17に記載の音声処理プログラム。
[付記19]
前記コンピュータに、
前記認識特徴として i-vector を算出する処理を実行させる、付記17または18に記載の音声処理プログラム。
[付記20]
前記コンピュータに、
前記話者認識特徴量に基づいて前記属性情報を認識する処理を実行させる、付記15〜19のいずれか1つに記載の音声処理プログラム。
[付記21]
前記特定の属性情報は、
音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格の少なくともいずれか1つを表す情報である、付記8〜13のいずれか1つに記載の音声処理プログラム。
11・・・貢献度推定部
12・・・話者特徴算出部
13・・・属性認識部
21・・・音声区間検出部
22・・・音声統計量算出部
23・・・貢献度記憶部
24・・・貢献度学習部
100,200,300・・・音声処理装置
400・・・情報処理装置
410・・・制御部(CPU)
420・・・記憶部
430・・・ROM
440・・・RAM
450・・・通信インターフェース
460・・・ユーザインターフェース

Claims (10)

  1. 音声を表す音声信号に基づき、前記音声信号の部分区間の品質の程度を表す貢献度を算出する貢献度推定手段と、
    前記音声信号の前記部分区間の前記貢献度を、前記部分区間の重みとして用いて、前記音声信号から特定の属性情報を認識するための認識特徴量を算出する話者特徴算出手段とを備える、音声処理装置。
  2. 前記音声信号に含まれる音の種類の比率を表す音声統計量を算出する音声統計量算出手段をさらに備え、
    前記話者特徴算出手段は、前記音声信号の前記音声統計量と、前記音声信号の前記貢献度とに基づいて、前記認識特徴量を算出する、請求項1に記載の音声処理装置。
  3. 前記貢献度推定手段は、前記音声信号の前記貢献度として、
    前記音声信号の一部が音声か否かを識別して算出した音声らしさを表す値、前記音声信号の一部が話者認識に正解する音声か否かを識別して算出した話者認識の正解しやすさを表す値、前記音声信号の一部が話者認識誤りを起こす音声か否かを識別して算出した話者認識の誤りやすさを表す値の少なくともいずれかひとつを算出する、請求項1または2に記載の音声処理装置。
  4. 前記貢献度推定手段は、
    ニューラルネットワークを用いて前記音声信号の前記貢献度を算出する、請求項3に記載の音声処理装置。
  5. 前記話者特徴算出手段は、
    前記認識特徴として i-vector を算出する、請求項3または4に記載の音声処理装置。
  6. 前記話者認識特徴量に基づいて前記属性情報を認識する属性認識手段を備える、請求項1〜5のいずれか1項に記載の音声処理装置。
  7. 前記特定の属性情報は、
    音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格の少なくともいずれか1つを表す情報である、請求項1〜6のいずれか1項に記載の音声処理装置。
  8. 音声を表す音声信号に基づき、前記音声信号の部分区間の品質の程度を表す貢献度を算出し、
    前記音声信号の前記部分区間の前記貢献度を、前記部分区間の重みとして用いて、前記音声信号から特定の属性情報を認識するための認識特徴量を算出する、音声処理方法。
  9. 前記音声信号に含まれる音の種類の比率を表す音声統計量をさらに算出し、
    前記音声信号の前記音声統計量と、前記音声信号の前記貢献度とに基づいて、前記認識特徴量を算出する、請求項8に記載の音声処理方法。
  10. コンピュータに、
    音声を表す音声信号に基づき、前記音声信号の部分区間の品質の程度を表す貢献度を算出する処理と、
    前記音声信号の前記部分区間の前記貢献度を、前記部分区間の重みとして用いて、前記音声信号から特定の属性情報を認識するための認識特徴量を算出する処理とを実行させる、音声処理プログラム。

JP2019504164A 2017-03-07 2017-03-07 音声処理装置、音声処理方法、および音声処理プログラム Active JP6845489B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/008979 WO2018163279A1 (ja) 2017-03-07 2017-03-07 音声処理装置、音声処理方法、および音声処理プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021029416A Division JP7216348B2 (ja) 2021-02-26 2021-02-26 音声処理装置、音声処理方法、および音声処理プログラム

Publications (2)

Publication Number Publication Date
JPWO2018163279A1 true JPWO2018163279A1 (ja) 2019-11-07
JP6845489B2 JP6845489B2 (ja) 2021-03-17

Family

ID=63448131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019504164A Active JP6845489B2 (ja) 2017-03-07 2017-03-07 音声処理装置、音声処理方法、および音声処理プログラム

Country Status (3)

Country Link
US (2) US11250860B2 (ja)
JP (1) JP6845489B2 (ja)
WO (1) WO2018163279A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018163279A1 (ja) * 2017-03-07 2018-09-13 日本電気株式会社 音声処理装置、音声処理方法、および音声処理プログラム
WO2020003534A1 (en) 2018-06-29 2020-01-02 Nec Corporation Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium
JP7159655B2 (ja) * 2018-07-09 2022-10-25 富士フイルムビジネスイノベーション株式会社 感情推定システムおよびプログラム
US20220093086A1 (en) * 2020-09-18 2022-03-24 Prama, Inc. Method and a system for capturing conversations

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
JP4408205B2 (ja) 2003-05-16 2010-02-03 東芝テック株式会社 話者認識装置
WO2007086042A2 (en) * 2006-01-25 2007-08-02 Nice Systems Ltd. Method and apparatus for segmentation of audio interactions
JPWO2012020591A1 (ja) 2010-08-09 2013-10-28 日本電気株式会社 個体識別システム、特徴量特定装置、特徴量特定方法およびプログラム
US8731936B2 (en) 2011-05-26 2014-05-20 Microsoft Corporation Energy-efficient unobtrusive identification of a speaker
DK2797078T3 (en) * 2013-04-26 2017-01-23 Agnitio S L Assessment of reliability in speech recognition
JP6246636B2 (ja) 2014-03-20 2017-12-13 株式会社東芝 パターン識別装置、パターン識別方法およびプログラム
JP6464650B2 (ja) 2014-10-03 2019-02-06 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
US9875742B2 (en) * 2015-01-26 2018-01-23 Verint Systems Ltd. Word-level blind diarization of recorded calls with arbitrary number of speakers
US10529328B2 (en) * 2015-06-22 2020-01-07 Carnegie Mellon University Processing speech signals in voice-based profiling
US10242677B2 (en) * 2015-08-25 2019-03-26 Malaspina Labs (Barbados), Inc. Speaker dependent voiced sound pattern detection thresholds
WO2018163279A1 (ja) * 2017-03-07 2018-09-13 日本電気株式会社 音声処理装置、音声処理方法、および音声処理プログラム

Also Published As

Publication number Publication date
US20210134300A1 (en) 2021-05-06
US20220101859A1 (en) 2022-03-31
JP6845489B2 (ja) 2021-03-17
US11250860B2 (en) 2022-02-15
WO2018163279A1 (ja) 2018-09-13
US11837236B2 (en) 2023-12-05

Similar Documents

Publication Publication Date Title
US11900947B2 (en) Method and system for automatically diarising a sound recording
US9536525B2 (en) Speaker indexing device and speaker indexing method
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
JP5229219B2 (ja) 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
JP6246636B2 (ja) パターン識別装置、パターン識別方法およびプログラム
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
JP2017032857A (ja) 音声処理装置及び音声処理方法
JP2016180839A (ja) 雑音抑圧音声認識装置およびそのプログラム
JP7160095B2 (ja) 属性識別装置、属性識別方法、およびプログラム
JP6676009B2 (ja) 話者判定装置、話者判定情報生成方法、プログラム
WO2019107170A1 (ja) 緊急度推定装置、緊急度推定方法、プログラム
JP2013182261A (ja) 適応化装置、音声認識装置、およびそのプログラム
Soni et al. Text-dependent speaker verification using classical LBG, adaptive LBG and FCM vector quantization
JP5473116B2 (ja) 音声認識装置およびその特徴量正規化方法
JP7107377B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP7216348B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JP5749186B2 (ja) 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
WO2022249450A1 (ja) 学習方法、検出方法、それらの装置、およびプログラム
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
JP2001109491A (ja) 連続音声認識装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210209

R150 Certificate of patent or registration of utility model

Ref document number: 6845489

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150