JPWO2020003534A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2020003534A5
JPWO2020003534A5 JP2020568354A JP2020568354A JPWO2020003534A5 JP WO2020003534 A5 JPWO2020003534 A5 JP WO2020003534A5 JP 2020568354 A JP2020568354 A JP 2020568354A JP 2020568354 A JP2020568354 A JP 2020568354A JP WO2020003534 A5 JPWO2020003534 A5 JP WO2020003534A5
Authority
JP
Japan
Prior art keywords
voice
feature amount
frame
utterance
extraction device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020568354A
Other languages
English (en)
Other versions
JP7095756B2 (ja
JP2021526669A (ja
Publication date
Application filed filed Critical
Priority claimed from PCT/JP2018/024933 external-priority patent/WO2020003534A1/en
Publication of JP2021526669A publication Critical patent/JP2021526669A/ja
Publication of JPWO2020003534A5 publication Critical patent/JPWO2020003534A5/ja
Application granted granted Critical
Publication of JP7095756B2 publication Critical patent/JP7095756B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

上記目的を達成するために、本発明の一例における音声特徴量抽出装置は、
入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声事後確率を計算する、音声アクティビティ検出部と、
話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、音声アクティビティ検出処理部と、
前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出部と、
を備えている、ことを特徴とする。
上記目的を達成するために、本発明の一例における音声特徴量抽出方法は、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声事後確率を計算する、ステップと、
(b)発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を有する、ことを特徴とする。
上記目的を達成するために、本発明の一例におけるプログラムは、
コンピュータに、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声事後確率を計算する、ステップと、
(b)発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を実行させる、ことを特徴とする。
VAD部103は、入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声事後確率を計算する。VAD処理部106は、発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する。発話レベル特徴量抽出部112は、関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する。
(付記1)
入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声事後確率を計算する、音声アクティビティ検出部と、
話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、音声アクティビティ検出処理部と、
前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出部と、
を備えている、ことを特徴とする音声特徴量抽出装置。
(付記3)
付記1に記載の音声特徴量抽出装置であって、
非音声フレームを除去し、フレーム毎に音声第2の事後確率を計算する、第2の音声アクティビティ検出部を備え、
前記発話レベル特徴量抽出部は、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出装置。
(付記5)
付記3に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出手段は、ーリングにおける重みを得るため音声アクティビティ検出を、フレームを除去するために利用する、
ことを特徴とする音声特徴量抽出装置。
(付記6)
付記2に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出器訓練手段は、ーリングにおける重みを得るため音声アクティビティ検出、フレームを除去するために利用する、
ことを特徴とする音声特徴量抽出装置。
(付記9)
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声事後確率を計算する、ステップと、
(b)発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を有する、ことを特徴とする音声特徴量抽出方法。
(付記11)
付記9に記載の音声特徴量抽出方法であって、
(e)非音声フレームを除去し、フレーム毎に音声第2の事後確率を計算する、ステップ更に有し、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出方法。
(付記13)
付記11に記載の音声特徴量抽出方法であって、
前記(c)のステップにおいて、ーリングにおける重みを得るため音声アクティビティ検出を、フレームを除去するために利用する、
ことを特徴とする音声特徴量抽出方法。
(付記14)
付記10に記載の音声特徴量抽出方法であって、
前記(d)のステップにおいて、ーリングにおける重みを得るため音声アクティビティ検出、フレームを除去するために利用する、
ことを特徴とする音声特徴量抽出方法。
(付記17)
コンピュータに、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声事後確率を計算する、ステップと、
(b)発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
実行させる、プログラム。
(付記19)
付記17に記載のプログラムであって、
前記コンピュータに、
(e)非音声フレームを除去し、フレーム毎に音声第2の事後確率を計算する、ステップを更に実行させ、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とするプログラム。
(付記21)
付記19に記載のプログラムであって、
前記(c)のステップにおいて、ーリングにおける重みを得るため音声アクティビティ検出を、フレームを除去するために利用する、
ことを特徴とするプログラム。
(付記22)
付記18に記載のプログラムであって、
前記(d)のステップにおいて、ーリングにおける重みを得るため、音声アクティビティ検出、フレームを除去するために利用する、
ことを特徴とするプログラム。

Claims (10)

  1. 入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声事後確率を計算する、音声アクティビティ検出手段と、
    話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、音声アクティビティ検出処理手段と、
    前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出手段と、
    を備えている、ことを特徴とする音声特徴量抽出装置。
  2. 請求項1に記載の音声特徴量抽出装置であって、
    更に、前記音声アクティビティ検出処理手段によって計算された関数値として、複数のフレームレベル特徴量及び重みを用いて、発話レベル特徴量抽出手段を訓練して、発話レベル特徴量抽出器パラメータを生成する、発話レベル特徴量抽出器訓練手段を備えている、
    ことを特徴とする音声特徴量抽出装置。
  3. 請求項1に記載の音声特徴量抽出装置であって、
    非音声フレームを除去し、フレーム毎に音声第2の事後確率を計算する、第2の音声アクティビティ検出手段を備え、
    前記発話レベル特徴量抽出手段は、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
    ことを特徴とする音声特徴量抽出装置。
  4. 請求項2に記載の音声特徴量抽出装置であって、
    前記発話レベル特徴量抽出器訓練手段は、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
    ことを特徴とする音声特徴量抽出装置。
  5. 請求項3に記載の音声特徴量抽出装置であって、
    前記発話レベル特徴量抽出手段は、ーリングにおける重みを得るため音声アクティビティ検出を、フレームを除去するために利用する、
    ことを特徴とする音声特徴量抽出装置。
  6. 請求項2に記載の音声特徴量抽出装置であって、
    前記発話レベル特徴量抽出器訓練手段は、ーリングにおける重みを得るため音声アクティビティ検出、フレームを除去するために利用する、
    ことを特徴とする音声特徴量抽出装置。
  7. 請求項1に記載の音声特徴量抽出装置であって、
    前記音声アクティビティ検出処理手段は、単調に増加し、且つ、非線形である、関数を用い、前記関数は、正規化されたオッズ及び正規化された対数オッズの1つとして定義され、
    前記発話レベル特徴量抽出手段は、特徴量として、iベクトルを抽出する、
    ことを特徴とする音声特徴量抽出装置。
  8. 請求項1に記載の音声特徴量抽出装置であって、
    前記音声アクティビティ検出処理手段は、単調に増加する関数を用い、
    前記発話レベル特徴量抽出手段は、少なくとも1つのプーリング層を有するニューラルネットワークを用いて、特徴量を抽出する、
    ことを特徴とする音声特徴量抽出装置。
  9. (a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声事後確率を計算する、ステップと、
    (b)発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、ステップと、
    (c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
    を有する、ことを特徴とする音声特徴量抽出方法。
  10. コンピュータに、
    (a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声事後確率を計算する、ステップと、
    (b)発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、ステップと、
    (c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
    を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
JP2020568354A 2018-06-29 2018-06-29 音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム Active JP7095756B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/024933 WO2020003534A1 (en) 2018-06-29 2018-06-29 Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium

Publications (3)

Publication Number Publication Date
JP2021526669A JP2021526669A (ja) 2021-10-07
JPWO2020003534A5 true JPWO2020003534A5 (ja) 2022-01-26
JP7095756B2 JP7095756B2 (ja) 2022-07-05

Family

ID=68986169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020568354A Active JP7095756B2 (ja) 2018-06-29 2018-06-29 音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム

Country Status (3)

Country Link
US (1) US11580967B2 (ja)
JP (1) JP7095756B2 (ja)
WO (1) WO2020003534A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3997696A4 (en) * 2019-07-10 2022-08-31 NEC Corporation DEVICE AND METHOD FOR EMBEDDING A LOUDSPEAKER
US11158329B2 (en) * 2019-09-11 2021-10-26 Artificial Intelligence Foundation, Inc. Identification of fake audio content

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006078654A (ja) 2004-09-08 2006-03-23 Embedded System:Kk 音声認証装置及び方法並びにプログラム
CN102222498B (zh) * 2005-10-20 2013-05-01 日本电气株式会社 声音判别系统、声音判别方法以及声音判别用程序
US10403268B2 (en) * 2016-09-08 2019-09-03 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores
WO2018163279A1 (ja) 2017-03-07 2018-09-13 日本電気株式会社 音声処理装置、音声処理方法、および音声処理プログラム
US20180330718A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Research Laboratories, Inc. System and Method for End-to-End speech recognition
US10672388B2 (en) * 2017-12-15 2020-06-02 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for open-vocabulary end-to-end speech recognition

Similar Documents

Publication Publication Date Title
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
JP6553111B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN109256135B (zh) 一种端到端说话人确认方法、装置及存储介质
CN109643552B (zh) 用于可变噪声状况中语音增强的鲁棒噪声估计
JP6169849B2 (ja) 音響処理装置
JP2014145838A (ja) 音響処理装置及び音響処理方法
WO2005124739A1 (ja) 雑音抑圧装置および雑音抑圧方法
JP5752324B2 (ja) 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
KR101998950B1 (ko) 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블
US20140122068A1 (en) Signal processing apparatus, signal processing method and computer program product
CN112242147A (zh) 一种语音增益控制方法及计算机存储介质
JP2011203700A (ja) 音声判別装置
Sreekumar et al. Spectral matching based voice activity detector for improved speaker recognition
US9002030B2 (en) System and method for performing voice activity detection
US10418030B2 (en) Acoustic model training device, acoustic model training method, voice recognition device, and voice recognition method
JP6148150B2 (ja) 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法
CN106297819B (zh) 一种应用于说话人识别的噪声消除方法
JPWO2020003534A5 (ja)
KR100571427B1 (ko) 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
CN108492821B (zh) 一种减弱语音识别中说话人影响的方法
CN113921030B (zh) 一种基于加权语音损失的语音增强神经网络训练方法及装置
JP6106618B2 (ja) 音声区間検出装置、音声認識装置、その方法、及びプログラム
JP6439174B2 (ja) 音声強調装置、および音声強調方法
CN113409812B (zh) 一种语音降噪训练数据的处理方法及其装置、训练方法
George et al. Minimizing the false alarm probability of speaker verification systems for mimicked speech