JPWO2020003534A5 - - Google Patents
Download PDFInfo
- Publication number
- JPWO2020003534A5 JPWO2020003534A5 JP2020568354A JP2020568354A JPWO2020003534A5 JP WO2020003534 A5 JPWO2020003534 A5 JP WO2020003534A5 JP 2020568354 A JP2020568354 A JP 2020568354A JP 2020568354 A JP2020568354 A JP 2020568354A JP WO2020003534 A5 JPWO2020003534 A5 JP WO2020003534A5
- Authority
- JP
- Japan
- Prior art keywords
- voice
- feature amount
- frame
- utterance
- extraction device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Description
上記目的を達成するために、本発明の一例における音声特徴量抽出装置は、
入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声の事後確率を計算する、音声アクティビティ検出部と、
発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、音声アクティビティ検出処理部と、
前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出部と、
を備えている、ことを特徴とする。
入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声の事後確率を計算する、音声アクティビティ検出部と、
発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、音声アクティビティ検出処理部と、
前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出部と、
を備えている、ことを特徴とする。
上記目的を達成するために、本発明の一例における音声特徴量抽出方法は、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声の事後確率を計算する、ステップと、
(b)発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を有する、ことを特徴とする。
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声の事後確率を計算する、ステップと、
(b)発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を有する、ことを特徴とする。
上記目的を達成するために、本発明の一例におけるプログラムは、
コンピュータに、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声の事後確率を計算する、ステップと、
(b)発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を実行させる、ことを特徴とする。
コンピュータに、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声の事後確率を計算する、ステップと、
(b)発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を実行させる、ことを特徴とする。
VAD部103は、入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声の事後確率を計算する。VAD処理部106は、発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する。発話レベル特徴量抽出部112は、関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する。
(付記1)
入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声の事後確率を計算する、音声アクティビティ検出部と、
発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、音声アクティビティ検出処理部と、
前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出部と、
を備えている、ことを特徴とする音声特徴量抽出装置。
入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声の事後確率を計算する、音声アクティビティ検出部と、
発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、音声アクティビティ検出処理部と、
前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出部と、
を備えている、ことを特徴とする音声特徴量抽出装置。
(付記3)
付記1に記載の音声特徴量抽出装置であって、
非音声フレームを除去し、フレーム毎に音声の第2の事後確率を計算する、第2の音声アクティビティ検出部を備え、
前記発話レベル特徴量抽出部は、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出装置。
付記1に記載の音声特徴量抽出装置であって、
非音声フレームを除去し、フレーム毎に音声の第2の事後確率を計算する、第2の音声アクティビティ検出部を備え、
前記発話レベル特徴量抽出部は、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出装置。
(付記5)
付記3に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出手段は、プーリングにおける重みを得るための音声アクティビティ検出を、フレームを除去するために利用する、
ことを特徴とする音声特徴量抽出装置。
付記3に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出手段は、プーリングにおける重みを得るための音声アクティビティ検出を、フレームを除去するために利用する、
ことを特徴とする音声特徴量抽出装置。
(付記6)
付記2に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出器訓練手段は、プーリングにおける重みを得るための音声アクティビティ検出を、フレームを除去するために利用する、
ことを特徴とする音声特徴量抽出装置。
付記2に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出器訓練手段は、プーリングにおける重みを得るための音声アクティビティ検出を、フレームを除去するために利用する、
ことを特徴とする音声特徴量抽出装置。
(付記9)
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声の事後確率を計算する、ステップと、
(b)発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を有する、ことを特徴とする音声特徴量抽出方法。
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声の事後確率を計算する、ステップと、
(b)発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を有する、ことを特徴とする音声特徴量抽出方法。
(付記11)
付記9に記載の音声特徴量抽出方法であって、
(e)非音声フレームを除去し、フレーム毎に音声の第2の事後確率を計算する、ステップ更に有し、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出方法。
付記9に記載の音声特徴量抽出方法であって、
(e)非音声フレームを除去し、フレーム毎に音声の第2の事後確率を計算する、ステップ更に有し、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出方法。
(付記13)
付記11に記載の音声特徴量抽出方法であって、
前記(c)のステップにおいて、プーリングにおける重みを得るための音声アクティビティ検出を、フレームを除去するために利用する、
ことを特徴とする音声特徴量抽出方法。
付記11に記載の音声特徴量抽出方法であって、
前記(c)のステップにおいて、プーリングにおける重みを得るための音声アクティビティ検出を、フレームを除去するために利用する、
ことを特徴とする音声特徴量抽出方法。
(付記14)
付記10に記載の音声特徴量抽出方法であって、
前記(d)のステップにおいて、プーリングにおける重みを得るための音声アクティビティ検出を、フレームを除去するために利用する、
ことを特徴とする音声特徴量抽出方法。
付記10に記載の音声特徴量抽出方法であって、
前記(d)のステップにおいて、プーリングにおける重みを得るための音声アクティビティ検出を、フレームを除去するために利用する、
ことを特徴とする音声特徴量抽出方法。
(付記17)
コンピュータに、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声の事後確率を計算する、ステップと、
(b)発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
実行させる、プログラム。
コンピュータに、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声の事後確率を計算する、ステップと、
(b)発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
実行させる、プログラム。
(付記19)
付記17に記載のプログラムであって、
前記コンピュータに、
(e)非音声フレームを除去し、フレーム毎に音声の第2の事後確率を計算する、ステップを更に実行させ、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とするプログラム。
付記17に記載のプログラムであって、
前記コンピュータに、
(e)非音声フレームを除去し、フレーム毎に音声の第2の事後確率を計算する、ステップを更に実行させ、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とするプログラム。
(付記21)
付記19に記載のプログラムであって、
前記(c)のステップにおいて、プーリングにおける重みを得るための音声アクティビティ検出を、フレームを除去するために利用する、
ことを特徴とするプログラム。
付記19に記載のプログラムであって、
前記(c)のステップにおいて、プーリングにおける重みを得るための音声アクティビティ検出を、フレームを除去するために利用する、
ことを特徴とするプログラム。
(付記22)
付記18に記載のプログラムであって、
前記(d)のステップにおいて、プーリングにおける重みを得るための、音声アクティビティ検出を、フレームを除去するために利用する、
ことを特徴とするプログラム。
付記18に記載のプログラムであって、
前記(d)のステップにおいて、プーリングにおける重みを得るための、音声アクティビティ検出を、フレームを除去するために利用する、
ことを特徴とするプログラム。
Claims (10)
- 入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声の事後確率を計算する、音声アクティビティ検出手段と、
発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、音声アクティビティ検出処理手段と、
前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出手段と、
を備えている、ことを特徴とする音声特徴量抽出装置。 - 請求項1に記載の音声特徴量抽出装置であって、
更に、前記音声アクティビティ検出処理手段によって計算された関数値として、複数のフレームレベル特徴量及び重みを用いて、発話レベル特徴量抽出手段を訓練して、発話レベル特徴量抽出器パラメータを生成する、発話レベル特徴量抽出器訓練手段を備えている、
ことを特徴とする音声特徴量抽出装置。 - 請求項1に記載の音声特徴量抽出装置であって、
非音声フレームを除去し、フレーム毎に音声の第2の事後確率を計算する、第2の音声アクティビティ検出手段を備え、
前記発話レベル特徴量抽出手段は、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出装置。 - 請求項2に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出器訓練手段は、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出装置。 - 請求項3に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出手段は、プーリングにおける重みを得るための音声アクティビティ検出を、フレームを除去するために利用する、
ことを特徴とする音声特徴量抽出装置。 - 請求項2に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出器訓練手段は、プーリングにおける重みを得るための音声アクティビティ検出を、フレームを除去するために利用する、
ことを特徴とする音声特徴量抽出装置。 - 請求項1に記載の音声特徴量抽出装置であって、
前記音声アクティビティ検出処理手段は、単調に増加し、且つ、非線形である、関数を用い、前記関数は、正規化されたオッズ及び正規化された対数オッズの1つとして定義され、
前記発話レベル特徴量抽出手段は、特徴量として、iベクトルを抽出する、
ことを特徴とする音声特徴量抽出装置。 - 請求項1に記載の音声特徴量抽出装置であって、
前記音声アクティビティ検出処理手段は、単調に増加する関数を用い、
前記発話レベル特徴量抽出手段は、少なくとも1つのプーリング層を有するニューラルネットワークを用いて、特徴量を抽出する、
ことを特徴とする音声特徴量抽出装置。 - (a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声の事後確率を計算する、ステップと、
(b)発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を有する、ことを特徴とする音声特徴量抽出方法。 - コンピュータに、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声の事後確率を計算する、ステップと、
(b)発話レベルの特徴量を生成するために、フレームをプーリングする際の重みとして、与えられた音声アクティビティ検出のための事後確率から関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/024933 WO2020003534A1 (en) | 2018-06-29 | 2018-06-29 | Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2021526669A JP2021526669A (ja) | 2021-10-07 |
JPWO2020003534A5 true JPWO2020003534A5 (ja) | 2022-01-26 |
JP7095756B2 JP7095756B2 (ja) | 2022-07-05 |
Family
ID=68986169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020568354A Active JP7095756B2 (ja) | 2018-06-29 | 2018-06-29 | 音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11580967B2 (ja) |
JP (1) | JP7095756B2 (ja) |
WO (1) | WO2020003534A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3997696A4 (en) * | 2019-07-10 | 2022-08-31 | NEC Corporation | DEVICE AND METHOD FOR EMBEDDING A LOUDSPEAKER |
US11158329B2 (en) * | 2019-09-11 | 2021-10-26 | Artificial Intelligence Foundation, Inc. | Identification of fake audio content |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006078654A (ja) | 2004-09-08 | 2006-03-23 | Embedded System:Kk | 音声認証装置及び方法並びにプログラム |
CN102222498B (zh) * | 2005-10-20 | 2013-05-01 | 日本电气株式会社 | 声音判别系统、声音判别方法以及声音判别用程序 |
US10403268B2 (en) * | 2016-09-08 | 2019-09-03 | Intel IP Corporation | Method and system of automatic speech recognition using posterior confidence scores |
WO2018163279A1 (ja) | 2017-03-07 | 2018-09-13 | 日本電気株式会社 | 音声処理装置、音声処理方法、および音声処理プログラム |
US20180330718A1 (en) * | 2017-05-11 | 2018-11-15 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for End-to-End speech recognition |
US10672388B2 (en) * | 2017-12-15 | 2020-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for open-vocabulary end-to-end speech recognition |
-
2018
- 2018-06-29 WO PCT/JP2018/024933 patent/WO2020003534A1/en active Application Filing
- 2018-06-29 JP JP2020568354A patent/JP7095756B2/ja active Active
- 2018-06-29 US US17/253,434 patent/US11580967B2/en active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5666444B2 (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
JP6553111B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
CN109256135B (zh) | 一种端到端说话人确认方法、装置及存储介质 | |
CN109643552B (zh) | 用于可变噪声状况中语音增强的鲁棒噪声估计 | |
JP6169849B2 (ja) | 音響処理装置 | |
JP2014145838A (ja) | 音響処理装置及び音響処理方法 | |
WO2005124739A1 (ja) | 雑音抑圧装置および雑音抑圧方法 | |
JP5752324B2 (ja) | 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制 | |
KR101998950B1 (ko) | 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블 | |
US20140122068A1 (en) | Signal processing apparatus, signal processing method and computer program product | |
CN112242147A (zh) | 一种语音增益控制方法及计算机存储介质 | |
JP2011203700A (ja) | 音声判別装置 | |
Sreekumar et al. | Spectral matching based voice activity detector for improved speaker recognition | |
US9002030B2 (en) | System and method for performing voice activity detection | |
US10418030B2 (en) | Acoustic model training device, acoustic model training method, voice recognition device, and voice recognition method | |
JP6148150B2 (ja) | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 | |
CN106297819B (zh) | 一种应用于说话人识别的噪声消除方法 | |
JPWO2020003534A5 (ja) | ||
KR100571427B1 (ko) | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 | |
CN108492821B (zh) | 一种减弱语音识别中说话人影响的方法 | |
CN113921030B (zh) | 一种基于加权语音损失的语音增强神经网络训练方法及装置 | |
JP6106618B2 (ja) | 音声区間検出装置、音声認識装置、その方法、及びプログラム | |
JP6439174B2 (ja) | 音声強調装置、および音声強調方法 | |
CN113409812B (zh) | 一种语音降噪训练数据的处理方法及其装置、训练方法 | |
George et al. | Minimizing the false alarm probability of speaker verification systems for mimicked speech |