JPWO2018134916A1 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JPWO2018134916A1 JPWO2018134916A1 JP2018562783A JP2018562783A JPWO2018134916A1 JP WO2018134916 A1 JPWO2018134916 A1 JP WO2018134916A1 JP 2018562783 A JP2018562783 A JP 2018562783A JP 2018562783 A JP2018562783 A JP 2018562783A JP WO2018134916 A1 JPWO2018134916 A1 JP WO2018134916A1
- Authority
- JP
- Japan
- Prior art keywords
- learning
- determination
- domain
- unit
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 claims abstract description 106
- 230000006835 compression Effects 0.000 claims description 60
- 238000007906 compression Methods 0.000 claims description 60
- 239000011159 matrix material Substances 0.000 claims description 32
- 230000015654 memory Effects 0.000 description 18
- 238000000034 method Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 10
- 238000007619 statistical method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
Description
score=SAM+αSLM
実施の形態1.
図1は、実施の形態1による音声認識装置の構成図である。本実施の形態による音声認識装置は、図示のように、学習実行部100と判定実行部200から構成される。学習実行部100は、学習用音声認識部102、学習用特徴量変換部104及びモデル学習部106を備え、判定実行部200は、判定用音声認識部202、判定用特徴量変換部204及びドメイン判定部205を備えている。
音声認識装置はコンピュータを用いて実現されており、プロセッサ1、メモリ2、入出力インタフェース(入出力I/F)3、バス4を備える。プロセッサ1は、コンピュータとしての演算処理を行う機能部であり、メモリ2は、各種のプログラムや演算結果を記憶し、また、プロセッサ1が演算処理を行う場合の作業領域を構成する記憶部である。入出力インタフェース3は、学習用音声データ101や入力音声データ201を入力したり、ドメイン判定結果206を外部に出力したりする際のインタフェースである。バス4は、プロセッサ1、メモリ2及び入出力インタフェース3を相互に接続するためのバスである。
まず、学習実行部100が行うドメイン判定モデル学習ステップについて、図3のフローチャートを用いて説明する。
学習ステップでは、最初に、学習用音声認識部102が学習用音声データ101に対して音声認識を行って、その学習用スコア103を計算する(ステップST101)。ここで、学習用音声認識部102は複数の音声認識器A〜Cから成り、それぞれが各ドメインに対応した言語モデル及び音響モデルを読み込んでいる。学習用スコア103のスコアA〜Cは各音声認識器A〜Cからの1位の認識結果である。学習用スコア103の例として、音響スコアや言語スコアが利用可能である。なお、本実施の形態では例として音声認識器をA〜Cの三つとしているが、ドメイン数に応じて適宜選択可能である。
判定ステップでは、まず入力音声データ201から判定用音声認識部202により判定用スコア203を計算する(ステップST111)。ここで、判定用音声認識部202における各音声認識部は学習ステップと同じ音声認識部を使用する。判定用スコア203のスコアA〜Cは各音声認識器から1位の認識結果である。
実施の形態2は、学習用音声認識部及び判定用音声認識部の各音声認識器からN(Nは2以上の整数)ベストの認識結果を生成することで、下位の結果も考慮しドメインを判定する例である。
本実施の形態による音声認識装置は、図示のように、学習実行部100aと判定実行部200aから構成される。学習実行部100aは、学習用音声認識部102a、学習用特徴量変換部104a、モデル学習部106を備え、判定実行部200aは、判定用音声認識部202a、判定用特徴量変換部204a、ドメイン判定部205を備えている。なお、実施の形態1と同様の構成には同一符号を付し、その構成についての説明は省略または簡略化する。
まず学習実行部100aが行うドメイン判定モデル学習ステップについて、図7のフローチャートを用いて説明する。
学習ステップでは、最初に、学習用音声データ101から学習用音声認識部102aによりNベストの学習用スコア103aを計算する(ステップST201)。ここで、学習用音声認識部102aは複数の音声認識器A〜Cから成り、それぞれが各ドメインに対応した言語モデル及び音響モデルを読み込んでいる。学習用スコア103aのスコアA1〜C1とスコアA2〜C2は各音声認識器から得られる1位と2位の認識結果である。なお本実施の形態では例として認識器をA〜Cの三つとしているが、ドメイン数に応じて変えてもよく、認識結果のNベストの数を変えてもよい。
判定ステップでは、まず入力音声データ201から判定用音声認識部202aによりNベストの判定用スコア203aを計算する(ステップST211)。ここで、判定用音声認識部202aは学習ステップの学習用音声認識部102aと同じ音声認識部を使用する。判定用スコア203aのスコアA1〜C1とスコアA2〜C2は各音声認識器からの1位と2位の認識結果である。
実施の形態3は、実施の形態2の構成に加えて、特徴量の次元圧縮を行うようにしたものである。
本実施の形態による音声認識装置は、図示のように、学習実行部100bと判定実行部200bから構成される。学習実行部100bは、学習用音声認識部102a、学習用特徴量変換部104a、次元圧縮行列推定部108、学習用次元圧縮部110、モデル学習部106を備え、判定実行部200bは、判定用音声認識部202a、判定用特徴量変換部204a、判定用次元圧縮部207、ドメイン判定部205を備えている。なお、実施の形態2と同様の構成には同一符号を付し、その構成についての説明は省略または簡略化する。
まず学習実行部100bが行うドメイン判定モデル学習ステップについて、図11のフローチャートを用いて説明する。
学習ステップでは、最初に、学習用音声データ101から学習用音声認識部102aにより学習用スコア103aを計算する(ステップST301)。ここで、学習用音声認識部102aは複数の音声認識器A〜Cから成り、それぞれが各ドメインに対応した言語モデル及び音響モデルを読み込んでいる。学習用スコア103aのスコアA1〜C1とスコアA2〜C2は各音声認識器から得られる1位と2位の認識結果である。なお本実施の形態では例として認識器をA〜Cの三つとしているが、ドメイン数に応じて変えてもよく、認識結果のNベストの数を変えてもよい。
判定ステップでは、まず入力音声データ201から判定用音声認識部202aにより判定用スコア203aを計算する(ステップST311)。ここで、判定用音声認識部202aは学習ステップの学習用音声認識部102aと同じ音声認識部を使用する。判定用スコア203aのスコアA1〜C1とスコアA2〜C2は各音声認識器からの1位と2位の認識結果である。
実施の形態4は、N(Nは2以上の整数)ベストの認識結果を生成すると共に、Nベスト毎にドメイン判定モデルを生成するようにした例である。
本実施の形態による音声認識装置は、図示のように、学習実行部100cと判定実行部200cから構成される。学習実行部100cは、学習用音声認識部102a、第1の学習用特徴量変換部104b及び第2の学習用特徴量変換部104c、第1のモデル学習部106a及び第2のモデル学習部106bを備え、判定実行部200cは、判定用音声認識部202a、第1の判定用特徴量変換部204b及び第2の判定用特徴量変換部204c、第1のドメイン判定部205a及び第2のドメイン判定部205b、ドメイン確定部208を備えている。なお、実施の形態2と同様の構成には同一符号を付し、その構成についての説明は省略または簡略化する。
まず学習実行部100cが行うドメイン判定モデル学習ステップについて、図15のフローチャートを用いて説明する。
学習ステップでは、最初に、学習用音声データ101から学習用音声認識部102aによりNベストの学習用スコア103aを計算する(ステップST401)。ここで、学習用音声認識部102aは複数の音声認識器A〜Cから成り、それぞれが各ドメインに対応した言語モデル及び音響モデルを読み込んでいる。学習用スコア103aのスコアA1〜C1とスコアA2〜C2は各音声認識器から得られる1位と2位の認識結果である。なお本実施の形態では例として認識器をA〜Cの三つとしているが、ドメイン数に応じて変えてもよく、認識結果のNベストの数を変えてもよい。
判定ステップでは、まず入力音声データ201から判定用音声認識部202aによりNベストの判定用スコア203aを計算する(ステップST411)。ここで、判定用音声認識部202aは学習ステップの学習用音声認識部102aと同じ音声認識部を使用する。判定用スコア203aのスコアA1〜C1とスコアA2〜C2は各音声認識器からの1位と2位の認識結果である。
Claims (5)
- 学習用音声データから音声認識結果を示す値である学習用スコアを算出する学習用音声認識部と、
前記学習用スコアを学習用特徴量に変換する学習用特徴量変換部と、
前記学習用特徴量と、前記学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出するモデル学習部と、
入力音声データから音声認識結果を示す値である判定用スコアを算出する判定用音声認識部と、
前記判定用スコアを判定用特徴量に変換する判定用特徴量変換部と、
前記判定用特徴量と前記ドメイン判定モデルとを照合し、前記入力音声データがどのドメインの発話であるかを示すドメイン判定結果を算出するドメイン判定部とを備えたことを特徴とする音声認識装置。 - 学習用音声データからN(Nは2以上の整数)ベストの音声認識結果を示す値であるNベストの学習用スコアを算出する学習用音声認識部と、
前記Nベストの学習用スコアを学習用特徴量に変換する学習用特徴量変換部と、
前記学習用特徴量と、前記学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出するモデル学習部と、
入力音声データからNベストの音声認識結果を示す値であるNベストの判定用スコアを算出する判定用音声認識部と、
前記Nベストの判定用スコアを判定用特徴量に変換する判定用特徴量変換部と、
前記判定用特徴量と前記ドメイン判定モデルとを照合し、前記入力音声データがどのドメインの発話であるかを示すドメイン判定結果を算出するドメイン判定部とを備えたことを特徴とする音声認識装置。 - 学習用音声データからN(Nは2以上の整数)ベストの音声認識結果を示す値であるNベストの学習用スコアを算出する学習用音声認識部と、
前記Nベストの学習用スコアを学習用特徴量に変換する学習用特徴量変換部と、
前記学習用特徴量と、前記学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、前記学習用特徴量の次元を圧縮するための次元圧縮行列を推定する次元圧縮行列推定部と、
前記学習用特徴量と前記次元圧縮行列とを用いて、前記学習用特徴量の次元を圧縮する学習用次元圧縮部と、
前記学習用次元圧縮部で圧縮された学習用特徴量と、前記学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを算出するモデル学習部と、
入力音声データからNベストの音声認識結果を示す値であるNベストの判定用スコアを算出する判定用音声認識部と、
前記Nベストの判定用スコアを判定用特徴量に変換する判定用特徴量変換部と、
前記判定用特徴量と、前記次元圧縮行列とを用いて、前記判定用特徴量の次元を圧縮する判定用次元圧縮部と、
前記判定用次元圧縮部で圧縮された判定用特徴量と前記ドメイン判定モデルとを照合し、前記入力音声データがどのドメインの発話であるかを示すドメイン判定結果を算出するドメイン判定部とを備えたことを特徴とする音声認識装置。 - 前記次元圧縮行列推定部は、特徴量と教師ラベルを入力とし、特徴量の次元を低次元に変換する行列を出力することを特徴とする請求項3記載の音声認識装置。
- 学習用音声データからN(Nは2以上の整数)ベストの音声認識結果を示す値であるNベストの学習用スコアを算出する学習用音声認識部と、
前記Nベストの学習用スコアを前記Nベスト毎に学習用特徴量に変換する学習用特徴量変換部と、
前記Nベスト毎の学習用特徴量と、前記学習用音声データがどのドメインの発話であるかを定義した学習用ラベルデータとを用いて、特徴量とドメインとの関係を示すドメイン判定モデルを前記Nベスト毎に算出するモデル学習部と、
入力音声データからNベストの音声認識結果を示す値であるNベストの判定用スコアを算出する判定用音声認識部と、
前記Nベストの判定用スコアをNベスト毎に判定用特徴量に変換する判定用特徴量変換部と、
前記Nベスト毎の判定用特徴量と前記Nベスト毎のドメイン判定モデルとを照合し、Nベスト毎のドメイン判定結果を算出するドメイン判定部と、
前記Nベスト毎のドメイン判定結果を用いて、前記入力音声データがどのドメインの発話であるかを示すドメイン最終判定結果を算出するドメイン確定部とを備えたことを特徴とする音声認識装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/001551 WO2018134916A1 (ja) | 2017-01-18 | 2017-01-18 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018134916A1 true JPWO2018134916A1 (ja) | 2019-04-11 |
JP6532619B2 JP6532619B2 (ja) | 2019-06-19 |
Family
ID=62907889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018562783A Expired - Fee Related JP6532619B2 (ja) | 2017-01-18 | 2017-01-18 | 音声認識装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6532619B2 (ja) |
WO (1) | WO2018134916A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210052563A (ko) * | 2018-11-02 | 2021-05-10 | 주식회사 엘솔루 | 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치 |
KR20220118754A (ko) * | 2021-02-19 | 2022-08-26 | 삼성전자주식회사 | 음성 인식 결과를 분석하는 전자 장치 및 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06309464A (ja) * | 1993-04-20 | 1994-11-04 | Fujitsu Ltd | 多判定器によるパターン認識装置 |
WO2008096582A1 (ja) * | 2007-02-06 | 2008-08-14 | Nec Corporation | 認識器重み学習装置および音声認識装置、ならびに、システム |
JP2012047924A (ja) * | 2010-08-26 | 2012-03-08 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
JP2014071813A (ja) * | 2012-10-01 | 2014-04-21 | Fuji Xerox Co Ltd | 文字認識装置及びプログラム |
WO2015118645A1 (ja) * | 2014-02-06 | 2015-08-13 | 三菱電機株式会社 | 音声検索装置および音声検索方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5406797B2 (ja) * | 2010-07-13 | 2014-02-05 | 日本電信電話株式会社 | 音声認識方法とその装置とプログラム |
JP6019604B2 (ja) * | 2012-02-14 | 2016-11-02 | 日本電気株式会社 | 音声認識装置、音声認識方法、及びプログラム |
-
2017
- 2017-01-18 WO PCT/JP2017/001551 patent/WO2018134916A1/ja active Application Filing
- 2017-01-18 JP JP2018562783A patent/JP6532619B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06309464A (ja) * | 1993-04-20 | 1994-11-04 | Fujitsu Ltd | 多判定器によるパターン認識装置 |
WO2008096582A1 (ja) * | 2007-02-06 | 2008-08-14 | Nec Corporation | 認識器重み学習装置および音声認識装置、ならびに、システム |
JP2012047924A (ja) * | 2010-08-26 | 2012-03-08 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
JP2014071813A (ja) * | 2012-10-01 | 2014-04-21 | Fuji Xerox Co Ltd | 文字認識装置及びプログラム |
WO2015118645A1 (ja) * | 2014-02-06 | 2015-08-13 | 三菱電機株式会社 | 音声検索装置および音声検索方法 |
Non-Patent Citations (1)
Title |
---|
磯部 俊洋,外5名: "複数モデルを選択的に用いる音声対話システムにおけるドメイン切り替え尺度の検討", 情報処理学会研究報告, vol. 2003, no. 75, JPN6019000567, 19 July 2003 (2003-07-19), JP, pages 41 - 46, ISSN: 0003958141 * |
Also Published As
Publication number | Publication date |
---|---|
WO2018134916A1 (ja) | 2018-07-26 |
JP6532619B2 (ja) | 2019-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
Pawar et al. | Convolution neural network based automatic speech emotion recognition using Mel-frequency Cepstrum coefficients | |
US10529319B2 (en) | User adaptive speech recognition method and apparatus | |
JP2006510933A (ja) | センサ・ベース音声認識装置の選択、適応、および組合せ | |
CN109801646B (zh) | 一种基于融合特征的语音端点检测方法和装置 | |
CA2652302A1 (en) | Intersession variability compensation for automatic extraction of information from voice | |
US9378735B1 (en) | Estimating speaker-specific affine transforms for neural network based speech recognition systems | |
Gill et al. | Vector quantization based speaker identification | |
JPWO2018051945A1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
KR100574769B1 (ko) | 최우법을 포함한 고유음성에 기초한 화자 및 환경 적응 방법 | |
JP6845489B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
WO2018134916A1 (ja) | 音声認識装置 | |
CN111667839A (zh) | 注册方法和设备、说话者识别方法和设备 | |
JP2020060757A (ja) | 話者認識装置、話者認識方法、及び、プログラム | |
GB2576960A (en) | Speaker recognition | |
JP2012108429A (ja) | 音声選択装置、発話選択装置、音声選択システム、音声選択方法および音声選択プログラム | |
JP4652232B2 (ja) | 話者の圧縮表現用の音声信号の分析のための方法およびシステム | |
CN112420021A (zh) | 学习方法、说话者识别方法以及记录介质 | |
JP6791816B2 (ja) | 音声区間検出装置、音声区間検出方法、およびプログラム | |
JP6114210B2 (ja) | 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム | |
CN113035230A (zh) | 认证模型的训练方法、装置及电子设备 | |
JP4391179B2 (ja) | 話者認識システム及び方法 | |
JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム | |
CN111798844A (zh) | 根据声纹识别的人工智能扬声器定制型个人化服务系统 | |
CN113571085B (zh) | 语音分离方法、系统、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181206 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20181206 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190423 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190521 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6532619 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |