JPWO2022185437A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2022185437A5
JPWO2022185437A5 JP2023503251A JP2023503251A JPWO2022185437A5 JP WO2022185437 A5 JPWO2022185437 A5 JP WO2022185437A5 JP 2023503251 A JP2023503251 A JP 2023503251A JP 2023503251 A JP2023503251 A JP 2023503251A JP WO2022185437 A5 JPWO2022185437 A5 JP WO2022185437A5
Authority
JP
Japan
Prior art keywords
probability
sequence
data
voice
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023503251A
Other languages
English (en)
Other versions
JPWO2022185437A1 (ja
Filing date
Publication date
Application filed filed Critical
Priority claimed from PCT/JP2021/008106 external-priority patent/WO2022185437A1/ja
Publication of JPWO2022185437A1 publication Critical patent/JPWO2022185437A1/ja
Publication of JPWO2022185437A5 publication Critical patent/JPWO2022185437A5/ja
Pending legal-status Critical Current

Links

Claims (9)

  1. 音声データが入力された場合に、前記音声データが示す音声系列に対応する文字系列の確率である第1確率と、前記音声系列に対応する音素系列の確率である第2確率とを出力するニューラルネットワークを用いて、前記第1確率及び前記第2確率を出力する出力手段と、
    登録文字と前記登録文字の音素である登録音素とが関連付けられている辞書データ及び前記第2確率に基づいて、前記第1確率を更新する更新手段と
    を備える音声認識装置。
  2. 前記更新手段は、前記音素系列に前記登録音素が含まれている場合には、前記第1確率を更新する前と比較して、前記文字系列に前記登録文字が含まれる確率が高くなるように、前記第1確率を更新する
    請求項1に記載の音声認識装置。
  3. 前記ニューラルネットワークは、
    前記音声データが入力された場合に、前記音声系列の特徴量を出力する第1ネットワーク部分と、
    前記特徴量が入力された場合に、前記第1確率を出力する第2ネットワーク部分と、
    前記特徴量が入力された場合に、前記第2確率を出力する第3ネットワーク部分と
    を含む請求項1又は2に記載の音声認識装置。
  4. 学習用の第1音声データと、前記第1音声データが示す第1音声系列に対応する第1文字系列の正解ラベルと、前記第1音声系列に対応する第1音素系列の正解ラベルとを含む学習データを取得する取得手段と、
    前記学習データを用いて、第2音声データが入力された場合に、前記第2音声データが示す第2音声系列に対応する第2文字系列の確率である第1確率と、前記第2音声系列に対応する第2音素系列の確率である第2確率とを出力するニューラルネットワークのパラメータを学習する学習手段と
    を備える学習装置。
  5. 前記ニューラルネットワークは、
    前記第2音声データが入力された場合に、前記音声系列の特徴量を出力する第1モデルと、
    前記特徴量が入力された場合に、前記第1確率を出力する第2モデルと、
    前記特徴量が入力された場合に、前記第2確率を出力する第3モデルと
    を含み、
    前記学習手段は、前記学習データのうちの前記第1音声データと前記第1文字系列の正解ラベルとを用いて、前記第1及び第2モデルのパラメータを学習した後、前記学習データのうちの前記第1音声データと前記第1音素系列の正解ラベルとを用いて、前記第3モデルのパラメータを学習する
    請求項4に記載の学習装置。
  6. 音声データが入力された場合に、前記音声データが示す音声系列に対応する文字系列の確率である第1確率と、前記音声系列に対応する音素系列の確率である第2確率とを出力するニューラルネットワークを用いて、前記第1確率及び前記第2確率を出力し、
    登録文字と前記登録文字の音素である登録音素とが関連付けられている辞書データ及び前記第2確率に基づいて、前記第1確率を更新する
    音声認識方法。
  7. 学習用の第1音声データと、前記第1音声データが示す第1音声系列に対応する第1文字系列の正解ラベルと、前記第1音声系列に対応する第1音素系列の正解ラベルとを含む学習データを取得し、
    前記学習データを用いて、第2音声データが入力された場合に、前記第2音声データが示す第2音声系列に対応する第2文字系列の確率である第1確率と、前記第2音声系列に対応する第2音素系列の確率である第2確率とを出力するニューラルネットワークのパラメータを学習する
    学習方法。
  8. コンピュータに、
    音声データが入力された場合に、前記音声データが示す音声系列に対応する文字系列の確率である第1確率と、前記音声系列に対応する音素系列の確率である第2確率とを出力するニューラルネットワークを用いて、前記第1確率及び前記第2確率を出力し、
    登録文字と前記登録文字の音素である登録音素とが関連付けられている辞書データ及び前記第2確率に基づいて、前記第1確率を更新する
    音声認識方法を実行させるコンピュータプログラム。
  9. コンピュータに、
    学習用の第1音声データと、前記第1音声データが示す第1音声系列に対応する第1文字系列の正解ラベルと、前記第1音声系列に対応する第1音素系列の正解ラベルとを含む学習データを取得し、
    前記学習データを用いて、第2音声データが入力された場合に、前記第2音声データが示す第2音声系列に対応する第2文字系列の確率である第1確率と、前記第2音声系列に対応する第2音素系列の確率である第2確率とを出力するニューラルネットワークのパラメータを学習する
    学習方法を実行させるコンピュータプログラム。
JP2023503251A 2021-03-03 2021-03-03 Pending JPWO2022185437A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/008106 WO2022185437A1 (ja) 2021-03-03 2021-03-03 音声認識装置、音声認識方法、学習装置、学習方法、及び、記録媒体

Publications (2)

Publication Number Publication Date
JPWO2022185437A1 JPWO2022185437A1 (ja) 2022-09-09
JPWO2022185437A5 true JPWO2022185437A5 (ja) 2023-11-10

Family

ID=83153997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023503251A Pending JPWO2022185437A1 (ja) 2021-03-03 2021-03-03

Country Status (3)

Country Link
US (1) US20240144915A1 (ja)
JP (1) JPWO2022185437A1 (ja)
WO (1) WO2022185437A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
JP6876543B2 (ja) * 2017-06-29 2021-05-26 日本放送協会 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム
US10210860B1 (en) * 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary

Similar Documents

Publication Publication Date Title
CN113439301B (zh) 用于机器学习的方法和系统
EP3750110B1 (en) Methods and systems for intent detection and slot filling in spoken dialogue systems
CN107871496B (zh) 语音识别方法和装置
CN106652999A (zh) 语音识别系统以及方法
CN105261246B (zh) 一种基于大数据挖掘技术的英语口语纠错系统
CN111179917B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
KR20070098094A (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
JP2017058513A (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
Minematsu et al. Speech structure and its application to robust speech processing
CN109461436A (zh) 一种语音识别发音错误的纠正方法及系统
Ahsiah et al. Tajweed checking system to support recitation
KR102499299B1 (ko) 음성 인식 장치, 프로그램 및 그것의 학습 제어 방법
CN110598208A (zh) Ai/ml增强发音课程设计和个性化练习计划方法
CN109754784A (zh) 训练滤波模型的方法和语音识别的方法
CN116778967A (zh) 基于预训练模型的多模态情感识别方法及装置
CN113744727A (zh) 模型训练方法、系统、终端设备及存储介质
Zen Generative model-based text-to-speech synthesis
JPWO2022185437A5 (ja)
Shafie et al. The model of Al-Quran recitation evaluation to support in Da’wah Technology media for self-learning of recitation using mobile apps
CN112700796B (zh) 一种基于交互式注意力模型的语音情感识别方法
CN108717854A (zh) 基于优化gfcc特征参数的说话人识别方法
CN112015921B (zh) 一种基于学习辅助知识图谱的自然语言处理方法
CN114519104A (zh) 动作标签标注方法及装置
CN115116443A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
CN111179902B (zh) 基于高斯模型模拟共鸣腔的语音合成方法、设备及介质