JPWO2021024869A5 - 音声処理装置、音声処理方法、およびプログラム - Google Patents

音声処理装置、音声処理方法、およびプログラム Download PDF

Info

Publication number
JPWO2021024869A5
JPWO2021024869A5 JP2021537252A JP2021537252A JPWO2021024869A5 JP WO2021024869 A5 JPWO2021024869 A5 JP WO2021024869A5 JP 2021537252 A JP2021537252 A JP 2021537252A JP 2021537252 A JP2021537252 A JP 2021537252A JP WO2021024869 A5 JPWO2021024869 A5 JP WO2021024869A5
Authority
JP
Japan
Prior art keywords
speaker
speech data
speech
voice processing
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021537252A
Other languages
English (en)
Other versions
JP7347511B2 (ja
JPWO2021024869A1 (ja
Filing date
Publication date
Application filed filed Critical
Priority claimed from PCT/JP2020/028955 external-priority patent/WO2021024869A1/ja
Publication of JPWO2021024869A1 publication Critical patent/JPWO2021024869A1/ja
Publication of JPWO2021024869A5 publication Critical patent/JPWO2021024869A5/ja
Application granted granted Critical
Publication of JP7347511B2 publication Critical patent/JP7347511B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (11)

  1. 画像から話者の領域を抽出する話者抽出手段と、
    前記話者の口唇の形状に基づいて、前記話者の発言の内容を示す第1の発言データを生成する第一発言データ生成手段と、
    前記話者の発言と対応する音声信号に基づいて、前記話者の発言の内容を示す第2の発言データを生成する第二発言データ生成手段と、
    前記第1の発言データと、前記第2の発言データとを照合する照合手段と
    を備えた音声処理装置。
  2. 前記第一発言データ生成手段は、
    前記話者の口唇の形状から、口形素を識別する口形素識別手段と、
    前記口形素を音素に変換して、1または複数の音素を含む前記第1の発言データを生成する口形素-音素変換手段とを含む
    ことを特徴とする請求項1に記載の音声処理装置。
  3. 前記第二発言データ生成手段は、
    入力された音声信号から特徴を抽出する特徴抽出手段と
    前記音声信号の特徴を、対応する音素に変換して、1または複数の音素を含む前記第2の発言データを生成する音声信号-音素変換手段とを含む
    ことを特徴とする請求項1または2に記載の音声処理装置。
  4. 前記第二発言データ生成手段は、
    入力された音声信号に含まれる単音を抽出し、1または複数の単音を含む前記第2の発言データを生成する単音抽出手段を含む
    ことを特徴とする請求項1または2に記載の音声処理装置。
  5. 前記話者抽出手段は、前記画像から抽出した前記話者を識別するための話者情報を生成し、
    前記照合の結果に基づいて、前記話者情報と、前記第2の発言データとを対応付ける対応付け手段をさらに備えた
    ことを特徴とする請求項1から4のいずれか1項に記載の音声処理装置。
  6. 前記第一発言データ生成手段は、前記画像中の複数の話者の口唇の形状に基づいて、複数の前記第1の発言データを生成し、
    前記照合手段は、複数の前記第1の発言データのそれぞれと、前記第2の発言データとを照合し、
    前記対応付け手段は、前記照合の結果に基づいて、前記複数の話者のうちいずれか1人に関する前記話者情報と、前記第2の発言データとを対応付ける
    ことを特徴とする請求項5に記載の音声処理装置。
  7. 前記第1の発言データと、前記第2の発言データとの間の照合が成功した場合、前記第1の発言データを用いて、前記第2の発言データを補正する補正手段をさらに備えた
    ことを特徴とする請求項1から6のいずれか1項に記載の音声処理装置。
  8. 前記画像上に、前記話者を含む領域を示す図形を重畳した重畳画像を、ディスプレイ上に表示させる表示制御手段をさらに備えた
    ことを特徴とする請求項1から7のいずれか1項に記載の音声処理装置。
  9. 前記話者情報は、前記話者の属性情報、前記話者の位置情報、前記話者の顔画像、および前記第1の発言データのうち、少なくとも1つである
    ことを特徴とする請求項5または6に記載の音声処理装置。
  10. 画像から話者の領域を抽出し、
    前記話者の口唇の形状に基づいて、前記話者の発言の内容を示す第1の発言データを生成し、
    前記話者の発言と対応する音声信号に基づいて、前記話者の発言の内容を示す第2の発言データを生成し、
    前記第1の発言データと、前記第2の発言データとを照合する
    ことを含む音声処理方法。
  11. 画像から話者の領域を抽出することと、
    前記話者の口唇の形状に基づいて、前記話者の発言の内容を示す第1の発言データを生成することと、
    前記話者の発言と対応する音声信号に基づいて、前記話者の発言の内容を示す第2の発言データを生成することと、
    前記第1の発言データと、前記第2の発言データとを照合することと
    をコンピュータに実行させるためのプログラム。
JP2021537252A 2019-08-02 2020-07-29 音声処理装置、音声処理方法、およびプログラム Active JP7347511B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019142951 2019-08-02
JP2019142951 2019-08-02
PCT/JP2020/028955 WO2021024869A1 (ja) 2019-08-02 2020-07-29 音声処理装置、音声処理方法、および記録媒体

Publications (3)

Publication Number Publication Date
JPWO2021024869A1 JPWO2021024869A1 (ja) 2021-02-11
JPWO2021024869A5 true JPWO2021024869A5 (ja) 2022-04-07
JP7347511B2 JP7347511B2 (ja) 2023-09-20

Family

ID=74503621

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021537252A Active JP7347511B2 (ja) 2019-08-02 2020-07-29 音声処理装置、音声処理方法、およびプログラム

Country Status (6)

Country Link
US (1) US20220262363A1 (ja)
EP (1) EP4009629A4 (ja)
JP (1) JP7347511B2 (ja)
CN (1) CN114175147A (ja)
BR (1) BR112022001300A2 (ja)
WO (1) WO2021024869A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116110373B (zh) * 2023-04-12 2023-06-09 深圳市声菲特科技技术有限公司 智能会议系统的语音数据采集方法及相关装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59182687A (ja) * 1983-04-01 1984-10-17 Nippon Telegr & Teleph Corp <Ntt> 静止画像通信会議方式
US5528728A (en) * 1993-07-12 1996-06-18 Kabushiki Kaisha Meidensha Speaker independent speech recognition system and method using neural network and DTW matching technique
JP2004024863A (ja) * 1994-05-13 2004-01-29 Matsushita Electric Ind Co Ltd 口唇認識装置および発生区間認識装置
JPH08187368A (ja) * 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
US20020116197A1 (en) * 2000-10-02 2002-08-22 Gamze Erten Audio visual speech processing
US7257538B2 (en) * 2002-10-07 2007-08-14 Intel Corporation Generating animation from visual and audio input
US20050047664A1 (en) * 2003-08-27 2005-03-03 Nefian Ara Victor Identifying a speaker using markov models
WO2007114346A1 (ja) * 2006-03-30 2007-10-11 Honda Moter Co., Ltd. 音声認識装置
JP4462339B2 (ja) * 2007-12-07 2010-05-12 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US8798311B2 (en) * 2009-01-23 2014-08-05 Eldon Technology Limited Scrolling display of electronic program guide utilizing images of user lip movements
JP2010262424A (ja) * 2009-05-01 2010-11-18 Nikon Corp 車載カメラシステム
JP2011013731A (ja) * 2009-06-30 2011-01-20 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2011186351A (ja) * 2010-03-11 2011-09-22 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP5849761B2 (ja) * 2012-02-22 2016-02-03 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
US20180235924A1 (en) 2015-08-20 2018-08-23 Sol-Gel Technologies Ltd. Compositions for topical application comprising benzoyl peroxide and adapalene
US9940932B2 (en) * 2016-03-02 2018-04-10 Wipro Limited System and method for speech-to-text conversion
JP2018091954A (ja) * 2016-12-01 2018-06-14 オリンパス株式会社 音声認識装置、及び音声認識方法
WO2019104229A1 (en) * 2017-11-22 2019-05-31 Google Llc Audio-visual speech separation
JP7081164B2 (ja) * 2018-01-17 2022-06-07 株式会社Jvcケンウッド 表示制御装置、通信装置、表示制御方法および通信方法
US20190371318A1 (en) * 2018-02-15 2019-12-05 DMAI, Inc. System and method for adaptive detection of spoken language via multiple speech models

Similar Documents

Publication Publication Date Title
JP6463825B2 (ja) 多重話者音声認識修正システム
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
JP4867804B2 (ja) 音声認識装置及び会議システム
US7792671B2 (en) Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments
WO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
CN110675886A (zh) 音频信号处理方法、装置、电子设备及存储介质
CN109791616A (zh) 自动语音识别
JP2010060850A (ja) 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
KR20160081244A (ko) 자동 통역 시스템 및 이의 동작 방법
CN106303695A (zh) 音频翻译多语言文字处理方法和系统
CN116312552A (zh) 一种视频说话人日志方法及系统
CN110349565B (zh) 一种面向听障人士的辅助发音学习方法及其系统
JP2013088552A (ja) 発音トレーニング装置
JPWO2021024869A5 (ja) 音声処理装置、音声処理方法、およびプログラム
JP5257680B2 (ja) 音声認識装置
JP7347511B2 (ja) 音声処理装置、音声処理方法、およびプログラム
KR102291113B1 (ko) 회의록 작성 장치 및 방법
CN113823300A (zh) 语音处理方法及装置、存储介质、电子设备
CN108831230B (zh) 一种自动跟踪学习内容的学习互动方法及智慧台灯
KR102011595B1 (ko) 청각 장애인을 위한 소통 지원 장치 및 방법
JP2019101285A (ja) 音声処理装置、音声処理方法及びプログラム
KR102657353B1 (ko) 음성 인터페이스 stt 기반 자막 생성 장치, 및 음성 인터페이스 stt 기반 자막 생성 방법
CN113051985B (zh) 信息提示方法、装置、电子设备及存储介质