JPWO2021024869A5

JPWO2021024869A5 - 音声処理装置、音声処理方法、およびプログラム

Info

Publication number: JPWO2021024869A5
Application number: JP2021537252A
Authority: JP
Filing date: 2020-07-29
Publication date: 2022-04-07
Anticipated expiration: 2040-07-29

Claims

画像から話者の領域を抽出する話者抽出手段と、
前記話者の口唇の形状に基づいて、前記話者の発言の内容を示す第１の発言データを生成する第一発言データ生成手段と、
前記話者の発言と対応する音声信号に基づいて、前記話者の発言の内容を示す第２の発言データを生成する第二発言データ生成手段と、
前記第１の発言データと、前記第２の発言データとを照合する照合手段と
を備えた音声処理装置。
前記第一発言データ生成手段は、
前記話者の口唇の形状から、口形素を識別する口形素識別手段と、
前記口形素を音素に変換して、１または複数の音素を含む前記第１の発言データを生成する口形素－音素変換手段とを含む
ことを特徴とする請求項１に記載の音声処理装置。
前記第二発言データ生成手段は、
入力された音声信号から特徴を抽出する特徴抽出手段と
前記音声信号の特徴を、対応する音素に変換して、１または複数の音素を含む前記第２の発言データを生成する音声信号－音素変換手段とを含む
ことを特徴とする請求項１または２に記載の音声処理装置。
前記第二発言データ生成手段は、
入力された音声信号に含まれる単音を抽出し、１または複数の単音を含む前記第２の発言データを生成する単音抽出手段を含む
ことを特徴とする請求項１または２に記載の音声処理装置。
前記話者抽出手段は、前記画像から抽出した前記話者を識別するための話者情報を生成し、
前記照合の結果に基づいて、前記話者情報と、前記第２の発言データとを対応付ける対応付け手段をさらに備えた
ことを特徴とする請求項１から４のいずれか１項に記載の音声処理装置。
前記第一発言データ生成手段は、前記画像中の複数の話者の口唇の形状に基づいて、複数の前記第１の発言データを生成し、
前記照合手段は、複数の前記第１の発言データのそれぞれと、前記第２の発言データとを照合し、
前記対応付け手段は、前記照合の結果に基づいて、前記複数の話者のうちいずれか１人に関する前記話者情報と、前記第２の発言データとを対応付ける
ことを特徴とする請求項５に記載の音声処理装置。
前記第１の発言データと、前記第２の発言データとの間の照合が成功した場合、前記第１の発言データを用いて、前記第２の発言データを補正する補正手段をさらに備えた
ことを特徴とする請求項１から６のいずれか１項に記載の音声処理装置。
前記画像上に、前記話者を含む領域を示す図形を重畳した重畳画像を、ディスプレイ上に表示させる表示制御手段をさらに備えた
ことを特徴とする請求項１から７のいずれか１項に記載の音声処理装置。
前記話者情報は、前記話者の属性情報、前記話者の位置情報、前記話者の顔画像、および前記第１の発言データのうち、少なくとも１つである
ことを特徴とする請求項５または６に記載の音声処理装置。
画像から話者の領域を抽出し、
前記話者の口唇の形状に基づいて、前記話者の発言の内容を示す第１の発言データを生成し、
前記話者の発言と対応する音声信号に基づいて、前記話者の発言の内容を示す第２の発言データを生成し、
前記第１の発言データと、前記第２の発言データとを照合する
ことを含む音声処理方法。
画像から話者の領域を抽出することと、
前記話者の口唇の形状に基づいて、前記話者の発言の内容を示す第１の発言データを生成することと、
前記話者の発言と対応する音声信号に基づいて、前記話者の発言の内容を示す第２の発言データを生成することと、
前記第１の発言データと、前記第２の発言データとを照合することと
をコンピュータに実行させるためのプログラム。