JPWO2022034630A5

JPWO2022034630A5 - 音声処理装置、音声処理方法、プログラム、および音声認証システム

Info

Publication number: JPWO2022034630A5
Application number: JP2022542518A
Authority: JP
Filing date: 2020-08-11
Publication date: 2023-04-04

Claims

音声データから、発話に係る特徴を示す音響特徴を抽出する音響特徴抽出手段と、
前記音響特徴に基づいて、前記音声データに含まれる音素を識別する音素識別手段と、
前記音響特徴、および、前記音声データに含まれる音素の識別結果を示す音素識別情報に基づいて、音素ごとの発話の特徴を示す第１の話者識別用特徴を生成する第１話者識別用特徴生成手段と、
２つ以上の音素のそれぞれについての前記第１の話者識別用特徴を合成することにより、発話全体の特徴を示す第２の話者識別用特徴を生成する第２話者識別用特徴生成手段と
を備えた音声処理装置。
前記音声データに含まれる音素のうちの２つ以上の音素を、所与の条件にしたがい選択する音素選択手段をさらに備え、
前記第１話者識別用特徴生成手段は、前記音響特徴、前記音声データに含まれる２つ以上の音素の識別結果を示す音素識別情報、および、前記所与の条件にしたがい選択された２つ以上の音素を示す選択情報に基づいて、発話の特徴を示す話者識別用特徴を生成する
ことを特徴とする請求項１に記載の音声処理装置。
前記音素選択手段は、前記音声データに含まれる音素のうち、登録された音声データに含まれる２つ以上の音素と同一の２つ以上の音素を選択する
ことを特徴とする請求項２に記載の音声処理装置。
前記音素選択手段は、前記音声データに含まれる音素のうち、所定のテキストに含まれる２つ以上の文字と対応する２つ以上の音素を選択する
ことを特徴とする請求項２に記載の音声処理装置。
前記第1話者識別用特徴生成手段は、
前記音響特徴と、単一の音素から抽出された音素識別情報との組ごとに、前記第１の話者識別用特徴を生成し、
前記第２話者識別用特徴生成手段は、
複数の前記組について生成した前記第1の話者識別用特徴同士を加算することによって、前記発話全体の特徴を示す第２の話者識別用特徴を生成する
ことを特徴とする請求項１から４のいずれか１項に記載の音声処理装置。
音声データから、発話に係る特徴を示す音響特徴を抽出する音響特徴抽出手段と、
前記音響特徴に基づいて、前記音声データに含まれる音素を識別する音素識別手段と、
前記音声データに含まれる音素のうち、所与の選択条件にしたがう音素を選択する音素選択手段と、
前記音響特徴、前記音声データに含まれる音素の識別結果を示す音素識別情報、および、前記所与の条件にしたがい選択された音素を示す選択情報に基づいて、発話の特徴を示す話者識別用特徴を生成する話者識別用特徴生成手段と
を備えた音声処理装置。
予め準備された所定のテキストのデータを取得するテキスト取得手段をさらに備え、
前記音素選択手段は、前記音声データに含まれる音素のうち、前記所定のテキストに含まれる１つ以上の文字と対応する音素を選択する
ことを特徴とする請求項６に記載の音声処理装置。
音声データから、発話に係る特徴を示す音響特徴を抽出し、
前記音響特徴に基づいて、音声データに含まれる音素を識別し、
前記音響特徴、および、前記音声データに含まれる音素の識別結果を示す音素識別情報に基づいて、音素ごとの発話の特徴を示す第１の話者識別用特徴を生成し、
２つ以上の音素のそれぞれについての前記第１の話者識別用特徴を合成することにより、発話全体の特徴を示す第２の話者識別用特徴を生成する
ことを含む音声処理方法。
音声データから、発話に係る特徴を示す音響特徴を抽出することと、
前記音響特徴に基づいて、前記音声データに含まれる音素を識別することと、
前記音響特徴、および、前記音声データに含まれる音素の識別結果を示す音素識別情報に基づいて、音素ごとの発話の特徴を示す第１の話者識別用特徴を生成することと、
２つ以上の音素のそれぞれについての前記第１の話者識別用特徴を合成することにより、発話全体の特徴を示す第２の話者識別用特徴を生成することと
をコンピュータに実行させるためのプログラム。
請求項１から５のいずれか１項に記載の音声処理装置と、
前記音声処理装置が生成した前記第１の話者識別用特徴または前記第２の話者識別用特徴に基づいて、話者が登録済みの人物本人かどうかを確認する照合装置と
を備えた音声認証システム。