JPWO2022049613A5

JPWO2022049613A5 -

Info

Publication number: JPWO2022049613A5
Application number: JP2022546733A
Authority: JP
Filing date: 2020-09-01
Publication date: 2022-11-01
Anticipated expiration: 2040-09-01

Description

本開示の一態様に係る情報処理装置が提供される。情報処理装置は、第１の音源の音声信号を取得する取得部と、前記音声信号に基づいて、発話区間を検出し、前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出する検出抽出部と、前記発話区間特徴量に基づいて、音声認識を実行する音声認識実行部と、前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報とを記憶する記憶部と、前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第１の音源の過去の感情を示す情報、及び前記第２の音源の過去の感情を示す情報に基づいて、前記第１の音源の感情の値である感情値を推定する感情推定部と、出力部と、を有する。前記第１の音源は、第１のユーザである。前記第２の音源は、第２のユーザである。前記記憶部は、前記音声信号が取得される前に前記第２のユーザが発した発話の内容であるユーザ発話内容を記憶する。前記出力部は、前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせる内容である場合、注意を促す情報を出力する。

Claims

第１の音源の音声信号を取得する取得部と、
前記音声信号に基づいて、発話区間を検出し、前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出する検出抽出部と、
前記発話区間特徴量に基づいて、音声認識を実行する音声認識実行部と、
前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報とを記憶する記憶部と、
前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第１の音源の過去の感情を示す情報、及び前記第２の音源の過去の感情を示す情報に基づいて、前記第１の音源の感情の値である感情値を推定する感情推定部と、
出力部と、
を有し、
前記第１の音源は、第１のユーザであり、
前記第２の音源は、第２のユーザであり、
前記記憶部は、前記音声信号が取得される前に前記第２のユーザが発した発話の内容であるユーザ発話内容を記憶し、
前記出力部は、前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせる内容である場合、注意を促す情報を出力する、
情報処理装置。
第１の音源の音声信号を取得する取得部と、
前記音声信号に基づいて、発話区間を検出し、前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出する検出抽出部と、
前記発話区間特徴量に基づいて、音声認識を実行する音声認識実行部と、
前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報とを記憶する記憶部と、
前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第１の音源の過去の感情を示す情報、及び前記第２の音源の過去の感情を示す情報に基づいて、前記第１の音源の感情の値である感情値を推定する感情推定部と、
出力部と、
を有し、
前記第１の音源は、第１のユーザであり、
前記第２の音源は、第２のユーザであり、
前記記憶部は、前記音声信号が取得される前に前記第２のユーザが発した発話の内容であるユーザ発話内容を記憶し、
前記出力部は、前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせない内容である場合、問題がない旨を示す情報を出力する、
情報処理装置。
第１の音源の音声信号を取得する取得部と、
前記音声信号に基づいて、発話区間を検出し、前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出する検出抽出部と、
前記発話区間特徴量に基づいて、音声認識を実行する音声認識実行部と、
前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報とを記憶する記憶部と、
前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第１の音源の過去の感情を示す情報、及び前記第２の音源の過去の感情を示す情報に基づいて、前記第１の音源の感情を推定する感情推定部と、
切替判定部と、
を有し、
前記第１の音源は、ユーザであり、
前記第２の音源は、１以上の電気装置により実現される自動応答システムであり、
前記第１の音源の過去の感情を示す情報は、前記ユーザと前記自動応答システムとの会話が開始してから、推定された前記ユーザの感情の履歴であり、
前記切替判定部は、前記ユーザの感情の履歴に基づいて、予め設定された時間内に、前記ユーザの感情が変化した回数を特定し、前記回数が予め設定された閾値以上であるか否かを判定し、前記回数が前記閾値以上である場合、前記自動応答システムの運用からオペレータ運用に切り替える、
情報処理装置。
前記記憶部は、前記第１の音源と前記第２の音源との会話が開始してから、前記第１の音源が発した発話の内容を示す第１の発話履歴と前記第２の音源が発した発話の内容を示す第２の発話履歴とをさらに記憶し、
前記感情推定部は、前記第１の発話履歴、前記第２の発話履歴、前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第１の音源の過去の感情を示す情報、及び前記第２の音源の過去の感情を示す情報に基づいて、前記第１の音源の感情を推定する、
請求項１から３のいずれか１項に記載の情報処理装置。
前記第２の音源の過去の感情は、前記音声信号が取得される前に推定された感情であり、
前記第１の音源の過去の感情は、前記第２の音源の過去の感情が推定される前に推定された感情である、
請求項１から４のいずれか１項に記載の情報処理装置。
前記第１の音源の過去の感情を示す情報は、前記第１の音源と前記第２の音源との会話が開始してから、推定された前記第１の音源の感情の履歴であり、
前記第２の音源の過去の感情を示す情報は、前記第１の音源と前記第２の音源との会話が開始してから、推定された前記第２の音源の感情の履歴である、
請求項１から４のいずれか１項に記載の情報処理装置。
前記取得部は、前記第１の音源のパーソナリティ情報を取得し、
前記感情推定部は、パーソナリティ情報と重みとの対応関係を示す重み情報を用いて学習することにより生成された学習済モデルと前記第１の音源のパーソナリティ情報とを用いて、前記第１の音源の感情を推定する、
請求項１から６のいずれか１項に記載の情報処理装置。
前記取得部は、前記ユーザのパーソナリティ情報を取得し、
前記記憶部は、パーソナリティ情報と重みとの対応関係を示す重み情報を記憶し、
前記切替判定部は、前記ユーザのパーソナリティ情報、前記回数、及び前記重み情報に基づいて、値を算出し、前記値が前記閾値以上である場合、前記自動応答システムの運用から前記オペレータ運用に切り替える、
請求項３に記載の情報処理装置。
記憶部を有する情報処理装置が、
第１の音源の音声信号を取得し、
前記音声信号に基づいて、発話区間を検出し、
前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
前記発話区間特徴量に基づいて、音声認識を実行し、
前記記憶部に格納されている前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第１の音源の感情の値である感情値を推定し、
前記第１の音源は、第１のユーザであり、
前記第２の音源は、第２のユーザであり、
前記記憶部は、前記音声信号が取得される前に前記第２のユーザが発した発話の内容であるユーザ発話内容を記憶し、
前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせる内容である場合、注意を促す情報を出力する、
推定方法。
記憶部を有する情報処理装置が、
第１の音源の音声信号を取得し、
前記音声信号に基づいて、発話区間を検出し、
前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
前記発話区間特徴量に基づいて、音声認識を実行し、
前記記憶部に格納されている前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第１の音源の感情の値である感情値を推定し、
前記第１の音源は、第１のユーザであり、
前記第２の音源は、第２のユーザであり、
前記記憶部は、前記音声信号が取得される前に前記第２のユーザが発した発話の内容であるユーザ発話内容を記憶し、
前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせない内容である場合、問題がない旨を示す情報を出力する、
推定方法。
記憶部を有する情報処理装置が、
第１の音源の音声信号を取得し、
前記音声信号に基づいて、発話区間を検出し、
前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
前記発話区間特徴量に基づいて、音声認識を実行し、
前記記憶部に格納されている前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第１の音源の感情を推定し、
前記第１の音源は、ユーザであり、
前記第２の音源は、１以上の電気装置により実現される自動応答システムであり、
前記第１の音源の過去の感情を示す情報は、前記ユーザと前記自動応答システムとの会話が開始してから、推定された前記ユーザの感情の履歴であり、
前記ユーザの感情の履歴に基づいて、予め設定された時間内に、前記ユーザの感情が変化した回数を特定し、前記回数が予め設定された閾値以上であるか否かを判定し、前記回数が前記閾値以上である場合、前記自動応答システムの運用からオペレータ運用に切り替える、
推定方法。
記憶部を有する情報処理装置に、
第１の音源の音声信号を取得し、
前記音声信号に基づいて、発話区間を検出し、
前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
前記発話区間特徴量に基づいて、音声認識を実行し、
前記記憶部に格納されている前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第１の音源の感情の値である感情値を推定する、
処理を実行させる推定プログラムであり、
前記第１の音源は、第１のユーザであり、
前記第２の音源は、第２のユーザであり、
前記記憶部は、前記音声信号が取得される前に前記第２のユーザが発した発話の内容であるユーザ発話内容を記憶し、
前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせる内容である場合、注意を促す情報を出力する、
推定プログラム。
記憶部を有する情報処理装置に、
第１の音源の音声信号を取得し、
前記音声信号に基づいて、発話区間を検出し、
前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
前記発話区間特徴量に基づいて、音声認識を実行し、
前記記憶部に格納されている前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第１の音源の感情の値である感情値を推定する、
処理を実行させる推定プログラムであり、
前記第１の音源は、第１のユーザであり、
前記第２の音源は、第２のユーザであり、
前記記憶部は、前記音声信号が取得される前に前記第２のユーザが発した発話の内容であるユーザ発話内容を記憶し、
前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせない内容である場合、問題がない旨を示す情報を出力する、
推定プログラム。
記憶部を有する情報処理装置に、
第１の音源の音声信号を取得し、
前記音声信号に基づいて、発話区間を検出し、
前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
前記発話区間特徴量に基づいて、音声認識を実行し、
前記記憶部に格納されている前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第１の音源の感情を推定する、
処理を実行させる推定プログラムであり、
前記第１の音源は、ユーザであり、
前記第２の音源は、１以上の電気装置により実現される自動応答システムであり、
前記第１の音源の過去の感情を示す情報は、前記ユーザと前記自動応答システムとの会話が開始してから、推定された前記ユーザの感情の履歴であり、
前記ユーザの感情の履歴に基づいて、予め設定された時間内に、前記ユーザの感情が変化した回数を特定し、前記回数が予め設定された閾値以上であるか否かを判定し、前記回数が前記閾値以上である場合、前記自動応答システムの運用からオペレータ運用に切り替える、
推定プログラム。