JPWO2022049613A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2022049613A5
JPWO2022049613A5 JP2022546733A JP2022546733A JPWO2022049613A5 JP WO2022049613 A5 JPWO2022049613 A5 JP WO2022049613A5 JP 2022546733 A JP2022546733 A JP 2022546733A JP 2022546733 A JP2022546733 A JP 2022546733A JP WO2022049613 A5 JPWO2022049613 A5 JP WO2022049613A5
Authority
JP
Japan
Prior art keywords
sound source
emotion
utterance
user
information indicating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022546733A
Other languages
English (en)
Other versions
JPWO2022049613A1 (ja
JP7162783B2 (ja
Filing date
Publication date
Application filed filed Critical
Priority claimed from PCT/JP2020/032977 external-priority patent/WO2022049613A1/ja
Publication of JPWO2022049613A1 publication Critical patent/JPWO2022049613A1/ja
Application granted granted Critical
Publication of JP7162783B2 publication Critical patent/JP7162783B2/ja
Publication of JPWO2022049613A5 publication Critical patent/JPWO2022049613A5/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本開示の一態様に係る情報処理装置が提供される。情報処理装置は、第1の音源の音声信号を取得する取得部と、前記音声信号に基づいて、発話区間を検出し、前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出する検出抽出部と、前記発話区間特徴量に基づいて、音声認識を実行する音声認識実行部と、前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報とを記憶する記憶部と、前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第1の音源の過去の感情を示す情報、及び前記第2の音源の過去の感情を示す情報に基づいて、前記第1の音源の感情の値である感情値を推定する感情推定部と、出力部と、を有する。前記第1の音源は、第1のユーザである。前記第2の音源は、第2のユーザである。前記記憶部は、前記音声信号が取得される前に前記第2のユーザが発した発話の内容であるユーザ発話内容を記憶する。前記出力部は、前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせる内容である場合、注意を促す情報を出力する。

Claims (14)

  1. 第1の音源の音声信号を取得する取得部と、
    前記音声信号に基づいて、発話区間を検出し、前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出する検出抽出部と、
    前記発話区間特徴量に基づいて、音声認識を実行する音声認識実行部と、
    前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報とを記憶する記憶部と、
    前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第1の音源の過去の感情を示す情報、及び前記第2の音源の過去の感情を示す情報に基づいて、前記第1の音源の感情の値である感情値を推定する感情推定部と、
    出力部と、
    を有し、
    前記第1の音源は、第1のユーザであり、
    前記第2の音源は、第2のユーザであり、
    前記記憶部は、前記音声信号が取得される前に前記第2のユーザが発した発話の内容であるユーザ発話内容を記憶し、
    前記出力部は、前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせる内容である場合、注意を促す情報を出力する、
    情報処理装置。
  2. 第1の音源の音声信号を取得する取得部と、
    前記音声信号に基づいて、発話区間を検出し、前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出する検出抽出部と、
    前記発話区間特徴量に基づいて、音声認識を実行する音声認識実行部と、
    前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報とを記憶する記憶部と、
    前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第1の音源の過去の感情を示す情報、及び前記第2の音源の過去の感情を示す情報に基づいて、前記第1の音源の感情の値である感情値を推定する感情推定部と、
    出力部と、
    を有し、
    前記第1の音源は、第1のユーザであり、
    前記第2の音源は、第2のユーザであり、
    前記記憶部は、前記音声信号が取得される前に前記第2のユーザが発した発話の内容であるユーザ発話内容を記憶し、
    前記出力部は、前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせない内容である場合、問題がない旨を示す情報を出力する、
    情報処理装置。
  3. 第1の音源の音声信号を取得する取得部と、
    前記音声信号に基づいて、発話区間を検出し、前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出する検出抽出部と、
    前記発話区間特徴量に基づいて、音声認識を実行する音声認識実行部と、
    前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報とを記憶する記憶部と、
    前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第1の音源の過去の感情を示す情報、及び前記第2の音源の過去の感情を示す情報に基づいて、前記第1の音源の感情を推定する感情推定部と、
    切替判定部と、
    を有し、
    前記第1の音源は、ユーザであり、
    前記第2の音源は、1以上の電気装置により実現される自動応答システムであり、
    前記第1の音源の過去の感情を示す情報は、前記ユーザと前記自動応答システムとの会話が開始してから、推定された前記ユーザの感情の履歴であり、
    前記切替判定部は、前記ユーザの感情の履歴に基づいて、予め設定された時間内に、前記ユーザの感情が変化した回数を特定し、前記回数が予め設定された閾値以上であるか否かを判定し、前記回数が前記閾値以上である場合、前記自動応答システムの運用からオペレータ運用に切り替える、
    情報処理装置。
  4. 前記記憶部は、前記第1の音源と前記第2の音源との会話が開始してから、前記第1の音源が発した発話の内容を示す第1の発話履歴と前記第2の音源が発した発話の内容を示す第2の発話履歴とをさらに記憶し、
    前記感情推定部は、前記第1の発話履歴、前記第2の発話履歴、前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第1の音源の過去の感情を示す情報、及び前記第2の音源の過去の感情を示す情報に基づいて、前記第1の音源の感情を推定する、
    請求項1から3のいずれか1項に記載の情報処理装置。
  5. 前記第2の音源の過去の感情は、前記音声信号が取得される前に推定された感情であり、
    前記第1の音源の過去の感情は、前記第2の音源の過去の感情が推定される前に推定された感情である、
    請求項1から4のいずれか1項に記載の情報処理装置。
  6. 前記第1の音源の過去の感情を示す情報は、前記第1の音源と前記第2の音源との会話が開始してから、推定された前記第1の音源の感情の履歴であり、
    前記第2の音源の過去の感情を示す情報は、前記第1の音源と前記第2の音源との会話が開始してから、推定された前記第2の音源の感情の履歴である、
    請求項1から4のいずれか1項に記載の情報処理装置。
  7. 前記取得部は、前記第1の音源のパーソナリティ情報を取得し、
    前記感情推定部は、パーソナリティ情報と重みとの対応関係を示す重み情報を用いて学習することにより生成された学習済モデルと前記第1の音源のパーソナリティ情報とを用いて、前記第1の音源の感情を推定する、
    請求項1からのいずれか1項に記載の情報処理装置。
  8. 前記取得部は、前記ユーザのパーソナリティ情報を取得し、
    前記記憶部は、パーソナリティ情報と重みとの対応関係を示す重み情報を記憶し、
    前記切替判定部は、前記ユーザのパーソナリティ情報、前記回数、及び前記重み情報に基づいて、値を算出し、前記値が前記閾値以上である場合、前記自動応答システムの運用から前記オペレータ運用に切り替える、
    請求項に記載の情報処理装置。
  9. 記憶部を有する情報処理装置が、
    第1の音源の音声信号を取得し、
    前記音声信号に基づいて、発話区間を検出し、
    前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
    前記発話区間特徴量に基づいて、音声認識を実行し、
    前記記憶部に格納されている前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第1の音源の感情の値である感情値を推定
    前記第1の音源は、第1のユーザであり、
    前記第2の音源は、第2のユーザであり、
    前記記憶部は、前記音声信号が取得される前に前記第2のユーザが発した発話の内容であるユーザ発話内容を記憶し、
    前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせる内容である場合、注意を促す情報を出力する、
    推定方法。
  10. 記憶部を有する情報処理装置が、
    第1の音源の音声信号を取得し、
    前記音声信号に基づいて、発話区間を検出し、
    前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
    前記発話区間特徴量に基づいて、音声認識を実行し、
    前記記憶部に格納されている前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第1の音源の感情の値である感情値を推定
    前記第1の音源は、第1のユーザであり、
    前記第2の音源は、第2のユーザであり、
    前記記憶部は、前記音声信号が取得される前に前記第2のユーザが発した発話の内容であるユーザ発話内容を記憶し、
    前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせない内容である場合、問題がない旨を示す情報を出力する、
    推定方法。
  11. 記憶部を有する情報処理装置が、
    第1の音源の音声信号を取得し、
    前記音声信号に基づいて、発話区間を検出し、
    前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
    前記発話区間特徴量に基づいて、音声認識を実行し、
    前記記憶部に格納されている前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第1の音源の感情を推定
    前記第1の音源は、ユーザであり、
    前記第2の音源は、1以上の電気装置により実現される自動応答システムであり、
    前記第1の音源の過去の感情を示す情報は、前記ユーザと前記自動応答システムとの会話が開始してから、推定された前記ユーザの感情の履歴であり、
    前記ユーザの感情の履歴に基づいて、予め設定された時間内に、前記ユーザの感情が変化した回数を特定し、前記回数が予め設定された閾値以上であるか否かを判定し、前記回数が前記閾値以上である場合、前記自動応答システムの運用からオペレータ運用に切り替える、
    推定方法。
  12. 記憶部を有する情報処理装置に、
    第1の音源の音声信号を取得し、
    前記音声信号に基づいて、発話区間を検出し、
    前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
    前記発話区間特徴量に基づいて、音声認識を実行し、
    前記記憶部に格納されている前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第1の音源の感情の値である感情値を推定する、
    処理を実行させる推定プログラムであり、
    前記第1の音源は、第1のユーザであり、
    前記第2の音源は、第2のユーザであり、
    前記記憶部は、前記音声信号が取得される前に前記第2のユーザが発した発話の内容であるユーザ発話内容を記憶し、
    前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせる内容である場合、注意を促す情報を出力する、
    推定プログラム。
  13. 記憶部を有する情報処理装置に、
    第1の音源の音声信号を取得し、
    前記音声信号に基づいて、発話区間を検出し、
    前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
    前記発話区間特徴量に基づいて、音声認識を実行し、
    前記記憶部に格納されている前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第1の音源の感情の値である感情値を推定する、
    処理を実行させる推定プログラムであり、
    前記第1の音源は、第1のユーザであり、
    前記第2の音源は、第2のユーザであり、
    前記記憶部は、前記音声信号が取得される前に前記第2のユーザが発した発話の内容であるユーザ発話内容を記憶し、
    前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせない内容である場合、問題がない旨を示す情報を出力する、
    推定プログラム。
  14. 記憶部を有する情報処理装置に、
    第1の音源の音声信号を取得し、
    前記音声信号に基づいて、発話区間を検出し、
    前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
    前記発話区間特徴量に基づいて、音声認識を実行し、
    前記記憶部に格納されている前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第1の音源の感情を推定する、
    処理を実行させる推定プログラムであり、
    前記第1の音源は、ユーザであり、
    前記第2の音源は、1以上の電気装置により実現される自動応答システムであり、
    前記第1の音源の過去の感情を示す情報は、前記ユーザと前記自動応答システムとの会話が開始してから、推定された前記ユーザの感情の履歴であり、
    前記ユーザの感情の履歴に基づいて、予め設定された時間内に、前記ユーザの感情が変化した回数を特定し、前記回数が予め設定された閾値以上であるか否かを判定し、前記回数が前記閾値以上である場合、前記自動応答システムの運用からオペレータ運用に切り替える、
    推定プログラム。
JP2022546733A 2020-09-01 2020-09-01 情報処理装置、推定方法、及び推定プログラム Active JP7162783B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/032977 WO2022049613A1 (ja) 2020-09-01 2020-09-01 情報処理装置、推定方法、及び推定プログラム

Publications (3)

Publication Number Publication Date
JPWO2022049613A1 JPWO2022049613A1 (ja) 2022-03-10
JP7162783B2 JP7162783B2 (ja) 2022-10-28
JPWO2022049613A5 true JPWO2022049613A5 (ja) 2022-11-01

Family

ID=80491814

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022546733A Active JP7162783B2 (ja) 2020-09-01 2020-09-01 情報処理装置、推定方法、及び推定プログラム

Country Status (2)

Country Link
JP (1) JP7162783B2 (ja)
WO (1) WO2022049613A1 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008053826A (ja) * 2006-08-22 2008-03-06 Oki Electric Ind Co Ltd 電話応答システム
JP6450138B2 (ja) * 2014-10-07 2019-01-09 株式会社Nttドコモ 情報処理装置及び発話内容出力方法
JP7140358B2 (ja) * 2017-03-21 2022-09-21 日本電気株式会社 応対業務支援システム、応対業務支援方法、およびプログラム
JP6957933B2 (ja) * 2017-03-30 2021-11-02 日本電気株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP6732703B2 (ja) * 2017-07-21 2020-07-29 日本電信電話株式会社 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム

Similar Documents

Publication Publication Date Title
US11062705B2 (en) Information processing apparatus, information processing method, and computer program product
US7437286B2 (en) Voice barge-in in telephony speech recognition
JP3691511B2 (ja) 休止検出を行う音声認識
CN108346425B (zh) 一种语音活动检测的方法和装置、语音识别的方法和装置
GB2618629A (en) Device-directed utterance detection
GB2583420A (en) Speaker identification
CN110060665A (zh) 语速检测方法及装置、可读存储介质
EP3567586B1 (en) Voice interaction system, voice interaction method, and program
CN104318921A (zh) 音段切分检测方法及系统、口语评测方法及系统
KR20130134620A (ko) 디코딩 정보를 이용한 끝점 검출 장치 및 그 방법
CN112002349B (zh) 一种语音端点检测方法及装置
JP2000047696A5 (ja)
JP2018132624A (ja) 音声対話装置
JPWO2022049613A5 (ja)
CN117238288A (zh) 车辆控制方法和车辆
CN112185392A (zh) 一种用于供电智能客户的语音识别处理系统
CN112489692A (zh) 语音端点检测方法和装置
WO2017085815A1 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
CN112185365A (zh) 一种供电智能客户处理方法及系统
JP2018132623A (ja) 音声対話装置
KR101430342B1 (ko) 발화자의 거리 추정을 이용한 음성인식방법 및 음성인식장치
JP7172120B2 (ja) 音声認識装置及び音声認識方法
JP7162783B2 (ja) 情報処理装置、推定方法、及び推定プログラム
CN117894321B (zh) 一种语音交互方法、语音交互提示系统、装置
JP3360978B2 (ja) 音声認識装置