WO2020189340A1 - 情報処理装置および情報処理方法、並びにプログラム - Google Patents

情報処理装置および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2020189340A1
WO2020189340A1 PCT/JP2020/009678 JP2020009678W WO2020189340A1 WO 2020189340 A1 WO2020189340 A1 WO 2020189340A1 JP 2020009678 W JP2020009678 W JP 2020009678W WO 2020189340 A1 WO2020189340 A1 WO 2020189340A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
information
topic
unit
dialogue
Prior art date
Application number
PCT/JP2020/009678
Other languages
English (en)
French (fr)
Inventor
侑理 網本
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/593,004 priority Critical patent/US20220180871A1/en
Publication of WO2020189340A1 publication Critical patent/WO2020189340A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/15Biometric patterns based on physiological signals, e.g. heartbeat, blood flow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Cardiology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physiology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本開示は、よりスムーズな対話を実現することができるようにする情報処理装置および情報処理方法、並びにプログラムに関する。 トピック選定部は、ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定し、判定部は、話題を発話するタイミングであるか否かを、複数のユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定する。本技術は、例えば、ユーザと雑談を行ったり、ユーザ間の対話を補助する対話システムに適用できる。

Description

情報処理装置および情報処理方法、並びにプログラム
 本開示は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、よりスムーズな対話を実現することができるようにした情報処理装置および情報処理方法、並びにプログラムに関する。
 従来、対話システムを利用した様々なサービスが提供されており、このような対話システムには主に、タスク達成型と対話型との2種類がある。また、対話型の中には、雑談対話のタスクがあり、発話の生成時にトピックを選定するために、例えば、ウェブをクローリングすることにより蓄積した各種の情報が利用される。
 例えば、特許文献1には、ユーザと会話する話題に関する情報、および、ユーザの発話を認識した認識結果を用いて、ユーザと会話するための応答文を生成する会話処理装置が開示されている。
 なお、非特許文献1には、複数のユーザが対話しているときの話者交替(ターンテイキング)において、心理的に快適と感じられる時間長について記述されている。
特開2001-188787号公報
Heldner, Mattias, and Jens Edlund. "Pauses, gaps and overlaps in conversations." Journal of Phonetics 38.4 (2010): 555-568
 ところで、従来の対話システムでは、対話システムから主体的に発話するタイミングが、対話を行っているユーザにとって適切ではないことがあるため、対話システムとユーザとの間においてスムーズに対話を行うことができないだけでなく、複数のユーザ間の対話に対話システムが参加することについて技術的な困難があった。
 本開示は、このような状況に鑑みてなされたものであり、タイミングよくユーザと対話することができ、かつ、その場にいるユーザ間の対話を補助することによって、よりスムーズな対話を実現するようにするものである。
 本開示の一側面の情報処理装置は、ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定するトピック選定部と、前記話題を発話するタイミングであるか否かを、複数の前記ユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定する判定部とを備える。
 本開示の一側面の情報処理方法またはプログラムは、ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定することと、前記話題を発話するタイミングであるか否かを、複数の前記ユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定することとを含む。
 本開示の一側面においては、ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題が選定され、その話題を発話するタイミングであるか否かが、複数のユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定される。
本技術を適用した情報処理装置を備えた対話システムの一実施の形態の構成例を示すブロック図である。 雑談モード切り替え部の構成例を示すブロック図である。 対話状態測定部の構成例を示すブロック図である。 トピック選定部の構成例を示すブロック図である。 無声区間について説明する図である。 情報処理方法を説明するフローチャートである。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
 <対話システムの構成例>
 図1は、本技術を適用した情報処理装置を備えた対話システムの一実施の形態の構成例を示すブロック図である。
 図1において、対話システム11は、情報処理装置12、生体センサ13、撮像装置14、集音装置15、位置センサ16、および出力装置17を備えて構成される。また、情報処理装置12は、センシング結果取得部21、雑談モード切り替え部22、対話状態測定部23、トピック選定部24および25、無声区間判定部26、並びに、発話生成部27を備えて構成される。
 情報処理装置12は、生体センサ13、撮像装置14、集音装置15、および位置センサ16によるセンシング結果に基づいて生成した発話を出力装置17へ出力するために、対話システム11によるユーザとの対話を提供するのに必要な情報処理を行う。例えば、情報処理装置12は、センシング可能な位置で複数のユーザが対話していると認識したときに情報処理を開始し、複数のユーザどうしの間で話者を交代するターンテイキングが行われるたびに情報処理を行うことができる。
 生体センサ13は、例えば、ユーザの生体的な活動に伴って変化する様々な特徴を測定する測定機能を有しており、例えば、対話中のユーザの心拍や体温、運動強度、瞳孔の開きなどを測定する。そして、生体センサ13は、それらの測定結果を示す生体情報を、情報処理装置12に供給する。
 撮像装置14は、例えば、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサなどの撮像素子を有して構成され、対話中のユーザを含む周囲の状況を撮像した画像を取得し、その画像データを、情報処理装置12に供給する。
 集音装置15は、例えば、マイクロホンなどを有して構成され、対話中のユーザが発話した音声を集音して、その音声データを情報処理装置12に供給する。
 位置センサ16は、例えば、赤外線センサやToF(Time of Flight)センサなどを有して構成され、位置センサ16による測定可能な範囲内に居るユーザの位置を検出し、そのユーザの位置を示す位置情報を情報処理装置12に供給する。
 出力装置17は、例えば、スピーカなどを有して構成され、情報処理装置12から出力される音声データに従った音声を出力する。
 センシング結果取得部21は、生体センサ13から供給される生体情報、撮像装置14から供給される画像データ、集音装置15から供給される音声データ、および、位置センサ16から供給される位置情報を、センシング結果として取得する。そして、センシング結果取得部21は、生体情報、画像データ、および音声データを雑談モード切り替え部22に供給し、生体情報、画像データ、音声データ、および位置情報を対話状態測定部23に供給し、音声データを無声区間判定部26に供給する。
 雑談モード切り替え部22は、生体情報、画像データ、および音声データのうちの、少なくともいずれか1つに基づいて、対話システム11において雑談を主体的に生成するようなコンテキストであるかどうかを判断して、雑談モードのオン/オフを切り替える。例えば、雑談モード切り替え部22は、対話システム11において雑談を主体的に生成するようなコンテキストであると判断すると、雑談モードへの切り替えを行うと判定し、雑談モードがオンであることを対話状態測定部23に通知する。一方、雑談モード切り替え部22は、対話システム11において雑談を主体的に生成するようなコンテキストでないと判断すると、雑談モードへの切り替えを行わないと判定し、雑談モードがオフであることをトピック選定部24に通知する。なお、雑談モード切り替え部22の詳細な構成については、図2を参照して後述する。
 対話状態測定部23は、雑談モード切り替え部22から雑談モードがオンであることが通知されると、生体情報、画像データ、音声データ、および位置情報のうちの、少なくともいずれか1つに基づいて、対話中のユーザの対話状態を測定する。そして、対話状態測定部23は、測定の結果得られるユーザの対話状態に従って、そのユーザについてのリアルタイムのユーザ情報を取得し、トピック選定部25に供給する。なお、対話状態測定部23の詳細な構成については、図3を参照して後述する。
 トピック選定部24は、雑談モード切り替え部22から雑談モードがオフであることが通知されると、図示しない入力部を介してユーザにより入力される動作命令に従って、例えば、ユーザが事前に登録したユーザ情報に基づいた話題を選定する。そして、トピック選定部24は、選定した話題を示すトピック情報を発話生成部27に供給する。
 トピック選定部25は、対話状態測定部23から供給されるリアルタイムのユーザ情報に基づいて、進行中の対話の内容に適切となるような、その場のコンテキストに沿う話題を選定する。そして、トピック選定部25は、無声区間判定部26による無声区間の測定結果に基づいた発話タイミングに従って、選定した話題を示すトピック情報を発話生成部27に供給する。なお、トピック選定部25の詳細な構成については、図4を参照して後述する。
 無声区間判定部26は、音声データに基づいて無声区間を測定し、その測定結果に基づいて、対話システム11からの主体的なアクションを行うことが対話中のユーザにとって望ましいとされる発話タイミングであるか否かを判定する。そして、無声区間判定部26は、発話タイミングであると判定した場合、その旨をトピック選定部25に通知する。なお、発話タイミングであると判定する無声区間については、図5を参照して後述する。
 発話生成部27は、トピック選定部24または25から供給されたトピック情報により示される話題に従った発話を行うための音声データを生成し、出力装置17に供給する。例えば、発話生成部27は、予め話題ごとに収録された音源を組み込んで音声データを生成したり、話題の内容を示すテキストからリアルタイムに音声合成を行うことで音声データを生成したりすることができる。
 図2は、雑談モード切り替え部22の構成例を示すブロック図である。
 図2に示すように、雑談モード切り替え部22は、集中度測定部31、対象物特定部32、および発話状況認識部33を備えて構成される。
 集中度測定部31は、生体センサ13により取得された生体情報(心拍や、体温、瞳孔の開きなど)に基づいて、例えば、対話中のユーザが特定の対象物から受けた影響を求め、その対象物に対するユーザの集中度を測定する。
 対象物特定部32は、撮像装置14により取得された画像に基づいて、例えば、対話中のユーザが関心を持っている対象物を特定する。
 発話状況認識部33は、集音装置15により集音された音声に基づいて、例えば、対話中のユーザが発話を行う際の発話状況を認識する。
 そして、雑談モード切り替え部22は、対象物特定部32により特定された対象物に対して、集中度測定部31により測定されたユーザの集中度、および、発話状況認識部33により認識されたユーザの発話状況のうちの、少なくともいずれか1つに基づいて、対話中のユーザが雑談を許容する状態であるかどうかを判断する。そして、雑談モード切り替え部22は、対話中のユーザが雑談を許容する状態であると判断した場合には、雑談モードをオンにする。例えば、雑談モード切り替え部22は、ユーザがある特定の対象や事柄などに集中していたり頻繁に発話を行う発話状況であったりするときには、雑談を許容する状態ではないと判断し、その場合には、雑談モードをオフにする。また、例えば、雑談モード切り替え部22は、音声や画像などから場のコンテキストを解析した結果に基づいて文脈的には会話をしなくてはならないものの、コミュニケーションを取るのがユーザにとって難易度が高いとき(例えば、心拍数が上がりストレス状態にあると推定できるとき)に、雑談モードをオンにする。
 図3は、対話状態測定部23の構成例を示すブロック図である。
 図3に示すように、対話状態測定部23は、内部状態検知部41、認識情報検知部42、提示情報検知部43、および外部環境検知部44を備えて構成される。
 内部状態検知部41は、生体センサ13により取得された生体情報(心拍や、体温、瞳孔の開きなど)に基づいて、例えば、ユーザが対話に際して感じているストレスや、リラックス度合い、対話に注意を割いている割合などのようなユーザの内部状態を検知する。
 認識情報検知部42は、撮像装置14により取得された画像に基づいて、例えば、ユーザの人数や、ユーザどうしの対話時に行われたボディランゲージ、指示語により指示される対象物などを抽出する。これにより、認識情報検知部42は、ユーザが認識している環境の状態を検知し、その認識している環境の状態を示す認識情報を取得する。
 提示情報検知部43は、集音装置15により集音された音声に基づいて、例えば、音声認識によって認識することができる文字情報の他、発話の調子(強弱やリズムなど)を示す韻律情報を取得する。そして、対話状態測定部23は、ユーザが会話に乗り気であるか否か、ユーザの出身地(方言)、会話のトピック(言語)などのような、音声に基づいてユーザにより提示されるものを検知し、その提示されるものを示す提示情報を取得する。
 外部環境検知部44は、位置センサ16により検出された位置情報に基づいて、例えば、ユーザが対話をしている場所を示す外部環境(例えば、ユーザの自宅や、勤務先、その他の特定の場所など)を検知する。ここで、外部環境として検知される特定の場所として、事前に登録されている地図情報などを照合し、カフェ、美術館、病院などのような詳細を把握するようにしてもよい。
 そして、対話状態測定部23は、これらの検知結果(内部状態、認識情報、提示情報、および外部環境のうちの、少なくともいずれか1つ)を、対話状態に従ったリアルタイムのユーザ情報として、トピック選定部25に供給する。
 図4は、トピック選定部25の構成例を示すブロック図である。
 図4に示すように、トピック選定部25は、第1のトピックデータベース51、第1の選定処理部52、第2のトピックデータベース53、および第2の選定処理部54を備えて構成される。
 第1のトピックデータベース51には、カテゴリごとに整理された形で、雑談のトピックが登録されている。例えば、第1のトピックデータベース51では、過去に選定されたトピックについて、そのトピックが選定されたコンテキストやユーザの反応などを統合してスコアとして付与し、トピックのメタデータとして蓄積される。このようにトピックのメタデータを蓄積する際、スコアが著しく低くユーザが好まないトピックであると判定された内容については、そのトピックとの類似度の高いトピックも含め、選定され難くなるように低いスコアが付与される。さらに、第1のトピックデータベース51には、定期的にウェブクロールなどを行うことで登録されるトピックを自動拡充することができ、このとき、既に登録済みのトピックと重複しないようにトピックが登録される。
 第1の選定処理部52は、第1のトピックデータベース51を参照し、ユーザが事前に登録したユーザ情報に基づいた話題を選定して、その選択した話題を第2のトピックデータベース53に登録する選定処理を行う。例えば、第1の選定処理部52に登録されているユーザ情報としては、対話システム11が搭載された端末をユーザが利用することにより蓄積される利用履歴や、ユーザの年齢、ユーザの性別などが用いられることが想定される。なお、トピック選定部24も、第1のトピックデータベース51を参照して、ユーザが事前に登録したユーザ情報に基づいて話題を選定することができる。
 第2のトピックデータベース53には、第1の選定処理部52により選定された話題が登録される。
 第2の選定処理部54は、第2のトピックデータベース53を参照し、対話状態測定部23から供給されるリアルタイムのユーザ情報に基づいて話題を選定して、発話生成部27に供給する選定処理を行う。例えば、第2の選定処理部54は、リアルタイムのユーザ情報から、発話内容の意味を解析することによってユーザの関心のある事項や、その関心のある対象に対する極性を分析(分類)して、コンテキストに沿う話題を選定することができる。また、第2の選定処理部54は、ユーザの発話から固有名詞を抽出して、その際に現れた動詞のネガティブおよびポジティブを判定し、その判定結果を用いて、コンテキストに沿う話題を選定することができる。
 これにより、トピック選定部25は、登録済みのユーザ情報、および、リアルタイムのユーザ情報を利用して、その場で最もユーザにとって関心を持ちやすく、対話が長く続くようなトピックを効率良く選定することができる。
 図5を参照して、無声区間判定部26が発話タイミングであるか否かを判定するための無声区間について説明する。
 例えば、無声区間判定部26は、複数のユーザが対話しているときの話者交替(ターンテイキング)時に発生する無声区間を、発話タイミングのトリガーとして用いる。
 一般的に、ターンテイキングには心理的に快適と感じられる時間長があると考えられており、その時間長については、上述した非特許文献1に詳細に記載されている。例えば、対話の際に長い間が空くと、話者は、話し相手が直前の発話に対して何らかのネガティブな問題(返答の難易度が高い、話者のどちらかに会話を継続する意思がないなど)があると感じられると言われている。
 そこで、対話システム11では、このようなターンテイキング時に長すぎる無声区間が発生しないように、無声区間判定部26は、ユーザにとって快適と感じられる時間長を超える無声区間を検出した時点で、発話タイミングであると判定することができる。これにより、対話システム11が主体的に発話を行うことで、ターンテイキング時に、ユーザにとって快適と感じられる時間長を大きく超えるような無声区間が発生することが回避され、ユーザが、スムーズに会話を行うことができるようになる。
 例えば、図5には、ユーザAの発話に対して、3パターンでのユーザBの発話のタイミングが示されている。第1のパターンでのユーザBの発話のタイミングにおいては、発話にオーバーラップがあり無声区間が発生しないこと(オーバーラップの分だけマイナスの無声区間)になる。また、第2のパターンでのユーザBの発話のタイミングにおいては、無声区間がほぼ発生せずにスムーズにユーザ間の会話が続けられることになる。一方、第3のパターンでのユーザBの発話のタイミングにおいては、無声区間が長く発生しておりユーザ間の会話に快適性が失われることになる。
 従って、無声区間判定部26が、第3のパターンでのユーザBの発話のタイミングのように、ユーザAの発話終了からユーザBの発話開始までの無声区間が、ユーザにとって快適と感じられる時間長として予め設定されている所定時間(ユーザにとってターンテイキングが快適と感じられる時間長)を超えたことを検出すると、対話システム11による主体アクションが行われる。
 これにより、無声区間判定部26は、対話システム11が主体的に発話を生成するのに適切な発話タイミングを検出することができる。
 <情報処理の処理例>
 図6に示すフローチャートを参照して、図1の情報処理装置12において実行される情報処理について説明する。
 上述したように、ターンテイキングが行われるたびに情報処理が行われ、ステップS11において、センシング結果取得部21はセンシング結果を取得する。即ち、センシング結果取得部21は、生体センサ13から供給される生体情報、撮像装置14から供給される画像データ、集音装置15から供給される音声データ、および、位置センサ16から供給される位置情報を、センシング結果として取得する。
 ステップS12において、雑談モード切り替え部22では、集中度測定部31が、ユーザの集中度を測定し、対象物特定部32が、ユーザが関心を持っている対象物を特定し、発話状況認識部33が、ユーザの発話状況を認識する。
 ステップS13において、雑談モード切り替え部22は、雑談モードへの切り替えを行うか否かを判定する。例えば、雑談モード切り替え部22は、ステップS12において特定された対象物に対するユーザの集中度や発話状況などに基づいて、対話中のユーザが雑談を許容する状態である場合には、雑談モードへの切り替えを行うと判定する。
 ステップS13において、雑談モード切り替え部22が雑談モードへの切り替えを行うと判定した場合、処理はステップS14に進み、雑談モードがオンであることが対話状態測定部23に通知される。
 ステップS15において、対話状態測定部23は、ステップS11でセンシング結果取得部21により取得されたセンシング結果に基づいて、対話中のユーザの対話状態を測定することによりリアルタイムのユーザ情報を取得し、トピック選定部25に供給する。
 ステップS16において、トピック選定部25は、ステップS15で対話状態測定部23から供給されたリアルタイムのユーザ情報に基づいて、図4を参照して上述したように、その場のコンテキストに沿う話題を選定する。
 ステップS17において、無声区間判定部26は、図5を参照して上述したように、ユーザにとって快適と感じられる時間長を超える無声区間を検出することで、発話タイミングであるか否かを判定する。
 ステップS17において、無声区間判定部26が発話タイミングでないと判定した場合、処理はステップS15に戻り、以下、上述したのと同様の処理が繰り返して行われる。一方、ステップS17において、無声区間判定部26が発話タイミングであると判定した場合、処理はステップS18に進む。
 ステップS18において、トピック選定部25は、ステップS16で選定した話題を示すトピック情報を発話生成部27に供給する。そして、発話生成部27は、トピック選定部25から供給されたトピック情報により示される話題に従った発話を行うための音声データを生成し、出力装置17に供給した後、処理は終了される。
 一方、ステップS13において、雑談モード切り替え部22が雑談モードへの切り替えを行わないと判定した場合、処理はステップS19に進み、雑談モードがオフであることがトピック選定部24に通知される。
 ステップS20において、トピック選定部24は、図示しない入力部を介してユーザにより動作命令が入力されたか否かを判定する。
 ステップS20において、トピック選定部24が、動作命令が入力されたと判定した場合には処理はステップS21に進み、動作命令が入力されていないと判定した場合には処理は終了される。
 ステップS21において、トピック選定部24は、例えば、ユーザが事前に登録したユーザ情報に基づいた話題を選定し、その選定した話題を示すトピック情報を発話生成部27に供給する。その後、処理はステップS18に進み、発話生成部27が、トピック選定部24から供給されたトピック情報により示される話題に従った発話を行うための音声データを生成し、出力装置17に供給した後、処理は終了される。
 以上のような情報処理が行われることで、対話システム11は、トピック選定部25により選択された話題について発話する音声データに従った音声を出力装置17から出力することができる。これにより、対話システム11は、その場のコンテキストに応じて、ユーザ向きにカスタマイズされたトピックを提供して、よりユーザに特化した雑談会話を行うことができる。
 また、対話システム11は、無声区間判定部26による無声区間の検出に応じた発話タイミングで発話を生成することにより、その場の発話状況に応じて、より適切なタイミングで発話を生成することができる。即ち、対話システム11は、複数のユーザのセンシング結果を抽出して対話の話題を選定し、ターンテイキングのタイミングに基づく発話タイミングに従って発話を行うことで、その場にいるユーザ間の対話を補助するように対話に参加して、違和感なくスムーズに雑談会話を行うことができる。
 さらに、対話システム11は、語レベルでの相関、極性分類をリアルタイムに行いトピックを選定することができる。
 また、対話システム11は、ユーザからの対話を促すような発話、例えば、「なにか面白い話をして」や「なにか話して」というような動作の対象がないような対話の依頼に対しても、その発話をリアルタイムのユーザ情報として取得し、取得したユーザ情報(発話内容)に基づいてトピックを選定することで、自然な形で対話を開始することができる。これにより、ユーザは、対話システム11に対して自発的に対話を依頼することなく、ユーザ自身にフィットするような形式で対話システム11との対話を楽しむことができる。
 さらに、対話システム11は、ユーザからの質問をリアルタイムのユーザ情報として取得し、より適切な返答をトピックとして選択することで対話を行うユースケースで利用することができる。
 例えば、第1のユースケースとして、具体的には、不動産の内見に行く際など、ユーザにとって初対面の相手と車内をはじめとした閉鎖空間で過ごすのは心理的負荷が大きい状況であり、そのような状況で対話システム11を利用することが想定される。これにより、ユーザの心理的負荷の軽減を図ることができる。
 また、第2のユースケースとして、雑談を通して広範囲にわたってユーザ自身の興味のあるトピックに対して知識を深めることを促進するような状況で、対話システム11を利用することが想定される。例えば、美術館や博物館などのように、雑学のような知識を持っていた方が楽しめるコンテンツに対応するトピックを対話システム11が保持しておくことによって、ユーザは、より効果的にコンテンツに対して知識を深めることができる。例えば、美術館において、複数のユーザが、ある画家の所定の絵画を静かに眺めている場合に、対話システム11は、ユーザが注目している絵画を特定して、その絵画についての知識(画家の出身地や絵画が描かれた背景など)に基づいて対話を行うことができる。
 また、第3のユースケースとして、工場見学などように、複数のユーザが同じルートを通って様々な体験を行うタイプのイベントで、対話システム11を利用することが想定される。例えば、対話システム11は、グループごとに複数のユーザが興味を持っているトピックについて話題を投げかけることができる。そして、対話システム11を利用することで、工場見学などゲストの人数が多かったり、アテンドが話をし続けたりするスタイルの見学よりも、ユーザが主体的に体験にコミットしていくことが期待できる。
 また、第4のユースケースとして、災害時などが発生したときに面識のない他人とともに生活をするシーンで、対話システム11を利用することが想定される。例えば、対話システム11は、それぞれのユーザについてのユーザ情報を用いて共通事項を検索し、その共通事項に基づいて雑談を生成することができる。これにより、それぞれのユーザが自ら互いのことを探索しなくとも、対話システム11が、ユーザどうしで話しやすいトピックを提供することができる。
 さらに、その他のユースケースとして、対話システム11は、例えば、結婚活動における会話を代行するロボットに組み込むことが想定される。即ち、そのようなロボットを間に介在させることによって、初対面どうしであっても会話を円滑に行って、良好なコミュニケーションが取れるようになることが期待される。このように、対話システム11は、ユーザ間の対話を補助し、その場にいるユーザに特化したトピックについて主体的に発話を生成することで、よりスムーズに対話を行うことができる場を提供することができる。
 <コンピュータの構成例>
 次に、上述した一連の処理(情報処理方法)は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
 図7は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。
 プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
 あるいはまた、プログラムは、ドライブ109によって駆動されるリムーバブル記録媒体111に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウェアとして提供することができる。ここで、リムーバブル記録媒体111としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
 なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク105にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
 コンピュータは、CPU(Central Processing Unit)102を内蔵しており、CPU102には、バス101を介して、入出力インタフェース110が接続されている。
 CPU102は、入出力インタフェース110を介して、ユーザによって、入力部107が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、CPU102は、ハードディスク105に格納されたプログラムを、RAM(Random Access Memory)104にロードして実行する。
 これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
 なお、入力部107は、キーボードや、マウス、マイク等で構成される。また、出力部106は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
 また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
 さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 また、例えば、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。
 また、例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。
 また、例えば、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。換言するに、1つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を1つのステップとしてまとめて実行することもできる。
 なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
 なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。
 <構成の組み合わせ例>
 なお、本技術は以下のような構成も取ることができる。
(1)
 ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定するトピック選定部と、
 前記話題を発話するタイミングであるか否かを、複数の前記ユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定する判定部と
 を備える情報処理装置。
(2)
 前記ユーザの生体情報、前記ユーザを含む周囲の状況を撮像した画像、前記ユーザが発話した音声、および、前記ユーザの位置を示す位置情報のうち、少なくともいずれか1つを用いて、前記ユーザの対話状態を測定し、前記ユーザ情報を取得する対話状態測定部
 をさらに備える上記(1)に記載の情報処理装置。
(3)
 前記対話状態測定部は、
  前記生体情報に基づいて、前記ユーザの内部状態を検知する内部状態検知部と、
  前記画像に基づいて、前記ユーザが認識している環境の状態を示す認識情報を検知する認識情報検知部と、
  前記音声に基づいて、前記ユーザにより提示される提示情報を検知する提示情報検知部と、
  前記位置情報に基づいて、前記ユーザの外部環境を検知する外部環境検知部と
 を有し、
 前記内部状態、前記認識情報、前記提示情報、および前記外部環境のうちの、少なくともいずれか1つを、前記ユーザの対話状態に応じて更新されるユーザ情報として取得する
 上記(2)に記載の情報処理装置。
(4)
 前記生体情報、前記画像、および前記音声のうち、少なくともいずれか1つを用いて、前記トピック選定部により選定された前記話題に基づく雑談を生成するコンテキストであるか否かを判定する雑談モード切り替え部をさらに備え、
 前記雑談モード切り替え部は、前記雑談を生成するコンテキストであると判定した場合に、その旨を前記対話状態測定部に通知して前記ユーザ情報を前記トピック選定部に供給させる
 上記(2)または(3)に記載の情報処理装置。
(5)
 前記雑談モード切り替え部は、
  前記生体情報に基づいて、前記ユーザの集中度を測定する集中度測定部と、
  前記画像に基づいて、前記ユーザが関心を持っている対象物を特定する対象物特定部と、
  前記音声に基づいて、前記ユーザの発話状況を認識する発話状況認識部と
 を有し、
 前記集中度、前記対象物、および前記発話状況のうちの、少なくともいずれか1つに基づいて、前記ユーザが雑談を許容する状態であるかどうかを判断する
 上記(4)に記載の情報処理装置。
(6)
 前記ユーザによる動作命令の入力に従って、前記ユーザについて事前に登録されている登録済みのユーザ情報に基づいた前記話題を選定する動作命令トピック選定部をさらに備え、
 前記雑談モード切り替え部は、前記雑談を生成するコンテキストでないと判定した場合に、その旨を前記動作命令トピック選定部に通知して前記登録済みのユーザ情報に従った前記話題の選定を行わせる
 上記(4)または(5)に記載の情報処理装置。
(7)
 前記トピック選定部は、
  前記ユーザについて事前に登録されている登録済みのユーザ情報に基づいた話題を選定する第1の選定処理部と、
 前記第1の選定処理部により選定された話題の中から、前記ユーザの対話状態に応じて更新されるユーザ情報に基づいた話題を選定する第2の選定処理部と
 を有する
 上記(1)から(6)までのいずれかに記載の情報処理装置。
(8)
 前記トピック選定部は、前記ユーザからの対話を促す発話を前記ユーザの対話状態に応じて更新されるユーザ情報として取得し、前記ユーザ情報に基づいて前記話題を選定する
 上記(7)に記載の情報処理装置。
(9)
 前記トピック選定部は、前記ユーザ情報としてユーザからの質問を取得し、その質問に対する返答を前記話題として選定する
 上記(7)に記載の情報処理装置。
(10)
 前記判定部は、複数のユーザどうしで会話が行われているときに発話が行われていない無声区間が、予め設定された所定時間を超えたときに、前記話題を発話するタイミングであると判定する
 上記(1)から(9)までのいずれかに記載の情報処理装置。
(11)
 処理装置が、
 ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定することと、
 前記話題を発話するタイミングであるか否かを、複数の前記ユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定することと
 を含む情報処理方法。
(12)
 情報処理装置のコンピュータに、
 ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定することと、
 前記話題を発話するタイミングであるか否かを、複数の前記ユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定することと
 を含む情報処理を実行させるためのプログラム。
 なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 11 対話システム, 12 情報処理装置, 13 生体センサ, 14 撮像装置, 15 集音装置, 16 位置センサ, 17 出力装置, 21 センシング結果取得部, 22 雑談モード切り替え部, 23 対話状態測定部, 24および25 トピック選定部, 26 無声区間判定部, 27 発話生成部, 31 集中度測定部, 32 対象物特定部, 33 発話状況認識部, 41 内部状態検知部, 42 認識情報検知部, 43 提示情報検知部, 44 外部環境検知部, 51 第1のトピックデータベース, 52 第1の選定処理部52, 53 第2のトピックデータベース, 54 第2の選定処理部

Claims (12)

  1.  ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定するトピック選定部と、
     前記話題を発話するタイミングであるか否かを、複数の前記ユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定する判定部と
     を備える情報処理装置。
  2.  前記ユーザの生体情報、前記ユーザを含む周囲の状況を撮像した画像、前記ユーザが発話した音声、および、前記ユーザの位置を示す位置情報のうち、少なくともいずれか1つを用いて、前記ユーザの対話状態を測定し、前記ユーザ情報を取得する対話状態測定部
     をさらに備える請求項1に記載の情報処理装置。
  3.  前記対話状態測定部は、
      前記生体情報に基づいて、前記ユーザの内部状態を検知する内部状態検知部と、
      前記画像に基づいて、前記ユーザが認識している環境の状態を示す認識情報を検知する認識情報検知部と、
      前記音声に基づいて、前記ユーザにより提示される提示情報を検知する提示情報検知部と、
      前記位置情報に基づいて、前記ユーザの外部環境を検知する外部環境検知部と
     を有し、
     前記内部状態、前記認識情報、前記提示情報、および前記外部環境のうちの、少なくともいずれか1つを、前記ユーザの対話状態に応じて更新されるユーザ情報として取得する
     請求項2に記載の情報処理装置。
  4.  前記生体情報、前記画像、および前記音声のうち、少なくともいずれか1つを用いて、前記トピック選定部により選定された前記話題に基づく雑談を生成するコンテキストであるか否かを判定する雑談モード切り替え部をさらに備え、
     前記雑談モード切り替え部は、前記雑談を生成するコンテキストであると判定した場合に、その旨を前記対話状態測定部に通知して前記ユーザ情報を前記トピック選定部に供給させる
     請求項2に記載の情報処理装置。
  5.  前記雑談モード切り替え部は、
      前記生体情報に基づいて、前記ユーザの集中度を測定する集中度測定部と、
      前記画像に基づいて、前記ユーザが関心を持っている対象物を特定する対象物特定部と、
      前記音声に基づいて、前記ユーザの発話状況を認識する発話状況認識部と
     を有し、
     前記集中度、前記対象物、および前記発話状況のうちの、少なくともいずれか1つに基づいて、前記ユーザが雑談を許容する状態であるかどうかを判断する
     請求項4に記載の情報処理装置。
  6.  前記ユーザによる動作命令の入力に従って、前記ユーザについて事前に登録されている登録済みのユーザ情報に基づいた前記話題を選定する動作命令トピック選定部をさらに備え、
     前記雑談モード切り替え部は、前記雑談を生成するコンテキストでないと判定した場合に、その旨を前記動作命令トピック選定部に通知して前記登録済みのユーザ情報に従った前記話題の選定を行わせる
     請求項4に記載の情報処理装置。
  7.  前記トピック選定部は、
      前記ユーザについて事前に登録されている登録済みのユーザ情報に基づいた前記話題を選定する第1の選定処理部と、
     前記第1の選定処理部により選定された前記話題の中から、前記ユーザの対話状態に応じて更新されるユーザ情報に基づいた前記話題を選定する第2の選定処理部と
     を有する
     請求項1に記載の情報処理装置。
  8.  前記トピック選定部は、前記ユーザからの対話を促す発話を前記ユーザの対話状態に応じて更新されるユーザ情報として取得し、前記ユーザ情報に基づいて前記話題を選定する
     請求項7に記載の情報処理装置。
  9.  前記トピック選定部は、前記ユーザ情報としてユーザからの質問を取得し、その質問に対する返答を前記話題として選定する
     請求項7に記載の情報処理装置。
  10.  前記判定部は、複数のユーザどうしで会話が行われているときに発話が行われていない無声区間が、予め設定された所定時間を超えたときに、前記話題を発話するタイミングであると判定する
     請求項1に記載の情報処理装置。
  11.  処理装置が、
     ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定することと、
     前記話題を発話するタイミングであるか否かを、複数の前記ユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定することと
     を含む情報処理方法。
  12.  情報処理装置のコンピュータに、
     ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定することと、
     前記話題を発話するタイミングであるか否かを、複数の前記ユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定することと
     を含む情報処理を実行させるためのプログラム。
PCT/JP2020/009678 2019-03-20 2020-03-06 情報処理装置および情報処理方法、並びにプログラム WO2020189340A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/593,004 US20220180871A1 (en) 2019-03-20 2020-03-06 Information processing device, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019052649 2019-03-20
JP2019-052649 2019-03-20

Publications (1)

Publication Number Publication Date
WO2020189340A1 true WO2020189340A1 (ja) 2020-09-24

Family

ID=72520986

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/009678 WO2020189340A1 (ja) 2019-03-20 2020-03-06 情報処理装置および情報処理方法、並びにプログラム

Country Status (2)

Country Link
US (1) US20220180871A1 (ja)
WO (1) WO2020189340A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004096171A (ja) * 2002-08-29 2004-03-25 Advanced Telecommunication Research Institute International 通話活性化システム
WO2018142686A1 (ja) * 2017-01-31 2018-08-09 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019035897A (ja) * 2017-08-18 2019-03-07 ヤフー株式会社 決定装置、決定方法、及び決定プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8265252B2 (en) * 2008-04-11 2012-09-11 Palo Alto Research Center Incorporated System and method for facilitating cognitive processing of simultaneous remote voice conversations
US10079013B2 (en) * 2013-11-27 2018-09-18 Sri International Sharing intents to provide virtual assistance in a multi-person dialog
US20160164813A1 (en) * 2014-12-04 2016-06-09 Intel Corporation Conversation agent
WO2018177561A1 (en) * 2017-03-31 2018-10-04 Intel Corporation Management of human-machine dialogue involving multiple parties
JP7095254B2 (ja) * 2017-10-10 2022-07-05 トヨタ自動車株式会社 対話システムおよびドメイン決定方法
US20190122661A1 (en) * 2017-10-23 2019-04-25 GM Global Technology Operations LLC System and method to detect cues in conversational speech
EP3486900A1 (en) * 2017-11-16 2019-05-22 Softbank Robotics Europe System and method for dialog session management
US10957320B2 (en) * 2019-01-25 2021-03-23 International Business Machines Corporation End-of-turn detection in spoken dialogues

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004096171A (ja) * 2002-08-29 2004-03-25 Advanced Telecommunication Research Institute International 通話活性化システム
WO2018142686A1 (ja) * 2017-01-31 2018-08-09 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2019035897A (ja) * 2017-08-18 2019-03-07 ヤフー株式会社 決定装置、決定方法、及び決定プログラム

Also Published As

Publication number Publication date
US20220180871A1 (en) 2022-06-09

Similar Documents

Publication Publication Date Title
Rudzicz et al. Speech interaction with personal assistive robots supporting aging at home for individuals with Alzheimer’s disease
Bone et al. The psychologist as an interlocutor in autism spectrum disorder assessment: Insights from a study of spontaneous prosody
De Looze et al. Investigating automatic measurements of prosodic accommodation and its dynamics in social interaction
US10020007B2 (en) Conversation analysis device, conversation analysis method, and program
Ramakrishnan Recognition of emotion from speech: A review
Cen et al. A real-time speech emotion recognition system and its application in online learning
Truong et al. Speech-based recognition of self-reported and observed emotion in a dimensional space
Alonso-Martín et al. Integration of a voice recognition system in a social robot
JP2017009826A (ja) グループ状態判定装置およびグループ状態判定方法
JP6970413B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP2006071936A (ja) 対話エージェント
Borrie et al. Syncing up for a good conversation: A clinically meaningful methodology for capturing conversational entrainment in the speech domain
JP2017009825A (ja) 会話状況分析装置および会話状況分析方法
JP2017010309A (ja) 意思決定支援装置および意思決定支援方法
JP2018169506A (ja) 会話満足度推定装置、音声処理装置および会話満足度推定方法
Siegert et al. How do we speak with Alexa: Subjective and objective assessments of changes in speaking style between HC and HH conversations
JP2018171683A (ja) ロボットの制御プログラム、ロボット装置、及びロボットの制御方法
Siegert et al. “Speech Melody and Speech Content Didn’t Fit Together”—Differences in Speech Behavior for Device Directed and Human Directed Interactions
JP7160778B2 (ja) 評価システム、評価方法、及びコンピュータプログラム。
JP6258172B2 (ja) 音情報処理装置及びシステム
US11386920B2 (en) Interactive group session computing systems and related methods
WO2020189340A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP2020154378A (ja) 自己との対話装置、チャットボット、およびロボット
JP6647636B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
WO2020196743A1 (ja) 評価システム及び評価方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20773283

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20773283

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP