WO2020129182A1 - 対話装置、対話システムおよび対話プログラム - Google Patents
対話装置、対話システムおよび対話プログラム Download PDFInfo
- Publication number
- WO2020129182A1 WO2020129182A1 PCT/JP2018/046791 JP2018046791W WO2020129182A1 WO 2020129182 A1 WO2020129182 A1 WO 2020129182A1 JP 2018046791 W JP2018046791 W JP 2018046791W WO 2020129182 A1 WO2020129182 A1 WO 2020129182A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- unit
- dialogue
- input
- speaker
- Prior art date
Links
- 230000002452 interceptive Effects 0.000 title claims abstract description 20
- 230000004044 response Effects 0.000 claims abstract description 149
- 238000000034 method Methods 0.000 claims description 17
- 230000002349 favourable Effects 0.000 abstract 2
- 240000002347 Colocasia esculenta Species 0.000 description 89
- 235000006481 Colocasia esculenta Nutrition 0.000 description 89
- 230000006399 behavior Effects 0.000 description 21
- 230000005540 biological transmission Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000006011 modification reaction Methods 0.000 description 7
- 101700050571 SUOX Proteins 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 235000015927 pasta Nutrition 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 3
- 230000000875 corresponding Effects 0.000 description 3
- 230000002194 synthesizing Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002860 competitive Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000120694 Thestor Species 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 238000004090 dissolution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N ethanol Chemical compound   CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural Effects 0.000 description 1
- 230000003287 optical Effects 0.000 description 1
- 244000144985 peep Species 0.000 description 1
- 230000002093 peripheral Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3608—Destination input or retrieval using speech input, e.g. using speech recognition
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3617—Destination input or retrieval using user history, behaviour, conditions or preferences, e.g. predicted or inferred from previous use or current movement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
発話者と音声対話を行う対話装置は、発話者の周囲の対象者を認識する認識部と、情報を音声により入出力する入出力部と、入出力部に入力された第1情報に応答する第2情報を生成する情報生成部と、第1情報を発した発話者を特定する特定部と、第2情報が特定部で特定された発話者にとって好ましい情報か否かを判断し、好ましいと判断された第2情報を入出力部から出力させる制御部とを備える。
Description
本発明は、対話装置、対話システムおよび対話プログラムに関する。
いわゆるAIスピーカ(AIアシスタント機能を備えるスピーカ)と呼ばれる対話装置の周囲の人に向けて、指向性を異ならせて音声を再生する技術が知られている(特許文献1参照)。しかしながら、他の人に知られたくない情報が再生される場合がある。
本発明の第1の態様によると、対話機能を有する対話装置は、発話者と音声対話を行う対話装置であって、前記発話者の周囲の対象者を認識する認識部と、情報を音声により入出力する入出力部と、前記入出力部に入力された第1情報に応答する第2情報を生成する情報生成部と、前記第1情報を発した発話者を特定する特定部と、前記第2情報が前記特定部で特定された発話者にとって好ましい情報か否かを判断し、好ましいと判断された前記第2情報を前記入出力部から出力させる制御部とを備える。
本発明の第2の態様によると、対話機能を有する対話システムは、質問を認識し、前記質問に対する回答を出力する対話システムにおいて、標準的な第1回答を出力する第1回答モードと、周囲環境を考慮した第2回答を出力する第2回答モードと、を有する対話部と、質問者のジェスチャーを認識する認識部と、前記ジェスチャーが認識された場合、前記第1回答モードから前記第2回答モードへ切り替える制御を行う制御部とを備える。
本発明の第3の態様によると、対話プログラムは、発話者と音声対話を行う対話装置に搭載されるコンピュータに実行させるプログラムであって、周囲の環境を認識する処理と、情報を入力する処理と、前記入力された第1情報に応答する第2情報を生成する処理と、前記第1情報を発した発話者を特定する処理と、前記第2情報が、前記認識された周囲の環境もしくは前記特定された発話者にとって好ましい情報か否かを判断し、好ましいと判断された前記第2情報を出力する処理と、を実行させる。
本発明の第2の態様によると、対話機能を有する対話システムは、質問を認識し、前記質問に対する回答を出力する対話システムにおいて、標準的な第1回答を出力する第1回答モードと、周囲環境を考慮した第2回答を出力する第2回答モードと、を有する対話部と、質問者のジェスチャーを認識する認識部と、前記ジェスチャーが認識された場合、前記第1回答モードから前記第2回答モードへ切り替える制御を行う制御部とを備える。
本発明の第3の態様によると、対話プログラムは、発話者と音声対話を行う対話装置に搭載されるコンピュータに実行させるプログラムであって、周囲の環境を認識する処理と、情報を入力する処理と、前記入力された第1情報に応答する第2情報を生成する処理と、前記第1情報を発した発話者を特定する処理と、前記第2情報が、前記認識された周囲の環境もしくは前記特定された発話者にとって好ましい情報か否かを判断し、好ましいと判断された前記第2情報を出力する処理と、を実行させる。
図1は、一実施の形態における対話システムの構成を例示する図である。
本実施の形態では、車両の乗員が、音声によりナビゲーション装置200に案内を要求する状況を例に説明する。対話システムは、入出力装置10、人工知能(Artificial Intelligence)110、データベース120、およびナビゲーション装置200により構成される。入出力装置10、人工知能110、データベース120は、ネットワーク100を介して接続されている。
なお、入出力装置10およびナビゲーション装置200は、一体に構成してもよい。一体に構成した場合、一体構成したナビゲーション装置200がネットワーク100に接続される。
また、ナビゲーション装置200を設ける代わりに、ナビゲーションサービスを提供するクラウドサーバーをネットワーク100に接続可能に設け、入出力装置10とクラウドサーバーとをネットワーク100を介して接続する構成にしてもよい。
本実施の形態では、車両の乗員が、音声によりナビゲーション装置200に案内を要求する状況を例に説明する。対話システムは、入出力装置10、人工知能(Artificial Intelligence)110、データベース120、およびナビゲーション装置200により構成される。入出力装置10、人工知能110、データベース120は、ネットワーク100を介して接続されている。
なお、入出力装置10およびナビゲーション装置200は、一体に構成してもよい。一体に構成した場合、一体構成したナビゲーション装置200がネットワーク100に接続される。
また、ナビゲーション装置200を設ける代わりに、ナビゲーションサービスを提供するクラウドサーバーをネットワーク100に接続可能に設け、入出力装置10とクラウドサーバーとをネットワーク100を介して接続する構成にしてもよい。
<入出力装置10>
入出力装置10は、発話者が発した音声を入力するとともに、対話システムで合成された音声を出力する。図2は、入出力装置10の構成を例示する図である。入出力装置10は、入力部20、出力部30、認識部40、制御部50、通信部60、および情報選択部70を備える。
入出力装置10は、発話者が発した音声を入力するとともに、対話システムで合成された音声を出力する。図2は、入出力装置10の構成を例示する図である。入出力装置10は、入力部20、出力部30、認識部40、制御部50、通信部60、および情報選択部70を備える。
(入力部20)
入力部20は、入出力装置10のユーザ、本実施の形態では車両の乗員からの発話音声を受け付ける機能を有する。このため、入力部20は、音声を入力して電気的な音声信号に変換するマイクロフォン21と、入力された音声を認識する音声認識部22とを含んで構成される。音声認識部22は、入力された音声をテキスト情報に変換(テキスト化)することもできる。
なお、入力部20のマイクロフォン21は、たとえば、乗員の着座位置に合わせて集音できるように、複数台が配置されていてもよい。
入力部20は、入出力装置10のユーザ、本実施の形態では車両の乗員からの発話音声を受け付ける機能を有する。このため、入力部20は、音声を入力して電気的な音声信号に変換するマイクロフォン21と、入力された音声を認識する音声認識部22とを含んで構成される。音声認識部22は、入力された音声をテキスト情報に変換(テキスト化)することもできる。
なお、入力部20のマイクロフォン21は、たとえば、乗員の着座位置に合わせて集音できるように、複数台が配置されていてもよい。
(出力部30)
出力部30は、車両の乗員に対して音声情報や視覚情報を提供する機能を有する。このため、出力部30は、スピーカ31と表示部32を含んで構成される。スピーカ31は、音声情報として合成音声を再生する。合成音声は、出力部30により、たとえば上記テキスト情報を読み上げ処理するなどして生成される。出力部30は、入力された音声をテキスト情報に変換することなしに、音声信号に基づく再生音声をスピーカ31から再生させることもできる。
また、液晶ディスプレー装置などで構成される表示部32は、視覚情報としてテキスト画面を表示する。テキスト画面は、テキスト情報に基づいて生成される。
出力部30は、車両の乗員に対して音声情報や視覚情報を提供する機能を有する。このため、出力部30は、スピーカ31と表示部32を含んで構成される。スピーカ31は、音声情報として合成音声を再生する。合成音声は、出力部30により、たとえば上記テキスト情報を読み上げ処理するなどして生成される。出力部30は、入力された音声をテキスト情報に変換することなしに、音声信号に基づく再生音声をスピーカ31から再生させることもできる。
また、液晶ディスプレー装置などで構成される表示部32は、視覚情報としてテキスト画面を表示する。テキスト画面は、テキスト情報に基づいて生成される。
(認識部40)
認識部40は、車両の乗員の特定に用いられる情報を得るための画像認識機能を有する。このため、認識部40は、静止画像または動画像を撮像するカメラ41を含んで構成される。認識部40は、カメラ41によって撮像された画像に基づき、車内の人物の顔を認識し、顔部分の画像から得た特徴量情報を記憶する。記憶された特徴量情報は、乗員の特定に用いられる。
また、認識部40は、乗員のID、たとえば免許証等の情報(番号等)を取得する読み取り装置42を含んでもよい。認識部40は、読み取り装置42によって取得した情報と、カメラ41によって撮像された乗員の顔画像に基づく特徴量情報とを対応づけて記憶する。この対応付けは、たとえば、読み取り装置42による情報の取得と、カメラ41による乗員の撮像とを対でおこなうようなアルゴリズムを採用すればよい。記憶された、読み取り装置42による取得情報およびこの情報に対応づけられた特徴量情報は、乗員の特定に用いられる。
なお、認識部40に備えられるカメラ41は、1台に限定されない。カメラ41は、たとえば、車内の座席ごとに複数のカメラ41が配置されていてもよい。
認識部40は、車両の乗員の特定に用いられる情報を得るための画像認識機能を有する。このため、認識部40は、静止画像または動画像を撮像するカメラ41を含んで構成される。認識部40は、カメラ41によって撮像された画像に基づき、車内の人物の顔を認識し、顔部分の画像から得た特徴量情報を記憶する。記憶された特徴量情報は、乗員の特定に用いられる。
また、認識部40は、乗員のID、たとえば免許証等の情報(番号等)を取得する読み取り装置42を含んでもよい。認識部40は、読み取り装置42によって取得した情報と、カメラ41によって撮像された乗員の顔画像に基づく特徴量情報とを対応づけて記憶する。この対応付けは、たとえば、読み取り装置42による情報の取得と、カメラ41による乗員の撮像とを対でおこなうようなアルゴリズムを採用すればよい。記憶された、読み取り装置42による取得情報およびこの情報に対応づけられた特徴量情報は、乗員の特定に用いられる。
なお、認識部40に備えられるカメラ41は、1台に限定されない。カメラ41は、たとえば、車内の座席ごとに複数のカメラ41が配置されていてもよい。
(制御部50)
制御部50は、たとえばマイクロプロセッサ又はマイクロコンピュータ等により構成され、入出力装置10が備える各構成の動作を制御する機能を有する。制御部50は、入力部20による入力制御、出力部30による出力制御、認識部40による認識制御、通信部60による通信制御、情報選択部70による選択制御などを行う。
制御部50は、たとえばマイクロプロセッサ又はマイクロコンピュータ等により構成され、入出力装置10が備える各構成の動作を制御する機能を有する。制御部50は、入力部20による入力制御、出力部30による出力制御、認識部40による認識制御、通信部60による通信制御、情報選択部70による選択制御などを行う。
たとえば、制御部50は、入力部20を介して音声で入力された乗員の要求に基づき、通信部60を介して、ナビゲーション装置200に目的地の候補を探索させたり、目的地へルート案内させたりする。また、制御部50は、入力部20を介して音声で入力された乗員の要求に基づき、通信部60を介して、人工知能110に乗員要求に応じた応答文を生成させる。さらにまた、制御部50は、認識部40による認識結果に基づいて乗員を特定し、通信部60を介してデータベース120にアクセスし、特定した乗員に関する情報、すなわち乗員関連情報の読み書きを行う。データベース120から取得した乗員関連情報は、後述する情報選択部70によって応答文を選択する場合に用いられる。
(通信部60)
通信部60は、外部機器としてのナビゲーション装置200、人工知能110、およびデータベース120と通信を行う機能を有する。通信部60は、制御部50からの指示に基づき、ナビゲーション装置200に対して目的地を探索させる指示や、目的地へルート案内させる指示を送信する。また、通信部60は、制御部50からの指示に基づき、人工知能110との間で音声信号やテキスト情報を送受信する。さらにまた、通信部60は、制御部50からの指示に基づき、データベース120との間でデータを送受信する。通信部60とネットワーク100との間は、有線又は無線により接続可能である。
通信部60はさらに、乗員が携帯するスマートフォン(不図示)とBluetooh(登録商標)などの近距離無線通信を行うこともできる。
通信部60は、外部機器としてのナビゲーション装置200、人工知能110、およびデータベース120と通信を行う機能を有する。通信部60は、制御部50からの指示に基づき、ナビゲーション装置200に対して目的地を探索させる指示や、目的地へルート案内させる指示を送信する。また、通信部60は、制御部50からの指示に基づき、人工知能110との間で音声信号やテキスト情報を送受信する。さらにまた、通信部60は、制御部50からの指示に基づき、データベース120との間でデータを送受信する。通信部60とネットワーク100との間は、有線又は無線により接続可能である。
通信部60はさらに、乗員が携帯するスマートフォン(不図示)とBluetooh(登録商標)などの近距離無線通信を行うこともできる。
(情報選択部70)
情報選択部70は、出力部30から車両の乗員に提供される情報を選択する機能を有する。情報選択部70は、たとえば、ナビゲーション装置200によって複数の目的地が得られた場合には、乗員に提供する目的地を選択する。たとえば、情報選択部70は合理的な観点により、現在位置から近い目的地を選ぶ。
情報選択部70は、出力部30から車両の乗員に提供される情報を選択する機能を有する。情報選択部70は、たとえば、ナビゲーション装置200によって複数の目的地が得られた場合には、乗員に提供する目的地を選択する。たとえば、情報選択部70は合理的な観点により、現在位置から近い目的地を選ぶ。
情報選択部70はさらに、人工知能110によって複数の応答文が生成された場合には、乗員に提供する応答文を選択する。たとえば、情報選択部70は、応答文の内容が車内の乗員の全員に知られてもよい情報か、全員には知られたくない情報かを判断することによって、乗員に提供する応答文を選択する。応答文が全ての乗員に知られてよいか、知られたくないかを判断する判断規則は、情報選択部70の情報記憶部71に格納されている。判断規則については後述する。
このように、情報選択部70は、人工知能110によって生成された応答文を車内で提供するか否かを判断する判断部としても機能する。
このように、情報選択部70は、人工知能110によって生成された応答文を車内で提供するか否かを判断する判断部としても機能する。
なお、入出力装置10は、マイクロフォン21、スピーカ31、カメラ41、および通信部60などを備えた電子機器であればよく、たとえばスマートフォンであってもよいし、AI(Artificial Intelligence)スピーカであってもよい。
<人工知能>
図3は、人工知能110の構成を例示する図である。人工知能110は、音声認識部111、回答生成部112、音声合成部113、制御部114、および通信部115を備える。
図3は、人工知能110の構成を例示する図である。人工知能110は、音声認識部111、回答生成部112、音声合成部113、制御部114、および通信部115を備える。
(音声認識部111)
音声認識部111は、通信部115によって受信された入出力装置10からの音声信号を入力し、入力された音声を認識する機能を有する。音声認識部111はさらに、入力された音声をテキスト情報に変換(テキスト化)する。なお、通信部115によって入出力装置10からのテキスト情報が受信された場合には、音声認識部111によるテキスト化処理は省略される。
音声認識部111は、通信部115によって受信された入出力装置10からの音声信号を入力し、入力された音声を認識する機能を有する。音声認識部111はさらに、入力された音声をテキスト情報に変換(テキスト化)する。なお、通信部115によって入出力装置10からのテキスト情報が受信された場合には、音声認識部111によるテキスト化処理は省略される。
(回答生成部112)
回答生成部112は、テキスト情報に基づいて、乗員の発話意図を抽出する機能を有する。たとえば、「イタリアンレストランへ行きたい。」、「イタリアンレストランへ案内して。」、「イタリアンレストランがいいな。」などの場合は、「イタリアンレストランを探して。」という発話意図とする。
回答生成部112は、テキスト情報に基づいて、乗員の発話意図を抽出する機能を有する。たとえば、「イタリアンレストランへ行きたい。」、「イタリアンレストランへ案内して。」、「イタリアンレストランがいいな。」などの場合は、「イタリアンレストランを探して。」という発話意図とする。
また、回答生成部112は、「パスタを食べたい。」、「マルゲリータがいい。」、「カルパッチョを食べたい。」などの場合にも、「イタリアンレストランを探して。」という発話意図とする。テキスト情報と発話意図との関係性は、たとえば、ニューラルネットワーク、回帰モデルなどの機械学習手法、または統計的手法に基づいて設計することができる。
回答生成部112はさらに、抽出した発話意図に対して回答を生成する機能を有する。回答生成部112は、たとえば、「イタリアンレストランを探して。」という発話意図に対応して、「イタリアンレストランを探します。」という応答文を生成する。回答生成部112には、複数の発話意図と、それぞれに対応する応答文とが格納された情報記憶部112aを有する。応答文は、たとえば、テキスト化された応答テキスト情報として生成される。
(音声合成部113)
音声合成部113は、応答テキスト情報を読み上げ処理するなどして合成音声を生成する機能を有する。合成音声は、通信部115を介して入出力装置10へ送信される。
なお、入出力装置10から送信されたテキスト情報が通信部115によって受信されている場合には、音声合成部113による合成音声を生成する処理は省略される。そのため、回答生成部112で生成された応答テキスト情報が、通信部115を介して入出力装置10へ送信される。
音声合成部113は、応答テキスト情報を読み上げ処理するなどして合成音声を生成する機能を有する。合成音声は、通信部115を介して入出力装置10へ送信される。
なお、入出力装置10から送信されたテキスト情報が通信部115によって受信されている場合には、音声合成部113による合成音声を生成する処理は省略される。そのため、回答生成部112で生成された応答テキスト情報が、通信部115を介して入出力装置10へ送信される。
(制御部114)
制御部114は、たとえばコンピュータ装置等により構成され、人工知能110が備える各構成の動作を制御する機能を有する。また、本実施の形態に係る制御部114は、各構成による処理の結果を構成間で連携する機能を有する。
制御部114は、たとえばコンピュータ装置等により構成され、人工知能110が備える各構成の動作を制御する機能を有する。また、本実施の形態に係る制御部114は、各構成による処理の結果を構成間で連携する機能を有する。
(通信部115)
通信部115は、外部機器としての入出力装置10と通信を行う機能を有する。本実施の形態に係る通信部115は、たとえば、入出力装置10と音声信号を送受する音声通話を実現したり、入出力装置10とテキスト情報を送受したりする。
通信部115は、外部機器としての入出力装置10と通信を行う機能を有する。本実施の形態に係る通信部115は、たとえば、入出力装置10と音声信号を送受する音声通話を実現したり、入出力装置10とテキスト情報を送受したりする。
以上のように、図3を参照して説明した本実施の形態に係る人工知能110の機能構成は、あくまで一例であり、図3の例に限定されない。人工知能110が有する各機能は、上述した機械学習手法や統計的手法に基づいて設計される。また、上記にあげた各構成は、明確に分離して構成される必要はなく、選択するアルゴリズムや装置の性能などに応じて柔軟に設計してよい。また、人工知能110は、たとえば入出力装置10からの制御信号に基づいて、発話意図の抽出や応答文の生成を行ってもよい。さらにまた、人工知能110の機能の一部を入出力装置10に分担させてもよい。
<データベース>
図4は、データベース120の構成を例示する図である。データベース120は、行動情報DB121、関係情報DB122、制御部123、および通信部124を備える。
図4は、データベース120の構成を例示する図である。データベース120は、行動情報DB121、関係情報DB122、制御部123、および通信部124を備える。
(行動情報DB121)
行動情報DB121は、入出力装置10のユーザの行動に関する情報を記憶するデータベースである。本実施の形態に係る行動情報DB121は、たとえば、ユーザのID、氏名、生年月日、職業、性別、出身地、性格、趣味、などの基本情報と、ユーザの行動履歴などを記憶する。行動履歴は、通勤(通学)履歴や、飲食店、販売店、ジム、理容店、病院、学校(セミナー、塾など)等の利用履歴を含む。
行動情報DB121は、入出力装置10のユーザの行動に関する情報を記憶するデータベースである。本実施の形態に係る行動情報DB121は、たとえば、ユーザのID、氏名、生年月日、職業、性別、出身地、性格、趣味、などの基本情報と、ユーザの行動履歴などを記憶する。行動履歴は、通勤(通学)履歴や、飲食店、販売店、ジム、理容店、病院、学校(セミナー、塾など)等の利用履歴を含む。
(関係情報DB122)
関係情報DB122は、ユーザの人間関係に関する情報を記憶するデータベースである。本実施の形態に係る関係情報DB122は、たとえば、ユーザのID、氏名、生年月日、職業、性別、出身地、性格、趣味、などの基本情報と、ユーザの家族、恋人、友人、仕事仲間、趣味仲間に関する情報などを記憶する。
関係情報DB122は、ユーザの人間関係に関する情報を記憶するデータベースである。本実施の形態に係る関係情報DB122は、たとえば、ユーザのID、氏名、生年月日、職業、性別、出身地、性格、趣味、などの基本情報と、ユーザの家族、恋人、友人、仕事仲間、趣味仲間に関する情報などを記憶する。
(制御部123)
制御部123は、たとえばマイクロプロセッサ又はマイクロコンピュータ等により構成され、データベース120が備える各構成を制御する機能を有する。本実施の形態に係る制御部123は、たとえば、入出力装置10からの要求信号に基づいて、行動情報DB121や関係情報DB122に記憶される情報を検索し、当該情報を取得することができる。
制御部123は、たとえばマイクロプロセッサ又はマイクロコンピュータ等により構成され、データベース120が備える各構成を制御する機能を有する。本実施の形態に係る制御部123は、たとえば、入出力装置10からの要求信号に基づいて、行動情報DB121や関係情報DB122に記憶される情報を検索し、当該情報を取得することができる。
(通信部124)
通信部124は、外部機器としての入出力装置10、および人工知能110と通信を行う機能を有する。通信部124は、たとえば、入出力装置10からユーザIDなどの基本情報を受信し、当該情報に基づいて行動情報DB121および関係情報DB122を参照し、ユーザに関する情報を入出力装置10に送信する。
通信部124は、外部機器としての入出力装置10、および人工知能110と通信を行う機能を有する。通信部124は、たとえば、入出力装置10からユーザIDなどの基本情報を受信し、当該情報に基づいて行動情報DB121および関係情報DB122を参照し、ユーザに関する情報を入出力装置10に送信する。
<対話例>
本実施の形態では、入出力装置10のユーザの名前を太郎とする。太郎は、たとえば、入出力装置10が搭載されている車両に、恋人の花子とともに乗車しているものとする。そのため、対話システムは太郎および花子と対話を行う。
本実施の形態では、入出力装置10のユーザの名前を太郎とする。太郎は、たとえば、入出力装置10が搭載されている車両に、恋人の花子とともに乗車しているものとする。そのため、対話システムは太郎および花子と対話を行う。
人工知能110の回答生成部112は、入出力装置10によって特定された車両の乗員を示す情報を受信したことに応答して、応答文「こんにちは。太郎さんと花子さん。○月○日△曜日、12時15分です。」を生成する。回答生成部112は続いて、応答文「何かお手伝いしましょうか?」を生成する。これらの応答文は、人工知能110から入出力装置10へ送信され、出力部30から再生されるので、太郎および花子に伝えられる。
なお、対話システムは、太郎あるいは花子からの発声(「OK, 〇×」や「Hey,□△」など)に基づいて対話を開始してもよい。
なお、対話システムは、太郎あるいは花子からの発声(「OK, 〇×」や「Hey,□△」など)に基づいて対話を開始してもよい。
入出力装置10は、「パスタを食べたい。」や「マルゲリータがいい。」などの太郎と花子が発した発話音声に基づくテキスト情報を人工知能110へ送信する。人工知能110の回答生成部112は、入出力装置10から送信されたテキスト情報に基づき、「イタリアンレストランを探して。」という発話意図を抽出し、この発話意図に対する応答文「イタリアンレストランを探します。」を生成する。応答文(応答テキスト情報)は、発話意図とともに人工知能110から入出力装置10へ送信される。応答文は、出力部30から再生されるので、太郎および花子に伝えられる。
入出力装置10は、人工知能110から受信した発話意図に基づき、ナビゲーション装置200に、たとえば、移動時間が30分以内の距離に位置するイタリアンレストランを検索させる。ナビゲーション装置200によって検索された検索結果は、入出力装置10を介して人工知能110へ送信される。
人工知能110は、ナビゲーション装置200による探索結果に基づき、X店とY店とZ店の種々の情報を、たとえば、飲食店の情報を提供する不図示のポータルサイトから取得してもよい。
人工知能110は、ナビゲーション装置200による探索結果に基づき、X店とY店とZ店の種々の情報を、たとえば、飲食店の情報を提供する不図示のポータルサイトから取得してもよい。
人工知能110の回答生成部112は、データベース120から取得したユーザに関する情報や、ポータルサイトから取得した飲食店の情報等に基づき、X店とY店とZ店についての情報を知らせる応答文の候補を複数生成する。
候補1「X店は、ランチタイムサービスがあります。約1ヶ月前に、太郎様と花子様をご案内しました。」
候補2「X店は、ランチタイムサービスがあります。約2ヶ月前に、太郎様とさくら様と次郎様をご案内しました。」
候補3「Y店は、パスタが評判です。約2ヶ月前に、太郎様をご案内しました。」
候補4「Y店は、パスタが評判です。約2週間前に、太郎様と○○会社のQ様をご案内しました。」
候補5「Y店は、パスタが評判です。約半年前に、太郎様とD様をご案内しました。」
候補6「Z店は、カルパッチョとワインが評判です。でも、運転者はお酒を飲むことができません。」
これらの応答文の候補は、応答テキスト情報として人工知能110から入出力装置10へ送られる。この時点では、応答文の候補が出力部30から再生されることはなく、いずれの応答文の候補も太郎および花子に伝えられない。
候補1「X店は、ランチタイムサービスがあります。約1ヶ月前に、太郎様と花子様をご案内しました。」
候補2「X店は、ランチタイムサービスがあります。約2ヶ月前に、太郎様とさくら様と次郎様をご案内しました。」
候補3「Y店は、パスタが評判です。約2ヶ月前に、太郎様をご案内しました。」
候補4「Y店は、パスタが評判です。約2週間前に、太郎様と○○会社のQ様をご案内しました。」
候補5「Y店は、パスタが評判です。約半年前に、太郎様とD様をご案内しました。」
候補6「Z店は、カルパッチョとワインが評判です。でも、運転者はお酒を飲むことができません。」
これらの応答文の候補は、応答テキスト情報として人工知能110から入出力装置10へ送られる。この時点では、応答文の候補が出力部30から再生されることはなく、いずれの応答文の候補も太郎および花子に伝えられない。
入出力装置10の情報選択部70は、後に詳述する判断規則に基づき、人工知能110から送信された応答テキスト情報から、上記候補1「X店は、ランチタイムサービスがあります。約1ヶ月前に、太郎様と花子様をご案内しました。」を選択する。この選択結果は、入出力装置10を介して人工知能110へ送信される。また、選択された候補1の応答テキスト情報が出力部30から再生される。これにより、候補1の応答文が太郎および花子に伝えられる。
なお、この例では、たとえば次のようなルールに基づいて人工知能110が上記のような回答文を選択する。すなわち、人工知能110はデータベース120の情報に基づいて太郎と花子の人間関係を悪化させる情報は選択しないというルール、もしくは太郎にとって好ましくない情報を選択しないというルールである。本例では、花子は太郎の「イマカノ」であり、さくらは太郎の「モトカノ」であることをデータベース120の情報から認識する。また、「モトカノ」と食事をしたことを「イマカノ」に知られることは人間関係を悪化させる、すなわち、恋人関係を解消するきっかけとなり得るので、太郎にとって好ましくないと判断して回答文を選択する。
つまり、この例の場合において、太郎および花子の両者にとって好ましい回答文は候補1や候補3(候補1が太郎あるいは花子によって選択されなかったときには候補3を次に推奨する)、好ましくない回答文は候補2および候補6となる。候補4や候補5については、同伴した人物Q、Dが男性であった場合(あるいは同席者に仮に女性が含まれるとしても一対一ではなくてグループだった場合)には好ましい回答文として選択してもよい。人物Q、Dの属性データ(性別など)については、太郎のスマートフォンの電子メール(メッセンジャーアプリを含む)における送受信履歴および送受信内容(相手名、アポイントメント、日時、店名を含めたやりとりなど)から推測することができよう。
なお、回答文の候補を選択するパラメータとしては、太郎と花子(つまり発話者もしくは発話者と同席者)の過去の行動履歴を参酌してもよい。たとえば過去に訪れた店舗のうち、「料理・味」、「雰囲気」、「接客サービス」、「コストパフォーマンス」を評価項目とした総合評価が高いものから優先的に候補とするのが好ましいだろう。これらの一連の評価は、太郎あるいは花子のスマートフォンに記録された行動履歴(会話履歴を含むライフログなど)あるいは太郎もしくは花子が行なったウェブサイト上での店舗評価を参酌するとよい。
つまり、この例の場合において、太郎および花子の両者にとって好ましい回答文は候補1や候補3(候補1が太郎あるいは花子によって選択されなかったときには候補3を次に推奨する)、好ましくない回答文は候補2および候補6となる。候補4や候補5については、同伴した人物Q、Dが男性であった場合(あるいは同席者に仮に女性が含まれるとしても一対一ではなくてグループだった場合)には好ましい回答文として選択してもよい。人物Q、Dの属性データ(性別など)については、太郎のスマートフォンの電子メール(メッセンジャーアプリを含む)における送受信履歴および送受信内容(相手名、アポイントメント、日時、店名を含めたやりとりなど)から推測することができよう。
なお、回答文の候補を選択するパラメータとしては、太郎と花子(つまり発話者もしくは発話者と同席者)の過去の行動履歴を参酌してもよい。たとえば過去に訪れた店舗のうち、「料理・味」、「雰囲気」、「接客サービス」、「コストパフォーマンス」を評価項目とした総合評価が高いものから優先的に候補とするのが好ましいだろう。これらの一連の評価は、太郎あるいは花子のスマートフォンに記録された行動履歴(会話履歴を含むライフログなど)あるいは太郎もしくは花子が行なったウェブサイト上での店舗評価を参酌するとよい。
入出力装置10は、太郎または花子が発した発話音声「X店がいいな。」に基づくテキスト情報を人工知能110へ送信する。人工知能110の回答生成部112は、入出力装置10から送信されたテキスト情報に基づき、「X店へ案内して。」という発話意図を抽出し、この発話意図に対する応答文「X店へご案内します。ここから30分くらいかかります。」を生成する。この応答文(応答テキスト情報)は、発話意図とともに人工知能110から入出力装置10へ送信される。応答文は、出力部30から再生されるので、太郎および花子に伝えられる。入出力装置10は、人工知能110から受信した発話意図に基づき、ナビゲーション装置200にX店へのルート案内を開始させる。
人工知能110の回答生成部112は、再び、応答文「何かお手伝いしましょうか?」を生成する。これらの応答文は、人工知能110から入出力装置10へ送信され、出力部30から再生されるので、太郎および花子に伝えられる。以降、同様にして対話を繰り返すことができる。
なお、人工知能110それ自身が、発話意図に基づき車両近傍のイタリアンレストランを検索して入出力装置10へ送信してもよい。この場合、人工知能110は、検索したイタリアンレストランの所在地、価格帯、メニューなどの情報を飲食店の情報を提供するポータルサイトから取得して入出力装置10へ送信する。
<対話動作の流れ>
図5は、上記対話例において、対話システムが実行する動作の流れを説明するフローチャートである。入出力装置10の制御部50は、たとえば、車両のシステムオン操作が行われると、図5による処理を開始させる。
本実施の形態では、対話動作の流れを入出力装置10の制御部50による処理の流れとして説明するが、入出力装置10以外の他の機器の制御部と分担して行う構成にしてもよい。
図5は、上記対話例において、対話システムが実行する動作の流れを説明するフローチャートである。入出力装置10の制御部50は、たとえば、車両のシステムオン操作が行われると、図5による処理を開始させる。
本実施の形態では、対話動作の流れを入出力装置10の制御部50による処理の流れとして説明するが、入出力装置10以外の他の機器の制御部と分担して行う構成にしてもよい。
図5のステップS110において、制御部50は、以下のような情報が入力されることにより、車両の乗員を検出する。
1.制御部50に、認識部40のカメラ41に写る車内の人物の顔画像に基づいて得られた特徴量情報が、認識部40から入力される。
2.制御部50に、認識部40の読み取り装置42によって取得された情報が、認識部40から入力される。
なお、制御部50に、入力部20のマイクロフォン21に入力された乗員の音声に基づいて得られた声紋情報が、入力部20から入力されるようにしてもよい。
1.制御部50に、認識部40のカメラ41に写る車内の人物の顔画像に基づいて得られた特徴量情報が、認識部40から入力される。
2.制御部50に、認識部40の読み取り装置42によって取得された情報が、認識部40から入力される。
なお、制御部50に、入力部20のマイクロフォン21に入力された乗員の音声に基づいて得られた声紋情報が、入力部20から入力されるようにしてもよい。
ステップS120において、制御部50は、以下のように車両の乗員を特定する。制御部50は、顔画像に基づく特徴量情報、その特徴量情報と読み取り装置42による取得情報、音声に基づく声紋情報、その声紋情報と読み取り装置42による取得情報、あるいは、上記特徴量情報と上記声紋情報により、乗員を特定する。
なお、乗員の特定に画像、音声を使用したが、以下のような識別子を使用することもできる。車両が太郎所有のものである場合、太郎はあらかじめ車両に太郎自身や花子を識別する識別子を登録しておき、乗車時に、識別子に基づき乗員を識別する判断処理を実行することにより、乗員が太郎と花子であることを識別してもよい。識別子として携帯電話のIDを使用する場合、携帯電話の近距離無線通信などで識別子を車両に送信し、車両が乗員確認を行うことができる。免許証のIDなどを使用してもよい。
ステップS130において、制御部50はネットワーク100を介してデータベース120にアクセスし、以下のようにデータベース120の情報を更新する。制御部50は、乗員が太郎と花子であることを特定すると、データベース120に格納されている太郎と花子の情報を更新する。太郎の行動に関する情報は、データベース120の行動情報DB121に格納されている。また、太郎の人間関係に関する情報は、データベース120の関係情報DB122に格納されている。花子の行動に関する情報は、データベース120の行動情報DB121に格納されている。また、花子の人間関係に関する情報は、データベース120の関係情報DB122に格納されている。
データベース120に格納される情報のうち、太郎の行動に関する情報および太郎の人間関係に関する情報はいずれも、たとえば、太郎のスマートフォンに格納されている情報に基づいて生成することができる。制御部50は、太郎によってスマートフォンに登録されている情報、太郎がスマートフォンからSNS(social networking service)に投稿した内容やメールの内容、送受信履歴、アプリの利用履歴などに基づき、必要な情報を抽出する。
制御部50は、太郎を特定した時点で、上述の近距離無線通信によって太郎のスマートフォンと無線接続する。制御部50はさらに、データベース120の行動情報DB121および関係情報DB122に格納されるべき情報を、太郎のスマートフォンから抽出する。制御部50がスマートフォンから抽出した情報は、ネットワーク100を介して入出力装置10からデータベース120へ送信され、行動情報DB121または関係情報DB122に格納される。なお、制御部50がスマートフォンから抽出する情報は、前回抽出した時点以降にスマートフォンに蓄積された情報、いわゆる差分情報のみでよい。
行動情報DB121に格納される太郎の行動に関する情報には、たとえば、スマートフォンのルート案内アプリの利用履歴や、電子決済の履歴、GPSによる位置情報、ナビゲーション装置200のルート案内履歴などが有用である。太郎がいつ、どこへ行ったかを明らかにしやすいからである。
関係情報DB122に格納される太郎の人間関係に関する情報には、たとえば、太郎とスマートフォンの通信履歴などが有用である。通信履歴からは、特定の通信相手との通話やデータの送受信の頻度がわかるからである。一般に、送受信の頻度が高いほど、通話相手や送受信の相手と親密度が高いといえる。
関係情報DB122に格納される太郎の人間関係に関する情報には、たとえば、太郎とスマートフォンの通信履歴などが有用である。通信履歴からは、特定の通信相手との通話やデータの送受信の頻度がわかるからである。一般に、送受信の頻度が高いほど、通話相手や送受信の相手と親密度が高いといえる。
同様に、データベース120に格納される情報のうち、花子の行動に関する情報および花子の人間関係に関する情報はいずれも、花子のスマートフォンに格納されている情報に基づいて生成することができる。制御部50は、花子によってスマートフォンに登録されている情報、花子がスマートフォンからSNS に投稿した内容やメールの内容、送受信履歴、アプリの利用履歴などに基づき、必要な情報を抽出する。
制御部50によるスマートフォンからの情報の抽出、制御部50からデータベース120への情報の送信、行動情報DB121または関係情報DB122への情報の格納については、太郎の場合と同様に扱うことができる。
ステップS140において、制御部50は、入出力装置10を介して乗員との音声対話を開始させる。制御部50が、特定した乗員を示す情報を入出力装置10から人工知能110へネットワーク100を介して送信すると、人工知能110は、特定された乗員と音声対話が開始されたものと判定する。そして、人工知能110は、特定された乗員に対するメッセージである応答文「何かお手伝いしましょうか?」を生成し、応答テキスト情報として送信する。応答テキスト情報に基づく応答文は、出力部30から再生されるので、乗員に伝えられる。
ステップS150において、制御部50は、入力部20により乗員が発話する音声を入力させる。制御部50はさらに、乗員による発話音声が入力部20によってテキスト情報に変換された場合、そのテキスト情報を、ネットワーク100を介して人工知能110へ送信する。
なお、制御部50は、乗員による発話音声が入力部20によってテキスト情報に変換されなかった場合、乗員による発話音声をそのまま音声信号としてネットワーク100を介して人工知能110へ送信する。上述したように、音声信号を受信した人工知能110は、音声認識部111によって音声認識を行い、受信した音声信号をテキスト情報に変換する。人工知能110の音声認識部111の音声認識力は、入出力装置10の音声認識部22の音声認識力よりも高度な認識精度を有している場合、入出力装置10で音声認識ができなかったとしても、人工知能110で正しく音声認識が行われる。
なお、制御部50は、乗員による発話音声が入力部20によってテキスト情報に変換されなかった場合、乗員による発話音声をそのまま音声信号としてネットワーク100を介して人工知能110へ送信する。上述したように、音声信号を受信した人工知能110は、音声認識部111によって音声認識を行い、受信した音声信号をテキスト情報に変換する。人工知能110の音声認識部111の音声認識力は、入出力装置10の音声認識部22の音声認識力よりも高度な認識精度を有している場合、入出力装置10で音声認識ができなかったとしても、人工知能110で正しく音声認識が行われる。
ステップS160において、制御部50は、人工知能110によって抽出された発話意図を受信するまで待機する。人工知能110の回答生成部112は、上述したように、入出力装置10から受信したテキスト情報に基づいて乗員の発話意図を抽出し、通信部150から発話意図を入出力装置10に送信する。発話意図を受信すると処理はステップS170に進む。
ステップS170において、制御部50は、人工知能110によって生成された応答文を受信するまで待機する。人工知能110は、乗員の発話意図に対する応答文を複数生成する。複数の応答文は、複数の応答文の候補であり、以下で説明するようにいずれか1つが選択される。人工知能110により生成された応答文の候補は、複数の応答テキスト情報としてネットワーク100を介して入出力装置10へ送信される。発話意図に対する応答文の生成処理の詳細については後述する。
ステップS180において、制御部50は、情報選択部70により、人工知能110から送信された複数の応答テキスト情報から一つの応答テキスト情報を選択する。この応答テキスト情報が乗員に提供する応答文となる。選択のための判断規則の詳細については後述する。
なお、人工知能110から送信された応答テキスト情報が一つであった場合でも、判断規則にしたがって選択可か、選択不可かを判別する。選択可であれば、情報選択部70は、その応答テキスト情報を乗員に提供する応答文として採用するが、選択不可の場合は、「検索できませんでした。再度、入力してください」のような応答文を選択する。
なお、人工知能110から送信された応答テキスト情報が一つであった場合でも、判断規則にしたがって選択可か、選択不可かを判別する。選択可であれば、情報選択部70は、その応答テキスト情報を乗員に提供する応答文として採用するが、選択不可の場合は、「検索できませんでした。再度、入力してください」のような応答文を選択する。
ステップS190において、制御部50は、情報選択部70によって選択した応答テキスト情報に基づく応答文を、出力部30により再生させる。
ステップ200において、制御部50は、音声対話の終了か否かを判定する。制御部50は、たとえば、車両のシステムオフ操作が行われると、制御部50は、乗員との音声対話を終了させる。制御部50は、音声対話を終了することを人工知能110へネットワーク100を介して送信する。
一方、制御部50は、車両のシステムオフ操作が行われない場合は、ステップS150へ戻り、上述した処理を繰り返す。
ステップ200において、制御部50は、音声対話の終了か否かを判定する。制御部50は、たとえば、車両のシステムオフ操作が行われると、制御部50は、乗員との音声対話を終了させる。制御部50は、音声対話を終了することを人工知能110へネットワーク100を介して送信する。
一方、制御部50は、車両のシステムオフ操作が行われない場合は、ステップS150へ戻り、上述した処理を繰り返す。
人工知能110が生成する応答文について、さらに詳細に説明する。
人工知能110は、入出力装置10から特定された乗員を示す情報を受信すると、応答文を応答テキスト情報として生成する。回答生成部112には、応答文の生成規則や、発話意図に対する応答文のパターンを格納する情報記憶部112aが含まれている。そのため、回答生成部112は、様々な態様で、応答テキスト情報を生成することができる。
人工知能110は、入出力装置10から特定された乗員を示す情報を受信すると、応答文を応答テキスト情報として生成する。回答生成部112には、応答文の生成規則や、発話意図に対する応答文のパターンを格納する情報記憶部112aが含まれている。そのため、回答生成部112は、様々な態様で、応答テキスト情報を生成することができる。
ステップS140における音声対話の開始後、最初のメッセージである応答文は、上述したように、「こんにちは。太郎さんと花子さん。○月○日△曜日、12時15分です。」である。その後、応答文「何かお手伝いしましょうか?」が生成される。
また、ステップS170において生成される応答文は、乗員の発話意図に対する応答文である。具体的には、回答生成部112は、データベース120に記憶されている情報、ポータルサイトから取得した情報等、発話意図に対する応答文のパターンを参照することにより、応答文を生成する。たとえば、乗員の行動に関する情報や、乗員の人間関係に関する情報を参照して、応答文のパターンの一部にデータベース120から取得した情報、ポータルサイトから取得した情報を含めたり、応答文のパターンの一部をデータベース120から取得した情報、ポータルサイトから取得した情報と置換したりするなどして、乗員の名称や言動などを含む応答文を複数通り生成する。
また、回答生成部112の情報記憶部112aには、たとえば、今日の天気やニュースなどの情報や各種一般常識などの情報を格納しておくことができる。今日の天気やニュースなどの情報は、ネットワーク100を介して別のポータルサイト等の外部機器から取得することができる。回答生成部112は、今日の天気やニュースなどの情報と、発話意図に対する応答文のパターンとを参照することにより、応答文を生成してもよい。
情報記憶部112aに格納される応答文のパターンは、デフォルトセットとして固定されていてもよいし、デフォルトセットに対して機械的な学習により後から追加、変更可能に構成されていてもよい。
上述したように、回答生成部112は、複数の応答文(応答テキスト情報)を生成するものとする。複数の応答文を生成する理由は、太郎にとってより好ましい応答文を選択可能にするためである。
上述したように、回答生成部112は、複数の応答文(応答テキスト情報)を生成するものとする。複数の応答文を生成する理由は、太郎にとってより好ましい応答文を選択可能にするためである。
情報選択部70による応答テキスト情報の選択における判断規則について、さらに詳細に説明する。
情報選択部70は、情報記憶部71に格納されている判断規則に基づいて、人工知能110から送信された複数の応答テキスト情報から一つの応答テキスト情報を、乗員に提供する応答文として選択する。判断規則を例示すると、以下の通りである。
情報選択部70は、情報記憶部71に格納されている判断規則に基づいて、人工知能110から送信された複数の応答テキスト情報から一つの応答テキスト情報を、乗員に提供する応答文として選択する。判断規則を例示すると、以下の通りである。
<規則1>
情報選択部70は、乗員の中の発話者と入出力装置10との対話の内容が、発話者以外の乗員に聞かれる可能性がある場合には、発話者にとって好ましい応答テキスト情報を選ぶ。以下に、いくつかの場面を例示する。
情報選択部70は、乗員の中の発話者と入出力装置10との対話の内容が、発話者以外の乗員に聞かれる可能性がある場合には、発話者にとって好ましい応答テキスト情報を選ぶ。以下に、いくつかの場面を例示する。
(例1)乗員が太郎と太郎の恋人Aである場合
車内に太郎と恋人Aが乗車していて、かつ、人工知能110から送信された応答テキスト情報に、太郎と恋人A以外の他の人物B(第三者)に関連する内容が含まれている場合、情報選択部70は、人工知能110から送信された応答テキスト情報から太郎と恋人Aとに関連する応答テキスト情報を選ぶ。換言すると、情報選択部70は、人工知能110から送信された応答テキスト情報から人物Bに関連する応答テキスト情報を除外する。第三者に関連する内容とは、応答テキスト情報に、第三者の名称や言動が含まれていることをいう。
車内に太郎と恋人Aが乗車していて、かつ、人工知能110から送信された応答テキスト情報に、太郎と恋人A以外の他の人物B(第三者)に関連する内容が含まれている場合、情報選択部70は、人工知能110から送信された応答テキスト情報から太郎と恋人Aとに関連する応答テキスト情報を選ぶ。換言すると、情報選択部70は、人工知能110から送信された応答テキスト情報から人物Bに関連する応答テキスト情報を除外する。第三者に関連する内容とは、応答テキスト情報に、第三者の名称や言動が含まれていることをいう。
このように応答テキスト情報を選択する理由は、たとえば、太郎が過去に女性の人物Bと出かけたレストランを目的地にすると、太郎(発話者)と入出力装置10との対話内容に人物Bの名前が登場することによって恋人Aの気分を害するおそれがあることから、このような事態を避けるためである。
情報選択部70はさらに、選んだ応答テキスト情報に対して合理的な観点から順位を付け、最も順位が高い応答テキスト情報を選ぶ。たとえば、現在位置から近い目的地は、現在位置から遠い目的地よりも移動時間や燃料代が抑えられる点で合理的である。そのため、情報選択部70は、現在位置からより近い目的地へ案内する応答テキスト情報の順位を高くするように順位をつけ、順位が高い応答テキスト情報を選ぶ。
(例2)乗員が太郎と太郎の家族である場合
車内に太郎と太郎の家族(全員)が乗車していて、かつ、人工知能110から送信された応答テキスト情報に、太郎の家族の一部Cに関連する内容が含まれている場合、情報選択部70は、人工知能110から送信された応答テキスト情報から太郎と家族(全員)とに関連する応答テキスト情報を選ぶ。換言すると、情報選択部70は、人工知能110から送信された応答テキスト情報から太郎の家族の一部Cに関連する応答テキスト情報を除外する。
車内に太郎と太郎の家族(全員)が乗車していて、かつ、人工知能110から送信された応答テキスト情報に、太郎の家族の一部Cに関連する内容が含まれている場合、情報選択部70は、人工知能110から送信された応答テキスト情報から太郎と家族(全員)とに関連する応答テキスト情報を選ぶ。換言すると、情報選択部70は、人工知能110から送信された応答テキスト情報から太郎の家族の一部Cに関連する応答テキスト情報を除外する。
このように応答テキスト情報を選択する理由は、たとえば、太郎が過去に家族の一部Cと出かけたレストランを目的地にすると、太郎(発話者)と入出力装置10との対話内容にその話題が登場することによって、過去に参加しなかった他の家族Dの気分を害するおそれがあることから、このような事態を避けるためである。
(例3)乗員が太郎と太郎の家族の一部Cである場合
車内に太郎と太郎の家族の一部Cが乗車していて、かつ、人工知能110から送信された応答テキスト情報に、乗車しなかった太郎の家族D(第三者)に関連する内容が含まれている場合、情報選択部70は、人工知能110から送信された応答テキスト情報から太郎と家族Cとに関連する応答テキスト情報を選ぶ。換言すると、情報選択部70は、人工知能110から送信された応答テキスト情報から家族Dに関連する応答テキスト情報を除外する。
車内に太郎と太郎の家族の一部Cが乗車していて、かつ、人工知能110から送信された応答テキスト情報に、乗車しなかった太郎の家族D(第三者)に関連する内容が含まれている場合、情報選択部70は、人工知能110から送信された応答テキスト情報から太郎と家族Cとに関連する応答テキスト情報を選ぶ。換言すると、情報選択部70は、人工知能110から送信された応答テキスト情報から家族Dに関連する応答テキスト情報を除外する。
このように応答テキスト情報を選択する理由は、たとえば、太郎が過去に家族Dと出かけたレストランを目的地にすると、太郎(発話者)と入出力装置10との対話内容に家族Dの話題が登場することによって、過去に参加しなかった家族Cの気分を害するおそれがあることから、このような事態を避けるためである。
(例4)乗員が太郎と太郎の仕事上の関係があるQ1会社の人物P1とQ2会社の人物P2である場合
車内に太郎と人物P1および人物P2が乗車していて、かつ、人工知能110から送信された応答テキスト情報に、太郎の仕事上の関係があるQ3会社の人物P3(第三者)に関連する内容が含まれている場合、情報選択部70は、人工知能110から送信された応答テキスト情報から太郎と人物P1と人物P2とに関連する応答テキスト情報を選ぶ。換言すると、情報選択部70は、人工知能110から送信された応答テキスト情報から、乗車していない人物P3に関連する応答テキスト情報を除外する。
車内に太郎と人物P1および人物P2が乗車していて、かつ、人工知能110から送信された応答テキスト情報に、太郎の仕事上の関係があるQ3会社の人物P3(第三者)に関連する内容が含まれている場合、情報選択部70は、人工知能110から送信された応答テキスト情報から太郎と人物P1と人物P2とに関連する応答テキスト情報を選ぶ。換言すると、情報選択部70は、人工知能110から送信された応答テキスト情報から、乗車していない人物P3に関連する応答テキスト情報を除外する。
このように応答テキスト情報を選択する理由は、たとえば、太郎(発話者)と入出力装置10との対話内容にQ1会社とライバル関係にあるQ3会社の人物P3の名前が登場することによって、太郎とQ3会社との間で結ばれている守秘義務違反のおそれが生じることから、このような事態を避けるためである。
なお、上記例2ないし例4において、情報選択部70が選んだ応答テキスト情報に対して合理的な観点から順位を付け、最も順位が高い応答テキスト情報を選ぶ点は、例1の場合と同様である。
<規則2>
情報選択部70は、乗員の中の発話者と入出力装置10との対話の内容が、発話者以外に聞かれる可能性がない場合には、合理的な観点のみに基づいて応答テキスト情報を選ぶ。以下に、想定される場面を例示する。
情報選択部70は、乗員の中の発話者と入出力装置10との対話の内容が、発話者以外に聞かれる可能性がない場合には、合理的な観点のみに基づいて応答テキスト情報を選ぶ。以下に、想定される場面を例示する。
(例5)乗員が太郎のみで同乗者がいない場合
車内に太郎のみが存在し、太郎以外に乗員がいない場合には、情報選択部70は、人工知能110から送信された全ての応答テキスト情報に対して合理的な観点から順位を付け、最も順位が高い応答テキスト情報を選ぶ。同乗者がいなければ、同乗者の気分を害するか否かを考慮する必要がないからである。
車内に太郎のみが存在し、太郎以外に乗員がいない場合には、情報選択部70は、人工知能110から送信された全ての応答テキスト情報に対して合理的な観点から順位を付け、最も順位が高い応答テキスト情報を選ぶ。同乗者がいなければ、同乗者の気分を害するか否かを考慮する必要がないからである。
<プログラム>
入出力装置10の制御部50に対し、図5に例示した処理を実行させるプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムを入出力装置10へ供給してもよい。「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。「コンピュータシステム」とは、OS(Operating System)や周辺機器のハードウェアを含むものとする。
入出力装置10の制御部50に対し、図5に例示した処理を実行させるプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムを入出力装置10へ供給してもよい。「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、光ディスク、メモリカード等の可搬型記録媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。「コンピュータシステム」とは、OS(Operating System)や周辺機器のハードウェアを含むものとする。
また、「コンピュータ読み取り可能な記録媒体」には、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持するものを含んでもよい。また上記のプログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせにより実現するものであってもよい。
図6は、入出力装置10に対するプログラムの供給を説明する図である。入出力装置10は、CD-ROM953を介してプログラムの提供を受けることができる。また、入出力装置10は、通信回線900を介してプログラムの提供を受けることもできる。
コンピュータ952は、上記プログラムを提供するサーバーコンピュータであり、ハードディスク等の記録媒体954にプログラムを格納している。通信回線900は、インターネット、パソコン通信などの通信回線、あるいは専用通信回線などである。コンピュータ952は、記録媒体954からプログラムを読み出し、通信回線900を介してプログラムを入出力装置10に送信する。すなわち、プログラムをデータ信号として搬送波により搬送して、通信回線900を介して送信する。このように、プログラムは、記録媒体や搬送波などの種々の形態のコンピュータ読み込み可能なコンピュータプログラム製品として供給できる。
コンピュータ952は、上記プログラムを提供するサーバーコンピュータであり、ハードディスク等の記録媒体954にプログラムを格納している。通信回線900は、インターネット、パソコン通信などの通信回線、あるいは専用通信回線などである。コンピュータ952は、記録媒体954からプログラムを読み出し、通信回線900を介してプログラムを入出力装置10に送信する。すなわち、プログラムをデータ信号として搬送波により搬送して、通信回線900を介して送信する。このように、プログラムは、記録媒体や搬送波などの種々の形態のコンピュータ読み込み可能なコンピュータプログラム製品として供給できる。
以上説明した実施の形態によれば、次の作用効果が得られる。
(1)人物と音声対話を行う対話装置は、周囲の人物を認識する認識部40と、情報を音声により入出力する入力部20および出力部30と、入力部20に入力された発話意図に応答する応答文を人工知能110から取得する制御部50と、発話意図を発した人物(太郎)を特定する認識部40と、応答文が特定された人物(太郎)にとって好ましい情報か否かを判断し、好ましいと判断された応答文を出力部30から出力させる制御部50とを備える対話機能を有する。このように構成したので、上記例における太郎が他の乗員に知られたくない情報が出力部30から再生されることを防止できる。
(1)人物と音声対話を行う対話装置は、周囲の人物を認識する認識部40と、情報を音声により入出力する入力部20および出力部30と、入力部20に入力された発話意図に応答する応答文を人工知能110から取得する制御部50と、発話意図を発した人物(太郎)を特定する認識部40と、応答文が特定された人物(太郎)にとって好ましい情報か否かを判断し、好ましいと判断された応答文を出力部30から出力させる制御部50とを備える対話機能を有する。このように構成したので、上記例における太郎が他の乗員に知られたくない情報が出力部30から再生されることを防止できる。
(2)制御部50は、発話意図に応答する複数の応答文を取得し、制御部50は、認識部40で特定された人物(太郎)に関連する複数の応答文を上記複数の応答文の中から選択し、選択した応答文のうち認識部40で特定された人物(太郎)にとって好ましい応答文を複数の応答文の中から選択し、選択した応答文を出力部30から出力させる。応答文の取得と選択とを分けて行うように構成したので、応答文の取得と選択を一度に行う場合に比べて処理を簡略化することができる。
(3)制御部50は、認識部40で特定された人物(太郎)にとって好ましいか否かを、応答文が認識部40で認識されている全ての人物に聞かれてよいか否かにより判断するので、太郎以外の乗員の全員についても、他の乗員に知られたくないか否かを判断し、好ましくない情報の出力制限を適切に実行することができる。
(4)制御部50は、認識部40によって認識されていない人物の名称を含む応答文を好ましくないと判断するので、太郎を含む乗員の全員について好ましくない応答文の出力制限を適切に実行することができる。
(5)制御部50は、認識部40によって認識されていない人物の言動を含む応答文を好ましくないと判断するので、太郎を含む乗員の全員について好ましくない応答文の出力制限を適切に実行することができる。
次のような変形も本発明の範囲内であり、変形例の一つ、もしくは複数を上述の実施形態と組み合わせることも可能である。
(変形例1)
以上では、車両に搭載されたナビゲーションの一つの機能としての対話装置を一例として説明した。しかし、本発明はこのような一例に限定されず、家庭内などで単独の商品として使用される対話装置(スマートフォン、さらには、AIスピーカあるいはスマートスピーカと呼ばれる、AIアシスタント機能を備えたスピーカ、さらには感情認識ヒューマノイドロボットなど)にも適用できる。
たとえば、家庭で使用されることを想定した対話装置について以下、説明する。
前提として、この家族は、父親、母親、長男、次男の4人家族である。
問題となるシチュエーションは、母親と子供たちには父親に知られたくない秘密事項があり、対話装置の周囲に家族全員がそろっている場合、上記秘密事項に関連した情報は対話装置から出力しないようにする。この場合、母親が秘密事項を特定する情報を対話装置の選択情報部70に設定し、父親が一緒に対話装置を利用するときには、秘密情報を出力しないようにすればよい。たとえば、父親が、母親の体重について対話装置に質問した場合は「その質問にはお答えできません」といったように対話装置は返答を拒否するだろう。一方で、母親がダイエット中であることが家族で共有化されている場合(日常の家族の会話内容を対話装置がモニタリングしており、対話装置がそのことを認識している場合)にあっては、あえて母親の体重(必要に応じて実際の体重よりも少なめの値)を回答することもあろう。さらには、父親と母親との親密度(仲の良さ)に応じて、母親の体重を回答するか否かを選択してもよいだろう。その親密度を測るパラメータとしては、たとえば対話装置がモニタリングしている日常生活における夫婦間の会話量(笑い声や笑顔の頻度などをも含む)を参酌するのがよいだろう。親密度を測るその他のパラメータとしては、家族であれば、メール送受信回数(電話連絡回数も含む)、外食の頻度、互いの名前を呼び合う回数などが考えられる。他人であれば、互いの家族構成を知っているか否か、互いの趣味を知っているか否か、年賀状のやりとりを毎年行っているか否かなどのパラメータを加味してもよいだろう。家族構成を知っているか否か、趣味を知っているか否かについてはウェアラブルのライフログカメラ(あるいはレコーダ)の記録情報に基づいて判断できるであろうし、年賀状のやりとりをしているか否かは、年賀状データベースを参酌すればよい。
(変形例1)
以上では、車両に搭載されたナビゲーションの一つの機能としての対話装置を一例として説明した。しかし、本発明はこのような一例に限定されず、家庭内などで単独の商品として使用される対話装置(スマートフォン、さらには、AIスピーカあるいはスマートスピーカと呼ばれる、AIアシスタント機能を備えたスピーカ、さらには感情認識ヒューマノイドロボットなど)にも適用できる。
たとえば、家庭で使用されることを想定した対話装置について以下、説明する。
前提として、この家族は、父親、母親、長男、次男の4人家族である。
問題となるシチュエーションは、母親と子供たちには父親に知られたくない秘密事項があり、対話装置の周囲に家族全員がそろっている場合、上記秘密事項に関連した情報は対話装置から出力しないようにする。この場合、母親が秘密事項を特定する情報を対話装置の選択情報部70に設定し、父親が一緒に対話装置を利用するときには、秘密情報を出力しないようにすればよい。たとえば、父親が、母親の体重について対話装置に質問した場合は「その質問にはお答えできません」といったように対話装置は返答を拒否するだろう。一方で、母親がダイエット中であることが家族で共有化されている場合(日常の家族の会話内容を対話装置がモニタリングしており、対話装置がそのことを認識している場合)にあっては、あえて母親の体重(必要に応じて実際の体重よりも少なめの値)を回答することもあろう。さらには、父親と母親との親密度(仲の良さ)に応じて、母親の体重を回答するか否かを選択してもよいだろう。その親密度を測るパラメータとしては、たとえば対話装置がモニタリングしている日常生活における夫婦間の会話量(笑い声や笑顔の頻度などをも含む)を参酌するのがよいだろう。親密度を測るその他のパラメータとしては、家族であれば、メール送受信回数(電話連絡回数も含む)、外食の頻度、互いの名前を呼び合う回数などが考えられる。他人であれば、互いの家族構成を知っているか否か、互いの趣味を知っているか否か、年賀状のやりとりを毎年行っているか否かなどのパラメータを加味してもよいだろう。家族構成を知っているか否か、趣味を知っているか否かについてはウェアラブルのライフログカメラ(あるいはレコーダ)の記録情報に基づいて判断できるであろうし、年賀状のやりとりをしているか否かは、年賀状データベースを参酌すればよい。
(変形例2)
あるいは、企業の一部門で使用されることを想定した対話装置について以下、説明する。前提として、この部門に所属する部員は、第1課長の小林、第1課の課員である鈴木、山田、第2課長の山本、第2課の課員である斎藤とする。
問題となるシチュエーションは、第1課と第2課は、社内で売り上げを争う間柄であり、第1課と第2課に所属する課長、課員が対話装置を一緒に利用する場合、互いに知られたくない秘密事項に関連した情報は対話装置から出力しないようにする。この場合、第1課および第2課の所属員が秘密事項を特定する情報を対話装置の選択情報部70に設定し、第1課と第2課が一緒に対話装置を利用するときには、秘密情報を出力しないようにすればよい。
なお、秘密事項を特定する情報は、機械学習などで対話装置自身が設定するようにしてもよい。
あるいは、企業の一部門で使用されることを想定した対話装置について以下、説明する。前提として、この部門に所属する部員は、第1課長の小林、第1課の課員である鈴木、山田、第2課長の山本、第2課の課員である斎藤とする。
問題となるシチュエーションは、第1課と第2課は、社内で売り上げを争う間柄であり、第1課と第2課に所属する課長、課員が対話装置を一緒に利用する場合、互いに知られたくない秘密事項に関連した情報は対話装置から出力しないようにする。この場合、第1課および第2課の所属員が秘密事項を特定する情報を対話装置の選択情報部70に設定し、第1課と第2課が一緒に対話装置を利用するときには、秘密情報を出力しないようにすればよい。
なお、秘密事項を特定する情報は、機械学習などで対話装置自身が設定するようにしてもよい。
(変形例3)
対話装置の周囲の人物以外の人物に関する情報,たとえば、対話装置の周囲にいない人物の名称や言動はすべて好ましくない情報として対話装置から出力しないようにしてもよい。
対話装置の周囲の人物以外の人物に関する情報,たとえば、対話装置の周囲にいない人物の名称や言動はすべて好ましくない情報として対話装置から出力しないようにしてもよい。
以上説明した対話装置は、対話装置で認識されている複数の人物のいずれか一方、あるいは全員に都合の悪い情報、つまり好ましくない情報を出力しないように構成されている。対話装置は、家族だけで使用する状況、友人などと使用する状況、企業内の同一部門の所属員だけで使用する状況、企業内の異なる部門の所属員が混在して使用する状況、利害関係がある複数の企業のそれぞれの所属員が使用する状況など、さまざまな利用状況を想定している。すべての利用状況において、対話装置の周囲で同時に利用するすべての人物にとって好ましくない情報を人工知能が認識して出力しないようにした。
したがって、人口知能は、機械学習、深層学習などを通して以下のような学習を行う。すなわち、対話装置が認識した家族の構成員、同一企業の同一部門や異なる部門の所属員、利害関係がある複数の企業の所属員、交友関係がある人物などに関して、人間関係を悪化させる情報、気分を害する情報、競争あるいは競合関係にある情報、秘密性の高い情報を学習する。そして、学習内容にしたがって、対話装置の周囲の人物にとって好ましくない情報を出力しないにようにした。換言すると、好ましい情報だけを出力するようにした。
したがって、人口知能は、機械学習、深層学習などを通して以下のような学習を行う。すなわち、対話装置が認識した家族の構成員、同一企業の同一部門や異なる部門の所属員、利害関係がある複数の企業の所属員、交友関係がある人物などに関して、人間関係を悪化させる情報、気分を害する情報、競争あるいは競合関係にある情報、秘密性の高い情報を学習する。そして、学習内容にしたがって、対話装置の周囲の人物にとって好ましくない情報を出力しないにようにした。換言すると、好ましい情報だけを出力するようにした。
上記では、種々の実施の形態および変形例を説明したが、本発明はこれらの内容に限定されるものではない。本発明の技術的思想の範囲内で考えられるその他の態様も本発明の範囲内に含まれる。
たとえば、対話装置が発話者(質問者)を認識できても、それ以外の人物を認識できない(人物であると認識できるがそれが誰なのか認証できるまでには至らない)場合には、対話装置が回答する前に「太郎さん、あなた以外に見知らぬ方がいらっしゃいますが、このまま回答してもよろしいですか?」といったように発話者に回答の事前承諾を得てもよい。
たとえば、対話装置が発話者(質問者)を認識できても、それ以外の人物を認識できない(人物であると認識できるがそれが誰なのか認証できるまでには至らない)場合には、対話装置が回答する前に「太郎さん、あなた以外に見知らぬ方がいらっしゃいますが、このまま回答してもよろしいですか?」といったように発話者に回答の事前承諾を得てもよい。
また、対話装置がスマートフォンである場合であって、発話者がイヤホンを利用している場合は、対話装置からの如何なる回答も、発話者以外が聞くことは不可能であるので、発話者以外にそこに誰が同席しようとも、その回答の選択肢に制限を設けなくてよいだろう。カーナビゲーションにおける「音量自動調節・超指向性スピーカ」も、発話者(運転手)以外が音声を聞くことができないので、回答の選択肢に制限を設けなくてよいだろう。ただし、この場合、発話者の質問内容は同乗者には聞こえているので、その回答が発話者だけには聞こえて同乗者には聞こえないのは不自然である。よって、発話者への回答とは別に同乗者にとって支障のない回答を行なうのが好ましい。この同乗者への回答は、発話者の回答と同時であってもその回答の前後にずらして行なってもどちらでもよい。
一方、音声ではなくテキストで回答する場合には、発話者がたとえイヤホンを装着していたとしても、同席者はこの回答を読むことのできる可能性があるので、テキストによる回答は禁止する(もしくは回答の選択肢に制限を設ける)ことが好ましい。なお、カーナビゲーションあるいはスマートフォンの画面上の特性(カーナビゲーションのデュアルモニターあるいはスマホの覗き見防止フィルターなど)によって同乗者がテキスト回答を読むことのできない場合にあってはテキスト回答を許可しても(回答の選択肢に制限を設けなくとも)よい。稀なケースでは対話装置が手話で回答することも考えられるが、この場合にあっては手話回答を許可しても(回答の選択肢に制限を設けなくとも)よいだろう。
さらに、対話装置のデフォルトでは回答に制限を設けない状態に常時設定しておき、発話者のジェスチャー(たとえば口元に人差し指を添えた「しーっ」という仕草など)を画像認識することによって、はじめて回答に制限を設けて(秘匿モード)もよい。この秘匿モードは、発話者のジェスチャーを認識後、対話装置の利用が終了するまでは継続して設定される。もちろん、ボタン操作によってこの秘匿モードが設定・解除されてもよい。
上記実施の形態および変形例にあっては、対話装置は、人物が発する音声を認識するものを対象としたが、人物に限らず、自律的に自動作業を行うロボット(感情認識ヒューマノイドロボットなど)やアバター(ユーザの分身となる仮想キャラクター)が発する音声を認識してもよい。これらロボットやアバターにあっては、ユーザ自身はその空間には存在しないが、ユーザが遠隔地からディスプレーを経由してロボットやアバターの挙動を制御できるとともに音声会話(ユーザ本人の声であってもなくてもどちらでもよい)を行うことができる。つまり、車両空間内に存在するAという人物とは他のBという人物が自宅(あるいは外出先)からスマートスピーカ(あるいは眼鏡型ウェアラブルデバイスやVRゴーグル)を利用して車両空間内の会話に人物Bの分身であるアバターとしてあたかもB自身がそこに存在するかの如く参加することもできる。
本実施の形態では、車両空間内で使用されるナビゲーション装置あるいは家庭内などで使用されるスマートスピーカの単独の使用形態についてそれぞれ説明したが、これらナビゲーション装置と家庭内のスマートスピーカとを接続する場合(テレマティクスのような情報サービスを利用するなど)にも適用できるし、ナビゲーション装置、家庭内スマートスピーカ、眼鏡型ウェアラブルデバイス(VRゴーグルを含む)が三者接続される場合にも適用できる。
10…入出力装置、20…入力部、30…出力部、40…認識部、50…制御部、60…通信部、70…情報選択部、100…ネットワーク、110…人工知能、120…データベース、200…ナビゲーション装置
Claims (10)
- 発話者と音声対話を行う対話装置であって、
前記発話者の周囲の対象者を認識する認識部と、
情報を音声により入出力する入出力部と、
前記入出力部に入力された第1情報に応答する第2情報を生成する情報生成部と、
前記第1情報を発した発話者を特定する特定部と、
前記第2情報が前記特定部で特定された発話者にとって好ましい情報か否かを判断し、好ましいと判断された前記第2情報を前記入出力部から出力させる制御部とを備える、
対話機能を有する対話装置。 - 請求項1に記載の対話装置において、
前記発話者および前記対象者は、人物もしくは自律的に自動作業を行うロボットもしくはユーザの分身となる仮想キャラクターのいずれかを含む、対話装置。 - 請求項1または2に記載の対話装置において、
前記情報生成部は、前記第1情報に応答する複数の情報を生成し、
前記制御部は、前記認識部で認識された対象者に関連する複数の情報を前記複数の情報の中から選択し、選択した情報のうち前記特定部で特定された発話者にとって好ましい情報を前記複数の情報の中から選択し、選択した情報を前記第2情報として前記入出力部から出力させる、対話装置。 - 請求項3に記載の対話装置において、
前記制御部は、前記特定部で特定された発話者にとって好ましいか否かを、前記情報が前記認識部で認識されている全ての対象者に知られてよいか否かにより判断する、対話装置。 - 請求項3または4に記載の対話装置において、
前記制御部は、前記認識部によって認識されていない対象者の名称を含む前記情報を好ましくないと判断する、対話装置。 - 請求項3から5のいずれか一項に記載の対話装置において、
前記制御部は、前記認識部によって認識されていない対象者の言動を含む前記情報を好ましくないと判断する、対話装置。 - 質問を認識し、前記質問に対する回答を出力する対話システムにおいて、
標準的な第1回答を出力する第1回答モードと、周囲環境を考慮した第2回答を出力する第2回答モードと、を有する対話部と、
質問者のジェスチャーを認識する認識部と、
前記ジェスチャーが認識された場合、前記第1回答モードから前記第2回答モードへ切り替える制御を行う制御部とを備える、
対話機能を有する対話システム。 - 請求項7に記載の対話システムにおいて、
前記第1回答モードは、前記質問に対する前記第1回答を「何もせずにそのまま」出力し、
前記第2回答モードは、(1)前記質問に対する前記第1回答を質問者だけが認識できるように出力、もしくは(2)前記第1回答を前記質問者だけが認識できるように出力した後に、前記第2回答を前記質問者を含む他のすべての対象者に出力する、対話システム。 - 発話者と音声対話を行う対話装置に搭載されるコンピュータに、
周囲の環境を認識する処理と、
情報を入力する処理と、
前記入力された第1情報に応答する第2情報を生成する処理と、
前記第1情報を発した発話者を特定する処理と、
前記第2情報が、前記認識された周囲の環境もしくは前記特定された発話者にとって好ましい情報か否かを判断し、好ましいと判断された前記第2情報を出力する処理と、
を実行させるためのプログラム。 - 請求項9に記載のプログラムにおいて、
前記周囲の環境を認識する処理は、前記第1情報を発した発話者の周囲に他の対象者が存在するか否かを検出し、さらにその対象者が何者であるかを認識する、プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/046791 WO2020129182A1 (ja) | 2018-12-19 | 2018-12-19 | 対話装置、対話システムおよび対話プログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/294,539 US20210404830A1 (en) | 2018-12-19 | 2018-12-19 | Navigation device, vehicle, navigation method, and non-transitory storage medium |
PCT/JP2018/046791 WO2020129182A1 (ja) | 2018-12-19 | 2018-12-19 | 対話装置、対話システムおよび対話プログラム |
JP2018046791A JPWO2020129182A1 (ja) | 2018-12-19 | 2018-12-19 | 対話装置、対話システムおよび対話プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020129182A1 true WO2020129182A1 (ja) | 2020-06-25 |
Family
ID=71101155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/046791 WO2020129182A1 (ja) | 2018-12-19 | 2018-12-19 | 対話装置、対話システムおよび対話プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210404830A1 (ja) |
JP (1) | JPWO2020129182A1 (ja) |
WO (1) | WO2020129182A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022053862A1 (ja) * | 2020-09-10 | 2022-03-17 | 日産自動車株式会社 | 情報出力装置及び情報出力方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016158792A1 (ja) * | 2015-03-31 | 2016-10-06 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
-
2018
- 2018-12-19 US US17/294,539 patent/US20210404830A1/en active Pending
- 2018-12-19 JP JP2018046791A patent/JPWO2020129182A1/ja active Pending
- 2018-12-19 WO PCT/JP2018/046791 patent/WO2020129182A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016158792A1 (ja) * | 2015-03-31 | 2016-10-06 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022053862A1 (ja) * | 2020-09-10 | 2022-03-17 | 日産自動車株式会社 | 情報出力装置及び情報出力方法 |
Also Published As
Publication number | Publication date |
---|---|
US20210404830A1 (en) | 2021-12-30 |
JPWO2020129182A1 (ja) | 2021-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11277512B1 (en) | System and method for scoring and selection of communication notification presentation through contextual feedback | |
US10530923B1 (en) | Computer control of online social interactions based on conversation processing | |
KR102050334B1 (ko) | 언어 모델을 사용한, 메시지들에서 수신되는 이미지들에 대한 자동적인 제안 응답들 | |
US20180150762A1 (en) | Multiple choice decision engine for an electronic personal assistant | |
US9691047B2 (en) | Observation platform for using structured communications | |
US9338590B2 (en) | Global contact synchronization | |
CN108205627A (zh) | 交互式助理模块对访问的有条件提供 | |
KR20190086056A (ko) | 메시징 애플리케이션들을 위한 자동적인 제안들 및 다른 콘텐츠 | |
US20160231718A1 (en) | Personal Proximity with Preferences | |
CN102037716A (zh) | 用于自动更新化身状态以指示用户状态的方法和系统 | |
CN109643313A (zh) | 信息处理设备、信息处理方法和程序 | |
WO2017163515A1 (ja) | 情報処理システム、情報処理装置、情報処理方法、および記録媒体 | |
US20210043208A1 (en) | Generating response in conversation | |
WO2020129182A1 (ja) | 対話装置、対話システムおよび対話プログラム | |
KR101829754B1 (ko) | 커플 매칭 서비스를 제공하는 장치, 그 단말기 및 커플 매칭 서비스 제공 방법 | |
WO2020209230A1 (ja) | 情報処理システム、情報処理方法、及びプログラム | |
KR102359228B1 (ko) | 맞춤형 대화 연결 서비스 제공방법 | |
WO2022019119A1 (ja) | 情報処理装置、情報処理方法、プログラム、および情報処理システム | |
McCain | A Qualitative Investigation of Electronic Technology Effects on Interpersonal Communication Satisfaction | |
JP2016067670A (ja) | 通知システム、通知方法及びサーバ装置 | |
WO2016046865A1 (ja) | ソーシャルネットワークシステム及びサーバ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18943446 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2020560701 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 18943446 Country of ref document: EP Kind code of ref document: A1 |