JPWO2018055898A1 - 情報処理装置、及び情報処理方法 - Google Patents

情報処理装置、及び情報処理方法 Download PDF

Info

Publication number
JPWO2018055898A1
JPWO2018055898A1 JP2018540661A JP2018540661A JPWO2018055898A1 JP WO2018055898 A1 JPWO2018055898 A1 JP WO2018055898A1 JP 2018540661 A JP2018540661 A JP 2018540661A JP 2018540661 A JP2018540661 A JP 2018540661A JP WO2018055898 A1 JPWO2018055898 A1 JP WO2018055898A1
Authority
JP
Japan
Prior art keywords
response
information
utterance
control unit
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018540661A
Other languages
English (en)
Other versions
JP6904361B2 (ja
Inventor
淳也 小野
淳也 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2018055898A1 publication Critical patent/JPWO2018055898A1/ja
Application granted granted Critical
Publication of JP6904361B2 publication Critical patent/JP6904361B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/163Wearable computers, e.g. on a belt
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

情報処理装置、及び情報処理方法を提供する。
発話を受け付けたマイクロフォンの位置情報を取得する取得部と、前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御する応答制御部と、を備える、情報処理装置。

Description

本開示は、情報処理装置、及び情報処理方法に関する。
ユーザによる発話に対して、応答を生成し、生成した応答を、発話を行ったユーザに対して提示する技術が開示されている(例えば特許文献1等参照)。
特表2016−502192号公報
ユーザが望む応答を得るためには、例えば応答を制御するための応答制御情報を含む発話をユーザが行うことが考えられる。しかし、発話に応答制御情報を含めると、発話文が複雑となり、ユーザにかかる負荷が増加する恐れがある。
そこで、本開示では、ユーザにかかる負荷を低減させつつ、ユーザの望む応答を行うことが可能な、新規かつ改良された情報処理装置、及び情報処理方法を提案する。
本開示によれば、発話を受け付けたマイクロフォンの位置情報を取得する取得部と、前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御する応答制御部と、を備える、情報処理装置が提供される。
本開示によれば、発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信する通信部と、前記応答情報に基づいて処理を行う処理部と、を備える情報処理装置が提供される。
また、本開示によれば、発話を受け付けたマイクロフォンの位置情報を取得することと、プロセッサが、前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御することと、を含む、情報処理方法が提供される。
また、本開示によれば、発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信することと、プロセッサが、前記応答情報に基づいて処理を行うことと、を含む、情報処理方法が提供される。
以上説明したように本開示によれば、ユーザにかかる負荷を低減させつつ、ユーザの望む応答を行うことが可能である。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る情報処理装置1の概要を説明するための説明図である。 同実施形態に係る情報処理装置1の概要を説明するための説明図である。 同実施形態に係る情報処理装置1の概要を説明するための説明図である。 同実施形態に係る情報処理装置1の構成例を示すブロック図である。 同実施形態に係るによる情報処理装置1の処理の流れの一例を示すフローチャート図である。 応用例1を説明するための説明図である。 応用例1を説明するための説明図である。 応用例1を説明するための説明図である。 応用例1を説明するための説明図である。 応用例2を説明するための説明図である。 応用例3に係る情報処理システムの構成を示す説明図である。 同応用例に係るクライアント端末2の構成例を示すブロック図である。 同応用例に係るサーバ3の構成例を示すブロック図である。 同応用例係るクライアント端末2の送信データの一例を示す説明図である。 同応用例における解析パターンを示す情報をJSON形式で表した一例を示す説明図である。 同応用例における音声データの値の一例を示す説明図である。 同応用例に係るクライアント端末2の受信データ示す説明図である。 応用例4に係るクライアント端末2−2の構成例を示すブロック図である。 同応用例に係るサーバ3−2の構成例を示すブロック図である。 ハードウェア構成例を示す説明図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
<<1.はじめに>>
<1−1.背景>
<1−2.概要>
<<2.構成例>>
<2−1.全体構成>
<2−2.制御部の詳細>
<<3.動作例>>
<3−1.処理の流れ>
<3−2.応答制御の具体例>
<<4.応用例>>
<4−1.応用例1>
<4−2.応用例2>
<4−3.応用例3>
<4−4.応用例4>
<<5.ハードウェア構成例>>
<<6.むすび>>
<<1.はじめに>>
<1−1.背景>
本開示の一実施形態に係る情報処理装置についての説明にあたり、まず本開示の一実施形態に係る情報処理装置の創作に至った背景を説明する。
近年、ユーザが身体に装着して使用することを目的とした、いわゆるウェアラブルデバイスと呼ばれている機器が登場しつつある。ウェアラブルデバイスには、例えばメガネ型、腕時計型、ネックバンド型、などの様々な形態のデバイスがあるが、このようなウェアラブルデバイスは画面が小さい、または画面を備えていない場合が多い。従って、ユーザがこのようなウェアラブルデバイスへ入力を行う場合、画面を直接操作するのではなく、デバイスに向かって話しかける(発話する)ことで入力を行うことが想定される。また、音声以外の入力機能を備えたウェアラブルデバイスであっても、ユーザが運転中や料理中等、手の利用が困難である場合には、発話による入力が有効であろう。
また、画面が小さい、または画面を備えていないデバイスによる応答は、例えば音声による応答が考えられる。音声による応答において、例えば詳細な情報を提示するためには長い時間が必要となり得るため、ユーザによっては概要のみの応答を望む場合もある一方、長い時間を要したとしても詳細な情報を含む応答を望む場合もある。
このように、ユーザが望む応答を得るためには、例えば応答を制御するための応答制御情報を含む発話(例えば、「明日の天気について詳しく教えて」等)をユーザが行うことが考えられる。しかし、発話に応答制御情報を含めると、発話文がより複雑となるため、音声認識や意味解析において誤りが発生する可能性が高まると共に、ユーザにかかる負荷が増加し得る。
そこで、本件開示者は、上記事情を一着眼点にして本実施形態を創作するに至った。本実施形態によれば、発話文を複雑化させることなく、ユーザの望む応答を行うことが可能である。以下、このような効果を有する本開示の一実施形態の概要について図1〜図3を参照して説明を行う。
<1−2.概要>
以下では、本開示の一実施形態に係る情報処理装置の概要について説明する。なお、本実施形態に係る情報処理装置の詳細については図4を参照して後述する。
図1〜3は、本実施形態に係る情報処理装置1の概要を説明するための説明図である。図1に示すように、情報処理装置1は、例えばネックバンド型のウェアラブルデバイスであり、ユーザU1の首に掛けられている。また、情報処理装置1は、ユーザU1から見て右側に設けられた右マイクロフォンMR1と、ユーザU1から見て左側に設けられた左マイクロフォンML1とを有し、ユーザU1の音声を集音して発話を取得する。
ここで、ユーザU1は、例えば図2に示すように、左マイクロフォンML1に向かって発話することも可能であるし、図3に示すように、右マイクロフォンMR1に向かって発話することも可能である。本実施形態に係る情報処理装置1は、上記のようなユーザU1による発話を受け付けたマイクロフォンの位置情報を取得し、当該位置情報に基づいて応答制御を行う。
例えば、図2に示す例と図3に示す例とにおいて、ユーザU1が同一の発話を行ったとしても、情報処理装置1は、図2に示す例と図3に示す例とにおいて異なる応答を出力し得る。
例えば、情報処理装置1は、図2に示す例における応答よりも、図3に示す例における応答の方が、ユーザU1に提示される情報の情報量が多くなる(詳細になる)ように、応答制御を行ってもよい。なお、情報処理装置1による応答制御は係る例に限定されず、後に応答制御の多様な例を説明する。
また、図1〜図3では情報処理装置1がネックバンド型のウェアラブルデバイスである例を示したが、本技術に係る情報処理装置は係る例に限定されない。本技術の他の装置例については、本技術の応用例として後述する。
以上、本実施形態に係る情報処理装置1の概要を説明した。本実施形態による情報処理装置1によれば、発話を受け付けたマイクロフォンの位置情報に基づいて応答を制御することで、例えばユーザの発話が同一であっても、多様な応答を行うことが可能である。したがって、発話文を複雑化させることなく、ユーザの望む応答を行うことが可能である。以下、このような効果を実現するための情報処理装置1の詳細な構成について、図4を参照して説明する。
<<2.構成例>>
図4は、本開示の一実施形態に係る情報処理装置1の構成例を示すブロック図である。図4に示すように、本実施形態に係る情報処理装置1は、制御部10、入力部20、出力部30、通信部40、及び記憶部50を備える。以下、情報処理装置1の全体構成を説明した後に、制御部10について詳細に説明する。
<2−1.全体構成>
制御部10は、情報処理装置1の各構成を制御する。例えば、制御部10は、入力部20から入力されるユーザの発話に基づいて、出力部30を制御し、ユーザの発話に対する応答を出力させる。なお、制御部10の詳細な構成については後述する。
入力部20は、ユーザの入力を受け付けるためのものであり、本実施形態では、ユーザからの発話を受け付けるためのものとして情報処理装置1に設けられている。本実施形態に係る入力部20は、ユーザの音声を集音する複数のマイクロフォンを含み、例えば図1〜図3に示した右マイクロフォンMR1と、左マイクロフォンML1を含んでもよい。また、入力部20は、3以上のマイクロフォンを含んでもよく、係る場合には、後述するビームフォーミング処理の精度が向上し得る。
なお、入力部20は、マイクロフォンに限定されず、例えばカメラやデプスセンサなどを含んでもよい。入力部20は、ユーザの入力操作によって生成されたデータを制御部10に送る。
出力部30は、制御部10の制御に従って出力を行う。本実施形態では、出力部30は、ユーザの発話に対する応答を出力する。出力部30は、例えば、音声を出力するスピーカ、文字、画像その他の視覚情報を表示するディスプレイ、光を出力するランプ、振動を出力する振動デバイス等を含んで実現されてもよい。
通信部40は、他の装置との間で情報の通信を行う。例えば、通信部40は、制御部10の制御に基づいて他の装置との間で情報を通信することで、他の装置から、ユーザの発話に対する応答の基になる情報を取得することができる。
記憶部50は、情報処理装置1の各構成が機能するためのプログラムやパラメータを記憶する。また、記憶部50は、図4に示すように、一般知識DB52、ユーザ知識DB54、及び発話履歴DB56を記憶する。一般知識DB52は、一般的な知識をグラフ構造化したデータベースである。また、ユーザ知識DB54は、ユーザに関するユーザ固有の知識をグラフ構造化したデータベースである。また、発話履歴DB56は、ユーザの発話履歴をグラフ構造化したデータベースである。一般知識DB52、ユーザ知識DB54、及び発話履歴DB56は、後述するように制御部10に参照され、また制御部10により更新されてもよい。
<2−2.制御部の詳細>
以上、本実施形態に係る情報処理装置1の全体構成例を説明した。続いて、情報処理装置1が備える制御部10の機能構成をより詳細に説明する。
本実施形態に係る制御部10は、図4に示すように、発話検出部110、話者認識部120、応答制御部130、発話解析部140、及び出力制御部150としての機能を有する。
(発話検出部)
発話検出部110は、ユーザが入力部20に対して発話されたことを検出する。そして発話検出部110は、ユーザが発話したことを検出すると、その発話の内容をテキストに変換し、発話テキストを抽出する。また発話検出部110は、ユーザが発話したことを検出すると、その発話の区間の音声を後段の話者認識部120へ出力する。また、発話検出部110は、テキストに変換された発話の内容(発話テキスト)を、応答制御部130へ送る。
発話検出部110は、図4に示したように、信号処理部112、及び音声認識部114を含んで構成される。
信号処理部112は、音声認識の精度の向上のために、入力部20から送られてくる音声データに対する信号処理を実行する。信号処理部112は、例えばファーフィールドでの音声認識の精度を向上させるために、音声データから雑音や残響を除去する信号処理を行う。
音声認識部114は、信号処理部112で信号処理を行った音声データに対して、ユーザが発話したことを受け付ける処理と、音声認識処理を行い発話をテキストに変換する。
例えば、音声認識部114は、ユーザが発話したことを受け付けて、ユーザの発話区間を検出する。このようにユーザが発話したことを受け付けて、ユーザの発話区間を検出することで発話部分を限定することで、音声認識の精度を向上させることができる。またこのようにユーザが発話したことを受け付けて、ユーザの発話区間を検出することで発話部分を限定することで、音声認識の処理期間を限定し、省電力化を実現できる。
また、音声認識部114は、検出されたユーザの発話区間において、音声認識処理を実行して、音声(発話)をテキストに変換する。音声からテキストへの変換処理は、特定の処理に限定されるものではない。
(話者認識部)
話者認識部120は、入力部20に対して発話した話者を特定する。また、本実施形態に係る話者認識部120は、発話を受け付けたマイクロフォンの位置情報を取得する取得部としても機能する。
話者認識部120は、図4に示したように、ビームフォーミング部122と、マイクロフォン特定部124と、話者識別部126と、を含んで構成される。
ビームフォーミング部122は、入力部20として設けられている複数のマイクロフォンによるビームフォーミングで得られる位相差から、発話された方向を特定する。
マイクロフォン特定部124は、ビームフォーミング部122により特定された発話された方向、及び音声のボリュームから、発話を受け付けたマイクロフォンを特定することで、発話を受け付けたマイクロフォンの位置情報を取得する。
本実施形態において、図1を参照して説明したように情報処理装置1はユーザから見て右側に設けられた右マイクロフォンMR1と、ユーザから見て左側に設けられた左マイクロフォンML1とを有する。例えば、マイクロフォン特定部124は、発話を受け付けたマイクロフォンが右マイクロフォンMR1であると特定された場合、右を示す位置情報を取得してもよい。また、マイクロフォン特定部124は、発話を受け付けたマイクロフォンが左マイクロフォンML1であると特定された場合、左を示す位置情報を取得してもよい。
なお、マイクロフォン特定部124が取得する位置情報は、情報処理装置1が有するマイクロフォンと一対一で対応していなくてもよい。例えば、図1に示した例のように、ユーザU1が右マイクロフォンMR1と左マイクロフォンML1の中央に向かって発話した場合、マイクロフォン特定部124は、中央を示す位置情報を取得してもよい。
話者識別部126は、発話した人物(話者)が誰であるかを特定する処理を実行する。話者識別部126は、例えば、ビームフォーミング部122によって特定された発話方向にいる人物(話者)を、入力部20として設けられているカメラで撮像された画像に対する顔認識処理によって特定する。また話者識別部126は、例えば、発話の音声を解析して、音声波形に基づいて、発話した人物が誰であるかを特定してもよい。なお、話者識別部126は、発話した人物を特定するために、記憶部50に記憶されるユーザ知識DB54へ問い合わせ、ユーザ知識DB54に格納される人物のプロファイル情報を取得してもよい。また、話者識別部126は、特定された発話した人物のプロファイル情報をユーザ知識DB54から取得して、応答制御部130へ提供してもよい。
(応答制御部)
応答制御部130は、ユーザの発話と、発話を受け付けたマイクロフォンの位置情報に基づいて、発話に対する応答を制御する。例えば、応答制御部130は、発話に対する応答に係る応答情報を生成することで応答を制御し、応答情報を出力制御部150へ送る。また、応答制御部130は、発話テキストと、後述する発話解析パターンを示す情報を発話解析部140へ送る。
応答制御部130は、図4に示したように、解析パターン制御部132と、応答生成部134と、を含んで構成される。
解析パターン制御部132は、発話を受け付けたマイクロフォンの位置情報に基づいて、後述する発話解析部140による発話解析パターンを制御する。本実施形態に係る解析パターン制御部132は、発話を受け付けたマイクロフォンの位置情報に基づいて、解析パターンの適用有無を判定し、適用する発話解析パターンを示す情報を発話解析部140に送る。なお、発話解析パターンについては後述するが、例えば、解析パターン制御部132が適用の判定を行う発話解析パターンは、ドメイン補完、スロット補完、個人化であってもよい。
上記のように、解析パターン制御部132が発話を受け付けたマイクロフォンの位置情報に基づいて発話解析パターンを制御することにより、後述する応答生成部134により生成される応答情報が異なるため、応答を制御し得る。
応答生成部134は、発話解析部140による発話の解析結果と、マイクロフォンの位置情報に基づいて、発話に対する応答に係る応答情報を生成することで、応答を制御する。また、応答生成部134は、話者認識部120により特定された話者に応じて、応答情報を生成することで、応答を制御してもよい。なお、応答生成部134は、例えば記憶部50に記憶されるデータベースから取得した情報、または通信部40を介して不図示の他の装置から取得した情報等に基づいて、応答情報を生成してもよい。
応答情報は、例えばユーザへ音声、または表示等により提示されるテキスト情報を含んでもよい。また、応答情報は、音響データや画像データ等、ユーザへ提示されるデータ形式に変換済みの情報を含んでもよい。また、応答情報は、後述する出力制御部150が出力タイミングを決定するための所定の条件の情報を含んでもよく、係る場合、応答生成部134は応答の出力タイミングを制御し得る。また、応答情報は、応答のモーダル(テキストの音声読み上げ、テキスト表示、画像表示等、ユーザへ応答を提示する方法)を示す情報を含んでもよい。
なお、応答制御部130による応答制御の例については、後述する。
(発話解析部)
発話解析部140は、発話検出部110が検出した発話の内容を解析する。発話解析部140は、言語解析、意味解析等によって発話検出部110が検出した発話の内容を解析する。そして発話解析部140は、発話検出部110が検出した発話の内容を解析した結果、その発話の内容が質問文であれば、記憶部50に記憶されるデータベースへ問い合わせを行い、必要な情報を取得する。また、発話解析部140は、発話の解析結果を応答制御部130へ送る。
発話解析部140は、図4に示したように、言語解析部142と及び意図理解部144と、を含んで構成される。
言語解析部142は、発話検出部110が変換した発話テキストの構造を解析する。言語解析部142は、発話テキストの構造を解析することで、例えば、ユーザによる発話の内容が質問であるか否かを判定することが出来る。
意図理解部144は、発話検出部110が変換した発話テキストを解析して、ドメイン(動作命令)、スロット(付属情報)を表現した意味フレーム(テーブル構造)を生成する。本実施形態において、ドメインは、例えば情報処理装置1が実行するアプリケーションのカテゴリ(例えば天気アプリケーション、スケジュールアプリケーション等)に相当する。また、本実施形態において、スロットはアプリケーションに渡されるパラメータに相当する。
例えば、「明日のTULの天気を教えて」という発話テキストの解析により生成される意味フレームは下記に示す表1のようになる。表1に示す例では、ドメインとして「天気情報の確認(Weather-Check)」が入り、日時スロットに「明日」、場所スロットに「TUL」が入る。
Figure 2018055898
また、意図理解部144は、発話検出部110が変換した発話テキストに含まれる曖昧な表現を解釈して、ユーザによる発話の意図を解釈し、情報の正規化を行う。例えば、意図理解部144は、記憶部50に記憶されるデータベースへ問い合わせることで、曖昧な表現を解釈する。
表2は、表1に示した意味フレームを意図理解部144が正規化することで得られる意味フレームの例を示す表である。日付表現が「明日」では処理し難いため、意図理解部144は、時刻表現に正規化を行ってもよい。また、場所表現が「TUL」では曖昧性があるため、意図理解部144は、記憶部50に記憶される一般知識DB52へ問い合わせることで、「東京ユニバーサルランド」に正規化する。
Figure 2018055898
また、意図理解部144は、応答制御部130から提供される解析パターンを示す情報に応じて、発話テキストを解析してもよい。例えば、意図理解部144は、解析パターンを示す情報として、ドメイン補完を示す情報が提供された場合、意味フレームにおけるドメインを以前の発話から補完(引き継ぎ)してもよい。また、意図理解部144は、解析パターンを示す情報として、スロット補完を示す情報が提供された場合、意味フレームにおけるスロットを以前の発話から補完してもよい。なお、意図理解部144は、記憶部50に記憶される発話履歴DB56に格納される発話の履歴に基づいて、上記の補完を行ってもよい。
上記のように、ドメイン、またはスロットを以前の発話から補完することにより、例えば一回の発話テキストに必要な情報が含まれず、分割して発話された場合に、情報を補完することが可能となる。
また、意図理解部144は、解析パターンを示す情報として、個人化の適用を示す情報が提供された場合、ユーザ(例えば話者)に最適化した解析を行ってもよい。例えば、意図理解部144は、解析パターンを示す情報として、個人化適用を示す情報が提供された場合、記憶部50に記憶されるユーザ知識DB54へ問い合わせを行い、ユーザのプロファイル情報を取得して、ユーザのプロファイル情報に基づく意味フレームの正規化を行ってもよい。
係る構成によれば、ユーザに最適化された解析結果が応答制御部130へ提供され、応答制御部130によるユーザに最適化された応答情報の生成が可能となる。
情報処理装置1が、発話を受け付けたマイクロフォンの位置情報に基づく解析パターンで発話解析を行う上記機能を有することで、ユーザはマイクロフォンの選択により、発話テキストに含まれていない情報をも情報処理装置1に提供することが可能となる。
(出力制御部)
出力制御部150は、出力部30による出力を制御する。例えば、出力制御部150は、応答制御部130から提供される応答情報に基づいて、応答を出力させる。また、出力制御部150は、応答の出力タイミングを制御してもよい。
また、出力制御部150は、発話を受け付けたマイクロフォンの位置情報をユーザへフィードバックするように出力部30を制御してもよい。例えば、出力制御部150の制御により、発話を受け付けたマイクロフォンの位置情報に応じた位置から、光、音、振動等が出力されてもよい。係る構成により、ユーザ(話者)は、発話を受け付けたマイクロフォンが、自身の意図通りに特定されているか否かを確認することが可能である。
出力制御部150は、図4に示したように、トリガ判定部152と及び音声合成部154と、を含んで構成される。
トリガ判定部152は、応答の出力のタイミングについての判定を行う。本実施形態に係る情報処理装置1は、応答の出力をリアルタイムに行うモードと、所定の条件を満たした時点で応答を出力するモードの2種類のモードを備える。応答の出力をリアルタイムに行うモードのことをリアルタイムモードとも称し、所定の条件を満たした時点で応答を出力するモードのことをブックマークモードとも称する。トリガ判定部152が使用する所定の条件は、例えば出力中のコンテンツが所定の状態になったことであってもよく、また例えば所定の時間になったことであってもよい。
出力中のコンテンツの所定の状態としては、例えばコンテンツが終了したタイミングであってもよく、コンテンツがテレビ番組であればコマーシャルになったタイミングであってもよい。コンテンツが終了したタイミングは、コンテンツが最後まで再生されたタイミングと、ユーザが明示的にコンテンツの再生を終了したタイミングの両方が含まれうる。上記所定の時間には、コンテンツの終了時間から相対的に経過した時間と、コンテンツの終了とは無関係な時間の両方が含まれうる。なお、所定の時間になったことを条件に応答を出力する場合、コンテンツが出力されていない状態であることが、トリガ判定部152が使用する所定の条件に加えられていてもよい。
また、トリガ判定部152が使用する所定の条件は上記に限定されず、アプリケーション、情報処理装置1、または他の装置が所定の状態になったことであってもよい。例えば、所定の状態は、所定のアプリケーションが終了したことや、情報処理装置1が電源オフになる準備状態となること等であってもよい。また、後述するように本技術が自動車に適用される場合、所定の状態は、自動車のエンジンが切られたことや、ブレーキを踏んで止まったこと、ナビゲーションが終了したこと等であってもよい。
上述したように、応答の出力のタイミングを制御することで、例えば、ユーザが現在行っている行動を妨げることなく、ユーザにとってより望ましいタイミングで応答を出力することが可能となる。
音声合成部154は、応答情報に音声読み上げ用のテキスト情報が含まれる場合に、テキスト情報を音声データに変換する。
以上、本実施形態による情報処理装置1の構成について具体的に説明した。なお、図4に示す情報処理装置1の構成は一例であって、本実施形態はこれに限定されない。例えば、本実施形態による制御部10の各機能は、通信部40を介して接続される他の情報処理装置が有してもよい。係る例については、応用例として後述する。
<<3.動作例>>
続いて、本実施形態による情報処理装置1の動作例について説明する。以下では、まず図5を参照して、処理の流れについて説明した後、本実施形態に係る応答制御の具体例について説明する。
<3−1.処理の流れ>
図5は、本実施形態による情報処理装置1の処理の流れの一例を示すフローチャート図である。図5に示すように、まず発話検出部110が発話の検出を行い、発話文(発話テキスト)を抽出する(S102)。
続いて、ビームフォーミング部122ビームフォーミング処理を行い、発話された方向を特定する(S104)。さらに、マイクロフォン特定部124が、ステップS104において特定された発話された方向、及び音声のボリュームから、発話を受け付けたマイクロフォンを特定し、発話を受け付けたマイクロフォンの位置情報を取得する(S106)。続いて、話者識別部126が、発話した人物(話者)が誰であるかを特定する(S108)。
続いて、出力制御部150の制御により、発話を受け付けたマイクロフォンの位置情報がユーザへフィードバックされる(S110)。
続いて、解析パターン制御部132が、発話を受け付けたマイクロフォンの位置情報に基づいて、発話解析における解析パターンを判定する(S112)。発話解析部140は、ステップS112により判定された解析パターンで、発話文(発話テキスト)の解析を行って意味フレームを取得する。
続いて、応答生成部134が、発話の解析結果(意味フレーム)と、発話を受け付けたマイクロフォンの位置情報に基づいて、応答情報を生成する(S116)。さらに、出力制御部150が、応答情報に基づいて、応答を出力させる出力制御を行う(S118)。
<3−2.応答制御の具体例>
以上、本実施形態に係る情報処理装置1の処理の流れの一例を説明した。続いて、上述した応答制御部130による応答制御の具体例について説明する。以下では、例として、発話を受け付けたマイクロフォンの位置情報(以下発話位置と呼ぶ場合がある)が、主に「左」または「右」である場合について説明する。
(情報量)
応答制御部130は発話位置に基づいて、応答に含まれる情報量を制御してもよい。例えば、応答制御部130は発話位置が「左」である場合より、「右」である場合の方が、応答に含まれる情報量が多くなるように、応答情報を生成してもよい。また、ユーザが迷わないように、全てのアプリケーション・サービスにおいても、上記の発話位置と情報量の関係が一貫するように応答が制御されることが望ましい。
なお、文化圏にもよるが、情報が左から右へ流れると、人間は知覚しているため、発話位置が「左」である場合より、「右」である場合の方が情報量が多いことは、人間の知覚とも一致する。
例えば、応答制御部130は発話位置に基づいて、情報の深さ(詳しさ)を制御してもよい。以下に天気アプリケーションでの例と、ニュースアプリケーションでの例を説明する。
例えば、ユーザが「明日の東京の天気を教えて」と発話した場合、発話位置が「左」であれば最小限の情報(晴れ/曇り/雨、程度)を含む応答情報が生成され、発話位置が「右」であれば最小限の情報に加えてより詳細な情報(最高/最低気温、夜から晴れる等)を含む応答情報が生成されてもよい。例えば、発話位置が「左」であれば、「明日の東京の天気は、晴れです。」という応答が出力されてもよい。また、発話位置が「右」であれば、「明日の東京の天気は、最高気温30℃、最低気温20℃、夜から雨模様です。」という応答が出力されてもよい。
また、ユーザが「西織圭のニュースを教えて」と発話した場合、発話位置が「左」であればより少ない情報を含む応答情報が生成され、発話位置が「右」であればより詳細な情報を含む応答情報が生成されてもよい。例えば、発話位置が「左」であれば、「西織、4回戦はカロチッビと激突。」という応答が出力されてもよい。また、発話位置が「右」であれば、「テニスの全米オープン第6日、西織は4回戦進出を果たし、カロチッビと激突。」という応答が出力されてもよい。
また、応答制御部130は発話位置に基づいて、情報の範囲(長さ)を制御してもよい。以下に音楽アプリケーションでの例を説明する。
例えば、ユーザが楽曲の再生を求める発話を行った場合、発話位置が「左」であれば試聴感覚の短い音声データ(例えば楽曲のさび部分のみ)を含む応答情報が生成され、発話位置が「右」であれば楽曲全体の音声データを含む応答情報が生成されてもよい。なお、楽曲が再生される前に、情報の範囲に関する応答(例えば「さび部分のみ再生します」、「フル再生します」等)が出力されてもよい。
(時間方向と連動)
応答制御部130は発話位置に対して応答に係る時間方向が対応するように、応答を制御してもよい。例えば、応答制御部130は発話位置が「左」である場合に過去の情報、「中央」である場合に現在の情報、「右」である場合に未来の情報が含まれるように、応答情報を生成してもよい。また、ユーザが迷わないように、全てのアプリケーション・サービスにおいても、上記の発話位置と時間方向の関係が一貫するように応答が制御されることが望ましい。
なお、文化圏にもよるが、情報が左から右へ流れると、人間は知覚しているため、発話位置が「左」である場合より、「右」である場合の方が時間的に後(未来)であることは、人間の知覚とも一致する。
以下にスケジュールアプリケーションでの例を説明する。
例えば、ユーザが「子供の予定を見せて」と発話した場合、発話位置が「左」であれば過去のスケジュールを含む応答情報が生成され、発話位置が「右」であれば未来のスケジュールを含む応答情報が生成されてもよい。なお、時刻の基準は発話が行われた時刻(現在時刻)であってもよい。なお、係る例において、応答の出力はディスプレイ等への表示であってもよい。
また、過去の情報を応答として出力する場合、過去の時点で得られたデータ(例えば写真、動画、音声のデータ等)が利用可能である。そこで、例えばユーザが「子供の運動会を見せて」と発話した場合、発話位置が「左」であれば、過去の運動会での写真データ、動画データ等が応答情報に含まれてもよい。また、発話位置が「右」であれば未来のスケジュールを含む応答情報が生成されてもよい。係る例では、発話位置に応じて、ドメイン(上記例ではアプリケーションの種類)が異なってもよい。
(空間と連動)
応答制御部130は発話位置と応答に係る空間が対応するように、応答を制御してもよい。例えば、応答制御部130は発話位置が「左」である場合に空間の左側の情報、「中央」である場合に空間の中央の情報、「右」である場合に空間の右側の情報が含まれるように、応答情報を生成してもよい。なお、空間における方向は、例えばユーザの正面を起点にした方向であってもよい。
以下に地図アプリケーションでの例を説明する。
例えば、ユーザが「この近くのコンビニを探して」と発話した場合、発話位置が「左」であれば左側の探索結果を含む応答情報が生成され、発話位置が「右」であれば左側の探索結果を含む応答情報が生成されてもよい。
(出力タイミング)
応答制御部130は発話位置に応じて応答の出力タイミングを制御してもよい。例えば、発話位置が「左」であればリアルタイムで応答が出力され、発話位置が「右」であれば、所定の条件を満たした時点で応答が出力されるように応答の出力タイミングが制御されてもよい。係る場合、応答制御部130は出力タイミングに係るモード(リアルタイムモード、またはブックマークモード)の情報、及び所定の条件を含む応答情報を生成することで、出力タイミングを制御してもよい。以下にリマインダアプリケーションでの例と、カメラアプリケーションでの例を説明する。
例えば、ユーザが「父に電話する」と発話した場合、発話位置が「左」であればリアルタイムに電話がかけられ、発話位置が「右」であれば、発話内容がTODOリストに追加され、所定の条件が満たされた時点でTODOがリマインド(通知出力)されるように、応答の出力タイミングが制御されてもよい。なお、係る場合、応答の出力タイミングに関する音声(例えば「XXXさんに電話します」、「TODOに追加しました」等)が出力されてもよい。なお、係る例において、ユーザ知識DB54に格納されるユーザのプロファイル情報に基づいて、ユーザの父が「XXX」であることが特定されて、電話がかけられてもよい。
また、出力タイミングが制御される場合、ユーザ知識DB54に格納されるユーザのプロファイル情報に基づいて、過去の複数のユーザの応答についての情報を含む応答情報が生成されてもよい。
例えば、一人目のユーザが「右」の発話位置で「牛乳を買う」と発話し、さらに、一人目のユーザとは家族である二人目のユーザが「右」の発話位置で「お米を買う」と発話した場合、各々の発話内容が各々のTODOリストに追加される。さらに、いずれかのユーザが「家族のTODOリストを見せて」と発話した場合、ユーザ知識DB54に格納されるユーザのプロファイル情報に基づいて、「買うものは牛乳、お米になります」という応答が出力されてもよい。
また、ユーザが「写真を撮って」と発話した場合、発話位置が「左」であればリアルタイムに写真が撮影され、発話位置が「右」であれば、所定時間後に、タイマー撮影が行われてもよい。また、発話位置が「左」である場合より、発話位置が「右」である場合の方が長い所定時間の後にタイマー撮影が行われてもよい。なお、係る場合、撮影タイミングに関する音声(例えば「3秒後に撮影します」、「10秒後に撮影します」等)が出力されてもよい。
(付加情報)
応答制御部130は発話位置に応じて、応答情報に付加情報を追加するか否かを決定して、応答を制御してもよい。以下に、音楽アプリケーションでの例を説明する。
例えば、付加情報は、曖昧な表現を含む発話に対する応答に係る理由の情報を含んでもよい。例えば、応答制御部130は発話位置が「左」である場合に応答の理由を含まない応答情報を生成し、「右」である場合に応答の理由が含まれる応答情報を生成してもよい。
例えば、ユーザが曖昧な表現を含む楽曲の再生を求める発話(曲名を含まずアーティスト名を含む発話等)を行った場合、応答制御部130は発話位置が「左」であれば楽曲選択の理由を含まない応答情報を生成し、発話位置が「右」であれば楽曲選択の理由が含まれる応答情報を生成してもよい。例えば、発話位置が「右」である場合、「再生回数が多いXXXです」、「あなたの好きな曲です」等の応答が出力されてもよい。
また、応答情報に追加される付加情報は、応答に関する補足情報(うんちく)であってもよい。ユーザが楽曲の再生を求める発話を行った場合、例えば、応答制御部130は発話位置が「左」である場合にうんちくを含まない応答情報を生成し、「右」である場合にうんちくが含まれる応答情報を生成してもよい。例えば、発話位置が「右」である場合、「この曲は音楽ランキングで1位を獲得しました。」等の応答が出力されてもよい。
(探索範囲)
応答制御部130は発話位置に応じて、応答に係る探索範囲を制御してもよい。以下に、地図アプリケーションでの例を説明する。
例えば、ユーザが「レストランを探して」と発話した場合、発話位置が「左」であれば狭い探索範囲(例えば半径1km以内)での探索結果を含む応答情報を生成し、発話位置が「右」であれば広い探索範囲(例えば半径5km以内)での探索結果を含む応答情報が生成されてもよい。なお、係る場合、探索範囲に関する応答(例えば「半径1m以内探します」、「半径5m以内探します」等)が出力されてもよい。また、探索範囲の広さ(探索に係る半径の値)は、例えばユーザの行動状態(自動車、徒歩等)に基づいて決定されてもよい。
(所定機能)
応答制御部130は、発話位置に応じた所定の機能に基づいて応答を制御してもよい。所定の機能は、例えばアプリケーションごとに割り当てられた機能、またはユーザが割り当てた機能であってもよい。
例えば、応答制御部130は、音楽アプリケーションにおいて、発話位置が「左」であればループ再生が行われるような応答情報を生成し、発話位置が「右」であればシャッフル再生が行われるような応答情報を生成してもよい。多様な機能が割り当てられることで、発話位置の選択がショートカット機能としての役割を果たし得る。
(ドメイン補完)
応答制御部130は、発話解析部140による発話解析パターンとして、ドメイン補完を適用するか否かを判定してもよい。例えば、応答制御部130は発話位置が「左」である場合に、ドメイン補完の適用を示す情報を解析パターンとして発話解析部140に提供してもよい。
例えば、ユーザが「明日の東京の天気を教えて」と発話した後に、「大崎について教えて」と発話した場合について説明する。発話位置が「左」である場合、発話解析において、ドメイン(この例では「天気情報の確認」)が補完され、例えば「明日の大崎の天気は晴れです。」といった応答が出力される。一方、発話位置が「右」である場合、発話解析において、ドメインが補完されず、ドメインが用語解析に強制的に切り替わり、例えば「大崎は東京都品川区の地名で、大崎地域内である。」といった応答が出力される。
(スロット補完)
応答制御部130は、発話解析部140による発話解析パターンとして、スロット補完を適用するか否かを判定してもよい。例えば、応答制御部130は発話位置が「左」である場合に、スロット補完の適用を示す情報を解析パターンとして発話解析部140に提供してもよい。
例えば、ユーザが「明日の東京の天気は?」と発話した後に、「予定は?」と発話した場合について説明する。発話位置が「左」である場合、発話解析において、日時スロット(この例では「明日」)が補完され、例えば「明日の予定XXXです。」といった応答が出力される。一方、発話位置が「右」である場合、発話解析において、スロットが補完されず、いつの予定であるかが不明であるため、例えば「いつですか?」といった日時の情報を求める応答が出力される。さらに、上記に続けてユーザが「明後日の天気は?」と発話した場合について説明する。発話位置が「左」である場合、発話解析において、場所スロット(この例では「東京」)が補完され、例えば「明後日の東京の天気は雨です。」といった応答が出力される。一方、発話位置が「右」である場合、発話解析において、スロットが補完されず、どこの天気であるかが不明であるため、例えば「どこですか?」といった場所の情報を求める応答が出力される。
(個人化)
応答制御部130は、発話解析部140による発話解析パターンとして、個人化を適用するか否かを判定してもよい。例えば、応答制御部130は発話位置が「右」である場合に、個人化の適用を示す情報を解析パターンとして発話解析部140に提供してもよい。
例えば、複数のアーティストが該当し得るアーティスト名を含む楽曲の再生を求める発話を行った場合、発話位置が「左」であれば個人化が適用されず、一般知識に基づいて解析が行われて、例えば該当するアーティストの中で最も人気のあるアーティストの楽曲が再生されてもよい。また、係る場合に、発話位置が「右」であれば個人化が適用されて解析が行われて、例えばユーザ(話者)の興味、再生履歴などに基づいて選択されたアーティストの楽曲が再生されてもよい。
以上、本実施形態に係る情報処理装置1による応答制御の例を具体的に説明した。なお、上記の応答制御は一例であって、本実施形態に係る情報処理装置1はこれに限定されず、多様な応答制御を行い得る。
<<4.応用例>>
以上、本開示の一実施形態の構成例、及び動作例について説明した。続いて、本開示の実施形態のいくつかの応用例を説明する。
<4−1.応用例1>
上記実施形態では、本技術がネックバンド型のウェアラブルデバイスに適用される例を説明したが、本技術は係る例に限定されない。応用例1として、本技術が自動車(車両の一例)に搭載される車載デバイスに適用される例を説明する。
図6〜図9は、応用例1を説明するための説明図である。図6に示すように、自動車7は、進行方向に対して左側に設けられた左マイクロフォンML2、及び進行方向に対して右側に設けられた右マイクロフォンMR2を有し、自動車7の運転席にはユーザU2、助手席にはユーザU3が座っている。
運転席に座るユーザU2は図6に示すように、左マイクロフォンML2に向かって発話することも可能であるし、図7に示すように、右マイクロフォンMR2に向かって発話することも可能である。また、同様に助手席に座るユーザU3は、図8に示すように、左マイクロフォンML2に向かって発話することも可能であるし、図9に示すように、右マイクロフォンMR2に向かって発話することも可能である。
したがって、上述した実施形態と同様に、本応用例に係る車載デバイスは、ユーザU2、U3による発話を受け付けたマイクロフォンの位置情報を取得し、当該位置情報に基づいて応答制御を行うことが可能である。
また、話者の座る座席とマイクロフォンの位置は固定されるため、予めマイクロフォンから各座席への方向を設計することで、本応用例に係る車載デバイスは、話者の座る座席が運転席であるか助手席であるかを判断することも可能である。係る場合、車載デバイスは、話者に係る情報(例えば話者の座席)に応じて、応答の出力に係るモーダルを制御してもよい。なお、モーダルの情報は、応答情報に含まれてもよい。
表3は、話者に応じたモーダルの制御例を示す表である。例えば、話者の座席が運転席である場合、運転の妨げとならないように、音声による応答のみが出力されてもよい。また、話者の座席が助手席である場合、音声による応答に加え、テキストでの応答が追加されてもよい。テキストでの応答は、例えば車載デバイスのディスプレイに表示されることで行われてもよいし、話者の保有する情報端末(例えばスマートフォン等)へテキストが送信されて、当該情報端末に表示されることで行われてもよい。
Figure 2018055898
<4−2.応用例2>
また、本技術は、家庭に置かれる家庭用デバイス(コンテンツ再生デバイス、ロボット等)に適用されてもよい。以下では、応用例2として、本技術が家庭用デバイスに適用される例を説明する。
図10は、応用例2を説明するための説明図である。図10に示すように、家庭用デバイス8は、マイクロフォンM1〜M8を有する。また、家庭のユーザU4、及びユーザU5は、自由な方向、距離から発話することが可能である。
上述した実施形態と同様に、本応用例に係る家庭用デバイス8は、ユーザU2、U3による発話を受け付けたマイクロフォンの位置情報を取得し、当該位置情報に基づいて応答制御を行うことが可能である。
家庭用デバイス8は、発話を受け付けたマイクロフォンをマイクロフォンM1〜M8の中から特定し、当該マイクロフォンが基準位置Pよりも左側にあるか右側にあるかに応じて、位置情報を取得してもよい。例えば、図10に示す例では、ユーザU4による発話に係る位置情報は「右」であり、ユーザU5による発話に係る位置情報は「左」である。なお、家庭用デバイス8は、「左」、「右」よりも細かな範囲の位置情報を取得してもよく、係る場合には、基準位置がより多数設定されてもよい。
<4−3.応用例3>
また、上記実施形態では、1の装置に図4を参照して説明した各機能が備えられる例を説明したが、本技術は係る例に限定されない。以下では、応用例3として、複数の装置が連携することで、上述したような効果が実現される例を説明する。
図11は、本応用例に係る情報処理システムの構成を示す説明図である。図11に示すように、本応用例に係る情報処理システムは、クライアント端末2、サーバ3、通信網5を有する。
クライアント端末2は、例えば、図1〜図3を参照して説明したネックバンド型ウェアラブルデバイスや、図6〜図9を参照して説明した車載デバイス、図10を参照して説明した家庭用デバイス等であってもよい。
図12は、クライアント端末2の構成例を示すブロック図である。図12に示すように、本応用例に係るクライアント端末2は、制御部10−2、入力部20、出力部30、及び通信部40を備える情報処理装置である。なお、図12に示す構成のうち、図4に示した各構成と実質的に同様の構成については同一の符号を付してあるため、適宜省略しながら説明を行う。
図12に示す制御部10−2は、クライアント端末2の各構成を制御する。本応用例に係る制御部10−2は、図12に示すように、発話検出部110−2、話者認識部120、応答制御部130−2、及び出力制御部150−2としての機能を有する。
図12に示すように、発話検出部110−2は、図4を参照して説明した発話検出部110の機能の内、信号処理部112としての機能を有し、音声認識部114としての機能を有しなくてもよい。また、発話検出部110−2は、信号処理部112で信号処理を行った音声データ(発話音声)を、通信部40を介してサーバ3に送信させる。
応答制御部130−2は、図4を参照して説明した応答制御部130と同様にユーザの発話と、発話を受け付けたマイクロフォンの位置情報に基づいて、発話に対する応答を制御するが、情報の入出力先が応答制御部130と一部異なる。応答制御部130−2は、図12に示したように、解析パターン制御部136と、応答生成部138と、を含んで構成される。
解析パターン制御部136は、図4を参照して説明した解析パターン制御部132と同様に、発話解析パターンを制御する。発話解析はサーバ3で行われるため、本応用例に係る解析パターン制御部136は、サーバ3へ送信可能な形式で解析パターンを示す情報を生成してもよい。
応答生成部138は、図4を参照して説明した応答生成部134と同様に、応答情報を生成する。本応用例に係る応答生成部138は、サーバ3から通信部40を介して取得した発話の解析結果と、マイクロフォンの位置情報に基づいて、発話に対する応答に係る応答情報を生成することで、応答を制御する。なお、生成された応答情報は、サーバ3、及び出力制御部150−2へ送られる。したがって、本応用例に係る応答生成部138は、サーバ3へ送信可能な形式で応答情報が生成してもよい。
出力制御部150−2は、図4を参照して説明した出力制御部150と同様に、出力部30による出力を制御する。また、図12に示すように、出力制御部150−2は、図4を参照して説明した出力制御部150の機能の内、トリガ判定部152としての機能を有し、音声合成部354としての機能を有しなくてもよい。
図13は、サーバ3の構成例を示すブロック図である。図13に示すように、本応用例に係るサーバ3は、制御部310、通信部340、及び記憶部50を備える情報処理装置である。なお、図12に示す構成のうち、図4に示した各構成と実質的に同様の構成については同一の符号を付してあるため、適宜省略しながら説明を行う。
制御部310は、サーバ3の各構成を制御する。本応用例に係る制御部310は、図13に示すように、発話解析部140、音声認識部314、及び音声合成部354としての機能を有する。
音声認識部314は、通信部340を介してクライアント端末2から受信した音声データ(発話音声)に対して、音声認識処理を行い発話をテキストに変換する。
音声合成部354は、通信部340を介してクライアント端末2から受信した応答情報に音声読み上げ用のテキスト情報が含まれる場合に、テキスト情報を音声データに変換する。なお、変換された音声データは、通信部340を介してクライアント端末2へ送信される。
通信部340は、他の装置との間で情報の通信を行う。
通信網5は、通信網5に接続されている装置、またはシステムから送信される情報の有線、または無線の伝送路である。例えば、通信網5は、インターネット、電話回線網、衛星通信網等の公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)等を含んでもよい。また、通信網5は、IP−VPN(Internet Protocol-Virtual Private Network)等の専用回線網を含んでもよい。
図11に示すように、クライアント端末2とサーバ3は通信網5を介して相互に接続され、通信を行うことが可能である。以下にクライアント端末2とサーバ3との間の通信の一例を説明する。なお、以下の例では、ユーザが発話位置「左」において「子供の予定を見せて」と発話した場合の例を説明する。また、係る例において、応答制御部130−2により判定された解析パターンは、ドメイン補完の適用あり、スロット補完の適用あり、個人化の適用ありの設定になっていた場合を想定する。
まず、クライアント端末2からサーバ3へは解析パターンを示す情報と音声データ(バイナリデータ)と、が送信される。図14は、送信されるデータの一例を示す説明図である。図14において、送信データは、「multipart_boundary」の文字列により区切られている。
なお、図14に示す通信例は説明を容易にするため、発話開始から発話終了までの音声データをまとめて送信する場合を示しているが、音声データは逐次送信されてもよい。発話の音声データをすべて取得してから送信すると、ユーザの発話が終わってから送信することになり、遅延につながるため、逐次音声認識として、ユーザの発話中に音声データを分割して送信して、逐次的に音声認識を行ってもよい。その場合は常にクライアント端末2からサーバ3へのセッションは発話開始の音声データから発話終了の音声データまで張られている。
図15は、解析パターンを示す情報をJSON形式で表した一例を示す説明図である。図15において、Domainタグの値が1の場合は、ドメイン補完の適用ありを示し、0の場合は補完の適用なしを示す。また、Slotタグの値が1の場合は、スロット補完の適用ありを示し、0の場合は補完の適用なしを示す。また、Personalizationタグの値が1の場合は、個人化の適用ありを示し、0の場合は個人化の適用なしを示す。
図16は、音声データの値の一例を示す説明図である。図16に示すように、音声データは16進数のバリナリコードであってもよい。
また、サーバ3による音声認識と発話解析が行われた後、発話解析結果として意味フレームがクライアント端末2へ送信される。図17は、クライアント端末2の受信データ示す説明図である。図17では、意味フレームがJSON形式で表現されている。表4は、図17におけるJSONタグの説明を示す表である。
Figure 2018055898
なお、図17、表4において、SubjectがNONEであることは、当該発話には件名の情報が含まれていないことを意味する。また、図17、表4において、DateValueがNONEであることは、当該発話には具体的な日時の情報が含まれていないことを意味する。
また、クライアント端末2の応答生成部138が発話の解析結果に基づいて生成した応答情報は、サーバ3へ送信され、サーバ3の音声合成部354により音声データに変換され、クライアント端末2へ返送される。
クライアント端末2からサーバ3へ送信される応答情報をJSON形式で表現すると、例えば以下のようになる。
{ "ResponceText": "太郎の予定はXXX"} }
また、クライアント端末2がサーバ3から受信する音声データは、音声合成の音声フォーマットに沿ったバリナリデータであってもよい。
なお、クライアント端末2が音声合成部を備える場合には応答情報、及び音声データの通信は不要である。
<4−4.応用例4>
本技術を複数の装置を有する情報システムに適用した場合の構成例は上記応用例3に限定されない。以下では、応用例4として、他の構成例を説明する。本応用例では、応答制御がサーバにより行われる点において応用例3と異なり、他の点においては上述した実施形態、及び応用例3と実質的に同様であるため、異なる点について主に説明を行い、実質的に同様な点については適宜説明を省略する。なお、以下に説明するクライアント端末2−2、及びサーバ3−2は、図11を参照して説明したクライアント端末2、及びサーバ3と同様に、通信網5を介して相互に接続され、通信を行うことが可能であるとする。
図18は、本応用例に係るクライアント端末2−2の構成例を示すブロック図である。図18に示すように、本応用例に係るクライアント端末2−2は、制御部10−3、入力部20、出力部30、及び通信部40を備える情報処理装置である。なお、図18に示す構成のうち、図4、図12に示した各構成と実質的に同様の構成については同一の符号を付してあるため、適宜省略しながら説明を行う。
本応用例に係る制御部10−3は、クライアント端末2−2の各構成を制御する。本応用例に係る制御部10−3は、図18に示すように、発話検出部110−2、話者認識部120−2、及び出力制御部150−3としての機能を有し、応答制御部としての機能を有しなくてもよい。
そのため、本応用例に係る話者認識部120−2は、通信部40を介して、発話を受け付けたマイクロフォンの位置情報、及び話者の情報をサーバ3−2へ送信させる点で、図4に示した話者認識部120と異なる。
また、本応用例に係る出力制御部150−3(処理部の一例)は、通信部40を介してサーバ3−2から受信した応答情報に基づいて、応答の出力制御処理を行う点で図4に示した出力制御部150と異なる。
図19は、本応用例に係るサーバ3−2の構成例を示すブロック図である。図19に示すように本応用例に係るサーバ3−2は、制御部310−2、通信部340、及び記憶部50を備える情報処理装置である。なお、図19に示す構成のうち、図4、図13に示した各構成と実質的に同様の構成については同一の符号を付してあるため、適宜省略しながら説明を行う。
制御部310−2は、サーバ3−2の各構成を制御する。本応用例に係る制御部310−2は、図19に示すように、発話解析部140、音声認識部314、及び応答制御部330としての機能を有する。制御部310−2は、応答制御部330を有するため、通信部340を介して、発話を受け付けたマイクロフォンの位置情報をクライアント端末2から受信(取得)する取得部としても機能する。
応答制御部330は、図12を参照して説明した応答制御部130−2と同様にユーザの発話と、発話を受け付けたマイクロフォンの位置情報に基づいて、発話に対する応答を制御する。本応用例に係る応答制御部330は、クライアント端末2から受信した発話を受け付けたマイクロフォンの位置情報に基づいて、応答を制御する点で、図12に示した応答制御部130−2と異なる。また、本応用例に係る応答制御部330は、生成した応答情報をクライアント端末2へ送信させる点で図12に示した応答制御部130−2と異なる。なお、サーバ3−2が音声合成部を備える場合には、サーバ3−2からクライアント端末2−2へ送信される応答情報は、音声データであってもよい。
以上、説明したように、本応用例によれば、クライアント端末2−2が応答制御機能を有していなくても、発話を受け付けたマイクロフォンの位置情報に基づく応答が可能となる。
<<5.ハードウェア構成例>>
以上、本開示の実施形態を説明した。最後に、図20を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図20は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図20に示す情報処理装置900は、例えば、図4、図12、図13、図18、図19にそれぞれ示した情報処理装置1、クライアント端末2、2−2、サーバ3、3−2を実現し得る。本実施形態に係る情報処理装置1、クライアント端末2、2−2、サーバ3、3−2による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
図20に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903及びホストバス904aを備える。また、情報処理装置900は、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート911、通信装置913、及びセンサ915を備える。情報処理装置900は、CPU901に代えて、又はこれとともに、DSP若しくはASIC等の処理回路を有してもよい。
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。CPU901は、例えば、制御部10、10−2、10−3、310、310−2を形成し得る。
CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス904aにより相互に接続されている。ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。入力装置906は、例えば入力部20を形成し得る。
出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置907は、例えば出力部30を形成し得る。
ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。上記ストレージ装置908は、例えば、記憶部50を形成し得る。
ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。
通信装置913は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置913は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置913は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置913は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。通信装置913は、例えば、通信部40、340を形成し得る。
なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
以上、本実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
なお、上述のような本実施形態に係る情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
<<6.むすび>>
以上、説明したように、本開示の実施形態によれば、ユーザにかかる負荷を低減させつつ、ユーザの望む応答を行うことが可能である。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記実施形態における各ステップは、必ずしもフローチャート図として記載された順序に沿って時系列に処理される必要はない。例えば、上記実施形態の処理における各ステップは、フローチャート図として記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
発話を受け付けたマイクロフォンの位置情報を取得する取得部と、
前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御する応答制御部と、
を備える、情報処理装置。
(2)
前記応答制御部は、前記位置情報に基づいて、前記発話の解析パターンを制御し、前記発話の解析結果に基づいて、前記応答を制御する、前記(1)に記載の情報処理装置。
(3)
前記応答制御部は、前記位置情報に基づいて、前記解析パターンの適用有無を判定することで、前記発話の解析パターンを制御する、前記(2)に記載の情報処理装置。
(4)
前記解析パターンは、ドメイン補完、スロット補完、個人化のうち、少なくともいずれか一つを含む、前記(3)に記載の情報処理装置。
(5)
前記応答制御部は、前記位置情報に基づいて、前記応答に含まれる情報量を制御する、前記(1)〜(4)のいずれか一項に記載の情報処理装置。
(6)
前記応答制御部は、前記位置情報と、応答に係る時間方向とが対応するように、前記応答を制御する、前記(1)〜(5)のいずれか一項に記載の情報処理装置。
(7)
前記応答制御部は、前記位置情報が左である場合に、前記応答に含まれる情報より、前記位置情報が右である場合に、前記応答に含まれる情報の方がより未来の情報であるように、前記応答を制御する、前記(6)に記載の情報処理装置。
(8)
前記応答制御部は、前記位置情報と、応答に係る空間とが対応するように、前記応答を制御する、前記(1)〜(7)のいずれか一項に記載の情報処理装置。
(9)
前記応答制御部は、前記位置情報に基づいて、前記応答の出力タイミングを制御する、前記(1)〜(8)のいずれか一項に記載の情報処理装置。
(10)
前記応答制御部は、前記位置情報に基づいて、前記応答に付加情報を追加するか否かを決定する、前記(1)〜(9)のいずれか一項に記載の情報処理装置。
(11)
前記付加情報は、前記応答に係る理由の情報、または前記応答に係る補足情報を含む、前記(10)に記載の情報処理装置。
(12)
前記応答制御部は、前記位置情報に基づいて、前記応答に係る探索範囲を制御する、前記(1)〜(11)のいずれか一項に記載の情報処理装置。
(13)
前記応答制御部は、前記位置情報に応じた所定の機能に基づいて、前記応答を制御する、前記(1)〜(12)のいずれか一項に記載の情報処理装置。
(14)
前記応答制御部は、さらに前記発話の話者に係る情報に基づいて、前記応答を制御する、前記(1)〜(13)のいずれか一項に記載の情報処理装置。
(15)
発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信する通信部と、
前記応答情報に基づいて処理を行う処理部と、
を備える情報処理装置。
(16)
発話を受け付けたマイクロフォンの位置情報を取得することと、
プロセッサが、前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御することと、
を含む、情報処理方法。
(17)
発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信することと、
プロセッサが、前記応答情報に基づいて処理を行うことと、
を含む、情報処理方法。
1 情報処理装置
2 クライアント端末
3 サーバ
5 通信網
7 自動車
8 家庭用デバイス
10 制御部
20 入力部
30 出力部
40 通信部
50 記憶部
110 発話検出部
112 信号処理部
114 音声認識部
120 話者認識部
122 ビームフォーミング部
124 マイクロフォン特定部
126 話者識別部
130 応答制御部
132 解析パターン制御部
134 応答生成部
136 解析パターン制御部
138 応答生成部
140 発話解析部
142 言語解析部
144 意図理解部
150 出力制御部
152 トリガ判定部
154 音声合成部
310 制御部
314 音声認識部
330 応答制御部
340 通信部
354 音声合成部

Claims (17)

  1. 発話を受け付けたマイクロフォンの位置情報を取得する取得部と、
    前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御する応答制御部と、
    を備える、情報処理装置。
  2. 前記応答制御部は、前記位置情報に基づいて、前記発話の解析パターンを制御し、前記発話の解析結果に基づいて、前記応答を制御する、請求項1に記載の情報処理装置。
  3. 前記応答制御部は、前記位置情報に基づいて、前記解析パターンの適用有無を判定することで、前記発話の解析パターンを制御する、請求項2に記載の情報処理装置。
  4. 前記解析パターンは、ドメイン補完、スロット補完、個人化のうち、少なくともいずれか一つを含む、請求項3に記載の情報処理装置。
  5. 前記応答制御部は、前記位置情報に基づいて、前記応答に含まれる情報量を制御する、請求項1に記載の情報処理装置。
  6. 前記応答制御部は、前記位置情報と、応答に係る時間方向とが対応するように、前記応答を制御する、請求項1に記載の情報処理装置。
  7. 前記応答制御部は、前記位置情報が左である場合に、前記応答に含まれる情報より、前記位置情報が右である場合に、前記応答に含まれる情報の方がより未来の情報であるように、前記応答を制御する、請求項6に記載の情報処理装置。
  8. 前記応答制御部は、前記位置情報と、応答に係る空間とが対応するように、前記応答を制御する、請求項1に記載の情報処理装置。
  9. 前記応答制御部は、前記位置情報に基づいて、前記応答の出力タイミングを制御する、請求項1に記載の情報処理装置。
  10. 前記応答制御部は、前記位置情報に基づいて、前記応答に付加情報を追加するか否かを決定する、請求項1に記載の情報処理装置。
  11. 前記付加情報は、前記応答に係る理由の情報、または前記応答に係る補足情報を含む、請求項10に記載の情報処理装置。
  12. 前記応答制御部は、前記位置情報に基づいて、前記応答に係る探索範囲を制御する、請求項1に記載の情報処理装置。
  13. 前記応答制御部は、前記位置情報に応じた所定の機能に基づいて、前記応答を制御する、請求項1に記載の情報処理装置。
  14. 前記応答制御部は、さらに前記発話の話者に係る情報に基づいて、前記応答を制御する、請求項1に記載の情報処理装置。
  15. 発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信する通信部と、
    前記応答情報に基づいて処理を行う処理部と、
    を備える情報処理装置。
  16. 発話を受け付けたマイクロフォンの位置情報を取得することと、
    プロセッサが、前記発話と、前記位置情報に基づいて、前記発話に対する応答を制御することと、
    を含む、情報処理方法。
  17. 発話を受け付けたマイクロフォンの位置情報を送信し、前記発話と前記位置情報に基づく前記発話に対する応答に係る応答情報を受信することと、
    プロセッサが、前記応答情報に基づいて処理を行うことと、
    を含む、情報処理方法。
JP2018540661A 2016-09-23 2017-07-21 情報処理装置、及び情報処理方法 Active JP6904361B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016186151 2016-09-23
JP2016186151 2016-09-23
PCT/JP2017/026399 WO2018055898A1 (ja) 2016-09-23 2017-07-21 情報処理装置、及び情報処理方法

Publications (2)

Publication Number Publication Date
JPWO2018055898A1 true JPWO2018055898A1 (ja) 2019-07-11
JP6904361B2 JP6904361B2 (ja) 2021-07-14

Family

ID=61690367

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018540661A Active JP6904361B2 (ja) 2016-09-23 2017-07-21 情報処理装置、及び情報処理方法

Country Status (5)

Country Link
US (1) US10976998B2 (ja)
EP (1) EP3518095A4 (ja)
JP (1) JP6904361B2 (ja)
CN (1) CN109716285A (ja)
WO (1) WO2018055898A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021139920A (ja) * 2018-05-31 2021-09-16 ソニーグループ株式会社 音声処理装置および音声処理方法
JP2019212168A (ja) * 2018-06-07 2019-12-12 トヨタ自動車株式会社 音声認識システムおよび情報処理装置
CN110648663A (zh) * 2019-09-26 2020-01-03 科大讯飞(苏州)科技有限公司 车载音频管理方法、装置、设备、汽车及可读存储介质
CN111160002B (zh) * 2019-12-27 2022-03-01 北京百度网讯科技有限公司 用于输出口语理解中解析异常信息的方法和装置
JP6786139B1 (ja) * 2020-07-06 2020-11-18 Fairy Devices株式会社 音声入力装置
US20220375466A1 (en) * 2021-05-18 2022-11-24 Apple Inc. Siri integration with guest voices

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010156825A (ja) * 2008-12-26 2010-07-15 Fujitsu Ten Ltd 音声出力装置
JP2013156768A (ja) * 2012-01-27 2013-08-15 Sharp Corp 入力インターフェース装置、電子機器、携帯端末機器、プログラムおよび記録媒体
WO2015177856A1 (ja) * 2014-05-20 2015-11-26 三菱電機株式会社 音声操作装置、音声操作方法、および音声操作システム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4247002B2 (ja) * 2003-01-22 2009-04-02 富士通株式会社 マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置
KR100814143B1 (ko) * 2003-10-03 2008-03-14 아사히 가세이 가부시키가이샤 데이터 처리 장치 및 데이터 처리 장치 제어 프로그램
DE602005008005D1 (de) * 2005-02-23 2008-08-21 Harman Becker Automotive Sys Spracherkennungssytem in einem Kraftfahrzeug
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
DE602006007322D1 (de) * 2006-04-25 2009-07-30 Harman Becker Automotive Sys Fahrzeugkommunikationssystem
JP5156260B2 (ja) * 2007-04-27 2013-03-06 ニュアンス コミュニケーションズ,インコーポレイテッド 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
US20090055178A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method of controlling personalized settings in a vehicle
JP5493551B2 (ja) * 2009-07-30 2014-05-14 沖電気工業株式会社 情報処理システム、情報処理装置、及び情報処理方法
KR101750338B1 (ko) * 2010-09-13 2017-06-23 삼성전자주식회사 마이크의 빔포밍 수행 방법 및 장치
US20120259638A1 (en) 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
KR101946364B1 (ko) * 2012-05-01 2019-02-11 엘지전자 주식회사 적어도 하나의 마이크 센서를 갖는 모바일 디바이스 및 그 제어방법
US9271111B2 (en) 2012-12-14 2016-02-23 Amazon Technologies, Inc. Response endpoint selection
US9479867B2 (en) * 2013-07-11 2016-10-25 Texas Instruments Incorporated Method and circuitry for direction of arrival estimation using microphone array with a sharp null
US10317992B2 (en) 2014-09-25 2019-06-11 Microsoft Technology Licensing, Llc Eye gaze for spoken language understanding in multi-modal conversational interactions

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010156825A (ja) * 2008-12-26 2010-07-15 Fujitsu Ten Ltd 音声出力装置
JP2013156768A (ja) * 2012-01-27 2013-08-15 Sharp Corp 入力インターフェース装置、電子機器、携帯端末機器、プログラムおよび記録媒体
WO2015177856A1 (ja) * 2014-05-20 2015-11-26 三菱電機株式会社 音声操作装置、音声操作方法、および音声操作システム

Also Published As

Publication number Publication date
EP3518095A4 (en) 2019-09-11
WO2018055898A1 (ja) 2018-03-29
CN109716285A (zh) 2019-05-03
JP6904361B2 (ja) 2021-07-14
EP3518095A1 (en) 2019-07-31
US20190163438A1 (en) 2019-05-30
US10976998B2 (en) 2021-04-13

Similar Documents

Publication Publication Date Title
JPWO2018055898A1 (ja) 情報処理装置、及び情報処理方法
US11302325B2 (en) Automatic dialogue design
JP7283384B2 (ja) 情報処理端末、情報処理装置、および情報処理方法
WO2018180024A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7266432B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
US20200365139A1 (en) Information processing apparatus, information processing system, and information processing method, and program
US20200286479A1 (en) Agent device, method for controlling agent device, and storage medium
CN111739529A (zh) 一种交互方法、装置、耳机和服务器
WO2019239659A1 (ja) 情報処理装置および情報処理方法
JPWO2017175442A1 (ja) 情報処理装置、および情報処理方法
JP7274404B2 (ja) 情報提供装置、情報提供方法、およびプログラム
CN111746435B (zh) 信息提供装置、信息提供方法及存储介质
CN111861666A (zh) 车辆信息的交互方法及装置
JP2021117371A (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP6387287B2 (ja) 不明事項解消処理システム
WO2019150708A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US20200388268A1 (en) Information processing apparatus, information processing system, and information processing method, and program
CN111667823B (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111724778B (zh) 车载装置、车载装置的控制方法及存储介质
CN111661065B (zh) 智能体装置、智能体装置的控制方法及存储介质
WO2020003820A1 (ja) 複数の処理を並列実行する情報処理装置
CN111754288A (zh) 服务器装置、信息提供系统、信息提供方法及存储介质
CN114514576A (zh) 数据处理方法、装置和存储介质
CN111824174B (zh) 智能体装置、智能体装置的控制方法及存储介质
CN111739524B (zh) 智能体装置、智能体装置的控制方法及存储介质

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190214

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190222

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190515

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200702

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200702

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210525

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210607

R151 Written notification of patent or utility model registration

Ref document number: 6904361

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151