JPWO2019207918A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JPWO2019207918A1
JPWO2019207918A1 JP2020516055A JP2020516055A JPWO2019207918A1 JP WO2019207918 A1 JPWO2019207918 A1 JP WO2019207918A1 JP 2020516055 A JP2020516055 A JP 2020516055A JP 2020516055 A JP2020516055 A JP 2020516055A JP WO2019207918 A1 JPWO2019207918 A1 JP WO2019207918A1
Authority
JP
Japan
Prior art keywords
information
control unit
information processing
score
subscore
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2020516055A
Other languages
English (en)
Inventor
義己 田中
義己 田中
邦在 鳥居
邦在 鳥居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2019207918A1 publication Critical patent/JPWO2019207918A1/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Abstract

検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う制御部を有する情報処理装置である。図7

Description

本開示は、情報処理装置、情報処理方法及びプログラムに関する。
音声による要求に応じた情報を提供する、エージェントと称される電子機器が提案されている(例えば、特許文献1を参照のこと)。
特開2008−90545号公報
このような分野では、ユーザにより曖昧性のある発話がなされた場合に、それに対応する情報がどのような指標(基準)に基づいて判断されたことが、当該ユーザが認識できるようにすれば、ユーザビリティが向上する。
本開示は、例えば、検索結果に基づく情報が複数、存在する場合に、各情報に対応する指標を認識可能にして報知する情報処理装置、情報処理方法及びプログラムを提供することを目的の一つとする。
本開示は、例えば、
検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う制御部を有する
情報処理装置である。
本開示は、例えば、
制御部が、検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う
情報処理方法である。
本開示は、例えば、
制御部が、検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う
情報処理方法をコンピュータに実行させるプログラムである。
本開示の少なくとも一の実施の形態によれば、複数の情報が報知される場合に、当該情報に対応する指標をユーザが認識することができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれの効果であっても良い。また、例示された効果により本開示の内容が限定して解釈されるものではない。
図1は、実施の形態に係るエージェントの構成例を示すブロック図である。 図2は、第1の実施の形態に係る制御部の機能を説明するための図である。 図3は、第1の実施の形態に係るデータベースに蓄積される情報の一例を示す図である。 図4は、第1の実施の形態に係る精度スコア及びサブスコアの一例を示す図である。 図5は、ユーザとエージェントとの間で行われるやり取りの一例を説明するための図である。 図6は、ユーザとエージェントとの間で行われるやり取りの一例を説明するための図である。 図7は、ユーザとエージェントとの間で行われるやり取りの一例を説明するための図である。 図8は、ユーザとエージェントとの間で行われるやり取りの一例を説明するための図である。 図9は、ユーザとエージェントとの間で行われるやり取りの一例を説明するための図である。 図10は、ユーザとエージェントとの間で行われるやり取りの一例を説明するための図である。 図11は、ユーザとエージェントとの間で行われるやり取りの一例を説明するための図である。 図12は、第1の実施の形態で行われる処理の流れを示すフローチャートである。 図13は、第1の実施の形態で行われる処理の流れを示すフローチャートである。 図14は、第2の実施の形態に係る制御部の機能を説明するための図である。 図15は、第2の実施の形態において、データベースに蓄積される情報の具体例を説明するために参照される図である。 図16は、第2の実施の形態に係る精度スコア及びサブスコアの一例を示す図である。 図17は、第3の実施の形態に係る制御部の機能を説明するための図である。 図18は、第3の実施の形態に係るデータベースに蓄積される情報の一例を示す図である。 図19は、第3の実施の形態に係る精度スコア及びサブスコアの一例を示す図である。 図20は、変形例を説明するための図である。
以下、本開示の実施の形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
<第1の実施の形態>
<第2の実施の形態>
<第3の実施の形態>
<変形例>
以下に説明する実施の形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施の形態等に限定されるものではない。
<第1の実施の形態>
[エージェントの構成例]
実施の形態では、情報処理装置の一例としてエージェントを例にして説明する。実施の形態に係るエージェントとは、例えば、可搬可能な程度の大きさである音声入出力装置若しくはそれらの装置が有するユーザとの音声対話機能を意味する。このようなエージェントは、スマートスピーカなどと称される場合もある。勿論、エージェントはスマートスピーカに限定されることなく、ロボット等であっても良いし、それ自体独立したものではなく、スマートホン等の各種の電子機器や車載機器、白物家電に組み込まれたものであっても良い。
図1は、第1の実施の形態に係るエージェント(エージェント1)の構成例を示すブロック図である。エージェント1は、例えば、制御部10と、センサ部11と、画像入力部12と、操作入力部13と、通信部14と、音声入出力部15と、ディスプレイ16と、データベース17とを有している。
制御部10は、例えば、CPU(Central Processing Unit)等から構成されており、エージェント1の各部を制御する。制御部10は、プログラムが格納されるROM(Read Only Memory)や当該プログラムを実行する際にワークメモリとして使用されるRAM(Random Access Memory)を有している(なお、これらの図示は省略している。)。制御部10は、検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う。なお、制御部10によって行われる具体的な制御例については、後述する。
センサ部11は、例えば、エージェント1のユーザの生体情報を取得可能なセンサ装置である。生体情報としては、ユーザの指紋、血圧、脈拍、汗腺(汗腺の位置でも良いし、汗腺からの発汗の程度でも良い)、体温等が挙げられる。勿論、センサ部11は、生体情報以外の情報を取得するセンサ装置(例えば、GPS(Global Positioning System)センサや重力センサ等)であっても良い。センサ部11により得られるセンサ情報が制御部10に入力される。
画像入力部12は、外部から入力される画像データ(静止画データでも良いし、動画データでも良い)を受け付けるインタフェースである。例えば、エージェント1とは異なる撮像装置等から画像入力部12に対して画像データが入力される。画像入力部12に入力された画像データが制御部10に入力される。なお、画像データは、通信部14を介してエージェント1に入力されても良く、係る場合、画像入力部12はなくても良い。
操作入力部13は、ユーザからの操作入力を受け付けるものである。操作入力部13としては、例えば、ボタン、レバー、スイッチ、タッチパネル、マイク、視線検出デバイス等が挙げられる。操作入力部13は、自身に対してなされた入力に応じて操作信号を生成し、当該操作信号を制御部10に供給する。制御部10は、当該操作信号に応じた処理を実行する。
通信部14は、インターネット等のネットワークを介して接続される他の装置と通信を行う。通信部14は、通信規格に対応した変復調回路、アンテナ等の構成を有している。通信部14により行われる通信は、有線による通信でも良いし、無線による通信でも良い。無線通信としては、LAN(Local Area Network)、Bluetooth(登録商標)、Wi−Fi(登録商標)、またはWUSB(Wireless USB)等が挙げられる。エージェント1は、通信部14の接続先から各種の情報を取得することができる。
音声入出力部15は、エージェント1に対して音声を入力する構成及びユーザに対して音声を出力する構成である。エージェント1に対して音声を入力する構成としては、マイクロホンが挙げられる。また、ユーザに対して音声を出力する構成としては、スピーカ装置が挙げられる。音声入出力部15に対して、例えば、ユーザの発話が入力される。音声入出力部15に対して入力された発話は、発話情報として制御部10に供給される。また、制御部10による制御に応じて、音声入出力部15は、所定の音声をユーザに対して再生する。なお、エージェント1が携帯可能な場合は、エージェント1を携帯することにより、任意の場所における音声の入出力が可能とされる。
ディスプレイ16は、静止画や動画を表示する構成である。ディスプレイ16としては、例えば、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)、プロジェクタ等が挙げられる。なお、実施の形態に係るディスプレイ16は、タッチスクリーンとして構成されており、ディスプレイ16に対する接触(近接でも良い)による操作入力が可能となっている。
データベース17は、各種の情報を記憶する記憶部である。データベース17としては、例えば、HDD(Hard Disk Drive)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、光磁気記憶デバイス等が挙げられる。データベース17に格納されている情報のうち所定の情報が制御部10により検索され、その検索結果がユーザに対して提示される。
なお、エージェント1は商用電源から供給される電力に基づいて駆動する構成でも良いし、充放電可能なリチウムイオン二次電池等から供給される電力に基づいて駆動する構成でも良い。
以上、エージェント1の構成例について説明したが、エージェント1の構成は、適宜、変更可能である。即ち、エージェント1は、図示した構成の一部を有しない構成でも良いし、図示した構成とは異なる構成を有するものであっても良い。
[エージェントの機能]
次に、エージェント1の機能、より具体的には、制御部10の機能の一例について、図2を参照して説明する。制御部10は、その機能として、例えば、スコア算出用データ蓄積部10aと、スコア算出部10bと、検索結果出力部10cとを有している。
(スコア算出用データ蓄積部)
スコア算出用データ蓄積部10aは、データベース17に情報を蓄積する。図2に示すように、スコア算出用データ蓄積部10aは、センサ部11を介して得られる生体情報のセンシング結果、画像入力部12から入力される写真等の画像データに対する画像解析の結果、音声認識の結果等に基づいて、感情を検出する。また、スコア算出用データ蓄積部10aは、音声入出力部15を介して入力される発話情報に対して音声認識及び品詞分解を行い、その結果と、感情検出の結果等を対応付けてデータベース17に履歴として蓄積(記憶)する。
スコア算出用データ蓄積部10aが行う音声認識及び品詞分解の結果により、例えば、所定の用語(例えば、名詞)、当該用語に関連する関連用語(例えば、用語と同格の名詞、用語にかかる形容詞、用語に対する動詞)、発話に含まれる時刻情報(時刻そのものでも良いし、それに準じるものでも良い)、発話に含まれる位置情報(例えば、地名、住所、緯度経度等)、識別スコア(音声認識の認識尤度によるスコア値)が得られる。
図3は、スコア算出用データ蓄積部10aによりデータベース17に蓄積される情報の例を示している。データベース17には、複数の属性情報が対応付けられた所定の用語が蓄積されている。図3では、属性情報の一例として「ID」、「日時」、「場所」、「同格の品詞」、「感情」、「関連語」、「認識精度」が示されている。
例えば、
「先週(2017.08.24)の日本食屋Aさん、おいしかったね」
との発話が音声入出力部15に入力される。
係る場合、スコア算出用データ蓄積部10aは、ID:1に対応する用語として「日本食屋A」を設定し、発話情報に基づいて得られる属性情報を「日本食屋A」に対応付けて記憶する。例えば、スコア算出用データ蓄積部10aは、「日本食屋A」に対して、日時として「2017.08.24」、場所として「都内」、感情として「美味しい」、認識精度として「80」という属性情報を対応付けて記憶する。なお、発話情報に場所が含まれない場合には、例えば、エージェント1が「2017.08.24」における位置情報のログ(例えば、スマートホン等に記憶されているログ等)を取得し、取得できた位置情報を場所として登録する。認識精度は、音声認識時におけるノイズの大きさ等に応じて設定される値である。
例えば、
「先月(2017.07)に言ったあの自転車ショップBに新しいモデルが入荷したらしいよ」
との発話が音声入出力部15に入力される。
係る場合、スコア算出用データ蓄積部10aは、発話情報に含まれる「自転車ショップB」、「新しいモデル」を抽出し、それぞれの用語に対応する属性情報を設定して、データベース17に蓄積する。図3では、ID:2が用語「自転車ショップB」及び当該用語に対応する属性情報の例であり、ID:3が用語「新しいモデル」及び当該用語に対応する属性情報の例である。なお、エージェント1は、例えば、通信部14を制御して自転車ショップBのホームページにアクセスし、その詳細な場所情報(図3に示す例では「新宿」)を取得し、取得した場所情報を「自転車ショップB」に対応する場所として登録する。
ID:4は、
「先月(2017.05)に行った魚料理店CでAさんに会ったよ」
との発話情報に基づいて、データベース17に蓄積された用語及び当該用語に対応する属性情報の例である。
ID:5は、
「夏にいった大崎のもつ鍋屋Dがリニューアルしたよ」
との発話情報に基づいて、データベース17に蓄積された用語及び当該用語に対応する属性情報の例である。本例のように、発話情報に基づいて、位置情報である「場所」が取得される場合もある。
ID:6は、
「九州に行ったときに飲んだ美味しい、ほんと美味しい焼酎を探したいのだけど」
との発話情報に基づいて、データベース17に蓄積された用語及び当該用語に対応する属性情報の例である。なお、感情としては「美味しい」が繰り返された旨も記憶される。
ID:7は、
「あの8月の上旬に行ったとても美味しかった和食屋Eさんにまた行きたいな」
との発話情報に基づいて、データベース17に蓄積された用語及び当該用語に対応する属性情報の例である。なお、感情としては「美味しい」を強調する「とても」との用語が付いている旨も記憶される。
勿論、図3に示すデータベース17の内容は一例であり、これに限定されるものではない。属性情報として他の情報が用いられても良い。
(スコア算出部)
スコア算出部10bは、データベース17に蓄積されている情報に対する指標であるスコアを算出する。本実施の形態に係るスコアは、属性情報毎に算出されるサブスコアと、サブスコアを統合した統合スコアとを含む。統合スコアは、例えば、サブスコアを単純加算又は重み付け加算したものである。なお、以下の説明では、統合スコアを精度スコアと適宜、称する。
図2に示すように、制御部10は、例えば、音声入出力部15を介して発話情報が入力される場合に、当該発話情報に対する音声認識や品詞分解を常に行う。そして、曖昧性のある用語を含む発話情報が入力された場合に、当該発話情報に対応する精度スコア及びサブスコアを、データベース17に蓄積されている各用語毎に算出する。曖昧性のある用語とは、何かを指し示すものの、その示すものを一意に特定できない用語である。曖昧性のある用語の具体例としては、あの、その等の指示語、最近等の時間的な曖昧性を含む用語、P駅の近くや周辺等の場所的な曖昧性を含む用語が挙げられる。曖昧性のある用語は、例えば、コンテキストに関するメタ情報を用いて抽出される。
例えば、2017.09.10に大崎駅で
「最近行ったあの美味しかった店予約しておいて」
とのユーザからの依頼が音声によりエージェント1に入力された場合を考える。
スコア算出部10bは、発話情報に曖昧性のある用語(本例における「最近」との用語)が含まれていることから、精度スコア及びサブスコアを算出する。なお、精度スコア及びサブスコアの上限値、下限値等は適宜、設定可能である。
図4は、精度スコア及びサブスコアの一例を示す図である。発話情報の内容が「美味しい店」であることから、飲食店以外の情報(図4に示す例では、ID:2、ID:3に対応する情報)は除外される。係る場合は、ID:2及びID:3に対する精度スコアを算出しないようにしても良いし、0としても良い。
属性情報毎のサブスコアは、例えば、以下のようにして算出される。
・「日時」の場合、「日時」が近く、且つ、範囲が狭い方(発話情報で指定された日時とのずれが小さい方)のスコアを高くする。
・「場所」の場合も、場所が近く、範囲が狭い方(発話情報で指定された場所とのずれが小さい方)のスコアを高くする。
・「感情」の場合、感情のプラス/マイナスの情報を示す用語がある場合には、ベースとなるスコア値を与え、さらにそれを強める用語(例えば「とても」)がある場合や、それらを繰り返す場合には、そのベースとなるスコアの絶対値を大きくするように、スコアを算出する。
・「認識精度」は、データベース17に蓄積された際の認識精度に基づいて算出される。
・属性情報が登録されていない場合でも、対象外とせずに一定値を付与する。例えば、ID:6に対応する日時は登録されていないものの、発話情報で指定された日時に対して近いか遠いかは不明であることから一定値(例えば、20)を付与する。
スコア算出部10bは、例えば、サブスコアを単純に加算することにより精度スコアを算出する。ID:1に対応する情報を用いて、具体的に説明する。ID:1に対応する用語は「日本食屋A」であることから検索結果の候補となる。属性情報「日時」については、発話情報に含まれる日時(2017.09.10)に近いので、高スコア(例えば、90)が付与される。属性情報「場所」については、発話情報に含まれる大崎駅は都内であるものの、ずれが大きい場合も想定されるので、中間程度の値(例えば、50)が付与される。属性情報「感情」については、発話情報に含まれる「美味しい」との感情的表現との一致度が高いので、高スコア(例えば、100)が付与される。認識精度は、その値がサブスコアとして用いられる。各サブスコアを単純加算した値である320が、用語「日本食屋A」に対応する精度スコアとなる。他のIDに対応する情報についても同様に精度スコア及びサブスコアが算出される。
なお、本実施の形態では、付与されない場合が多い属性情報(同格の名詞や関連語等)に対しては、サブスコアを算出しないようにしている。これにより、処理を簡略化することができる。勿論、全ての属性情報に対してサブスコアを算出するようにしても良い。
(検索結果出力部)
検索結果出力部10cは、スコア算出部10bによるスコア算出結果に応じた検索結果を出力する。検索結果出力部10cは、曖昧性のある用語を含む発話情報が入力された場合に、検索結果をユーザに報知する。検索結果出力部10cは、4つのパターン(パターンP1、P2、P3、P4)で検索結果を出力する。4つのパターンについて図4に示した例を用いて説明する。なお、下記説明では、各パターンの理解を容易とするために各パターンに対応する条件が重複する場合もあるが、実際には、重複しないように適切に設定される。
[検索結果の出力例]
(パターンP1)
パターンP1は、発話情報に対応する情報(選択肢)が明らかに1つしかないと判断される場合に行われる検索結果の出力パターンである。明らかに選択肢が1つしかないと判断される場合とは、例えば、あるIDに対応する情報の精度スコアが閾値を超えており、且つ、精度スコアが当該閾値を超える情報が1つの場合である。
図5は、パターンP1の場合における、ユーザUとエージェント1との間で行われるやり取りの例を示す図である。上述した例のように、ユーザUがエージェント1に「最近行ったあの美味しかった店、予約しておいて。」との発話がなされる。エージェント1は、精度スコア及びサブスコアを算出した結果、「和食屋E」の精度スコアが閾値(例えば、330)を超えており、且つ、閾値を超えているのは「和食屋E」しかないことから、検索結果である「和食屋E」をパターンP1で出力する。
パターンP1の場合は、エージェント1は、唯一の候補をユーザUに報知するものの、その正誤を問うことなく、発話に基づく処理を行う。エージェント1の制御部10は、「その店は和食屋Eですよね。予約します。」との音声データを生成し、当該音声を音声入出力部15から再生する制御を行う。また、エージェント1の制御部10は、通信部14を制御することにより「和食屋E」のホームページ等にアクセスし、適宜な予約処理を行う。
(パターンP2)
パターンP2は、発話情報に対応する情報(選択肢)が1つしかなく、その正確性が一定程度(例えば90%程度)あると判断される場合に行われる検索結果の出力パターンである。例えば、あるIDに対応する情報の精度スコアが閾値(例えば、300)を超えており、且つ、精度スコアが閾値を超える情報が1つの場合であって、精度スコアと閾値との差分が所定の範囲内である場合に、正確性が90%と判断される。
図6は、パターンP2の場合における、ユーザUとエージェント1との間で行われるやり取りの例を示す図である。上述した例のように、ユーザUがエージェント1に「最近行ったあの美味しかった店、予約しておいて。」との発話がなされる。エージェント1は、精度スコア及びサブスコアを算出した結果、「和食屋E」の精度スコアが閾値(例えば、330)を超えており、且つ、閾値を超えているのは「和食屋E」しかないものの、精度スコアと閾値との差分が所定の範囲内(例えば40以下)であることから、検索結果である「和食屋E」をパターンP2で出力する。
パターンP2の場合は、エージェント1は、唯一の候補をユーザUに報知しつつ、その正誤を確認するインタラクションを行う。ユーザUの発話に対して、エージェント1の制御部10は、「その店は和食屋Eですか」との音声データを生成し、当該音声を音声入出力部15から再生する制御を行う。ここで「そうだよ」との返答等、ユーザUの確認がとれた場合には、エージェント1の制御部10は、通信部14を制御することにより「和食屋E」のホームページ等にアクセスし、適宜な予約処理を行う。なお、ユーザUの意図が「和食屋E」でない場合は、次点の精度スコアに対応する情報を報知するようにしても良い。
(パターンP3)
パターンP3は、発話情報に対応する情報(選択肢)の精度スコアが十分であるものの、次点以降の候補の精度スコアとスコアが近いと判断される場合や、精度スコアが閾値を超える情報が複数存在する場合等に行われる検索結果の出力パターンである。パターンP3の場合は、検索結果として複数の候補が出力される。検索結果の出力として、映像を用いる方法と音声を用いる方法が考えられる。始めに、映像を用いる方法について説明する。
(パターンP3:映像による複数の検索結果の出力例)
図7は、パターンP3の場合における、ユーザUとエージェント1との間で行われるやり取りの例を示す図である。ユーザUの発話に応じて、制御部10のスコア算出部10bが精度スコア及びサブスコアを算出する。図4に示した例を参照すると、最も大きい精度スコアは354(ID:7に対応する情報)であるものの、精度スコアの差分が閾値(例えば、150)内であるものが2個(ID:1及びID:4に対応する情報)存在する。この場合は、制御部10は、ID:1,4,7に対応する情報を検索結果の出力として出力する。例えば、図7に示すように、「いくつかの候補があります。どれでしょうか?」との音声と共に、検索結果を出力する。本例では、複数の候補に対応する静止画をディスプレイ16に表示する。複数の候補に対応する静止画は、通信部14を介して取得されても良いし、ユーザUによって画像入力部12を介して入力されても良い。
図7に示すように、「日本食屋A」を示す画像IM1と、「魚料理店C」を示す画像IM2と、「和食屋E」を示す画像IM3とがディスプレイ16に表示される。ここでは、画像IM1〜IM3が、所定の用語に対応する情報の例である。更に、各画像は、各画像に対応する精度スコア及びサブスコア、より具体的には、ID:1,4,7の各用語に対応する精度スコア及びサブスコアに対応付けられて表示される。即ち、画像IM1〜IM3は、画像IM1〜IM3に対応する用語に対して算出された精度スコア及びサブスコアを認識可能なようにして報知される。
具体的には、「日本食屋A」を示す画像IM1の下に、「日本食屋A」に対して算出された精度スコア「320」が表示される。また、属性情報「日時」に関するサブスコア「90」と属性情報「場所」に関するサブスコア「50」とが、精度スコアに並列して表示される。即ち、画像IM1の下には「320/90/50」とのスコアSC1が表示される。
「魚料理店C」を示す画像IM2の下に、「魚料理店C」に対して算出された精度スコア「215」が表示される。また、属性情報「日時」に関するサブスコア「50」と属性情報「場所」に関するサブスコア「100」とが、精度スコアに並列して表示される。即ち、画像IM2の下には「215/50/100」とのスコアSC2が表示される。
「和食屋E」を示す画像IM3の下に、「和食屋E」に対して算出された精度スコア「354」が表示される。また、属性情報「日時」に関するサブスコア「70」と属性情報「場所」に関するサブスコア「85」とが、精度スコアに並列して表示される。即ち、画像IM3の下には「354/70/85」とのスコアSC3が表示される。
このように、少なくとも精度スコアを表示することで、検索結果の候補が複数、存在する場合に、どの候補の精度が高いと判断したのかを、ユーザが認識することができる。また、文言ではなく数値化されていることで、表示スペースをコンパクトにすることができ、ディスプレイ16が小さい場合にも対応することができる。
なお、複数の候補に対する指定は、図7に示すように指さしのカーソルで指定しても良いし、「日本食屋A」等の対象名を音声で指定することにより行われても良いし、表示位置を音声で指定することにより行われても良い。また、「日本食屋A」を指定したい場合には、「スコアが320のお店」等、精度スコアを音声で指定することによる候補の選択がなされても良い。サブスコアを音声で指定することによる候補の選択がなされても良い。
精度スコアに応じて、表示を変更しても良い。例えば、精度スコアが大きい順に、表示を大きくしても良い。図7に示す例では、画像IM3が一番大きく表示され、画像IM1が次に大きく表示され、画像IM2が最も小さく表示される。精度スコアの大小に応じて各画像IM1〜IM3の表示の順序、濃淡、枠の色等が変更されても良い。例えば、精度スコアの大きい画像が目立つように、表示の順序等が適宜、設定される。これらの表示の変更のやり方を組み合わせて画像IM1〜IM3が表示されるようにしても良い。また、表示スペースに応じて、表示する精度スコアの上限値や下限値、表示するサブスコアの数等が設定されるようにしても良い。
図7に示すように、本実施の形態では、精度スコアだけでなく、少なくとも1個のサブスコアも表示するようにしている。但し、全てのサブスコアを表示するのではなく、そのうちの一部のサブスコアのみを表示するようにしている。係る表示により、複数の候補が表示される場合に、多くのサブスコアが表示されることによる視認性の低下を防止することができる。一方で、表示されたサブスコアに対応する属性情報が、ユーザUが意図する属性情報と異なる場合もあり得る。そこで、本実施の形態では、更に、サブスコアの表示の切り替えを可能としている。
図8を参照して、サブスコアの表示の切り替えについて説明する。上述したように、エージェント1のディスプレイ16には、画像IM1〜IM3が表示されているとする。この場合に、ユーザUが「「感情」のサブスコアを表示して」と発話したとする。ユーザUの発話情報が音声入出力部15を介して制御部10に供給され、制御部10による音声認識が行われる。制御部10は、データベース17を検索し、画像IM1〜IM3、即ち、ID:1,4,7のそれぞれに対応するサブスコアを読み出す。そして、図8に示すように、制御部10は、「感情」のサブスコアを各画像の下に表示する。具体的には、画像IM1の下には、「感情」のサブスコアが追加された「320/90/50/100」のスコアSC1aが表示される。画像IM2の下には、「感情」のサブスコアが追加された「215/50/100/0」のスコアSC2aが表示される。画像IM3の下には、「感情」のサブスコアが追加された「354/70/85/120」のスコアSC3aが表示される。
係る表示により、ユーザUは所望の属性情報に対応するサブスコアを知ることができる。なお、図8に示すように、精度スコア及び指定された属性情報に対応するサブスコアのみを含むスコアSC1b〜SC3bを表示するようにしても良い。また、ユーザUがより認識し易いように、指定された属性情報に対応するサブスコアを強調して表示しても良い。例えば、指定された属性情報に対応するサブスコアの色を他のサブスコアの色と区別したり、指定された属性情報に対応するサブスコアを点滅させたりしても良い。また、発話により所定の属性情報が指定された際に、当該属性情報に対応するサブスコアが既に表示されている場合は、発話に応じて当該サブスコアを強調して表示するようにしても良い。
表示された検索結果に対して、ユーザUが納得しない場合や違和感を覚える場合もあり得る。例えば、図8に示した例において、ユーザUが「和食屋E」がとても美味しいと感じた記憶があるにも関わらず、「和食屋E」の精度スコアと「日本食屋A」の精度スコアとの間の差が思ったほど無いと、ユーザUが感じる場合もある。係る場合に対応するために、本実施の形態では、ユーザUが重視する属性情報を指定することにより、精度スコアを算出するための重みを変更できるようにしている。より具体的には、ユーザUが重視する属性情報に対応するサブスコアの重みを重く(大きく)して精度スコアが再計算される。
図9を参照して、具体例について説明する。画像IM1〜IM3を見たユーザUが例えば「「感情」のサブスコアに重点をおいて。」と発話したとする。ユーザUの発話情報が音声入出力部15を介して制御部10に入力され、制御部10による音声認識が行われる。制御部10のスコア算出部10bは、指定された属性情報である「感情」のサブスコアに対する重みを例えば2倍にして、精度スコアを再計算する。
そして、図9に示すように、再計算された精度スコア及び変更された重みに応じて再計算されたサブスコアがスコアSC1d〜SC3dとしてディスプレイ16に表示される。具体的には「日本食屋A」の「感情」のサブスコアは元々「100」であったので「200」と再計算される。「日本食屋A」の精度スコアは、サブスコアの増加分(100)だけ増加した「420」となる。これらの精度スコア及び「感情」のサブスコアである「420/200」がスコアSC1dとして画像IM1の下に表示される。「魚料理店C」の「感情」のサブスコアは元々「0」であったので再計算後も「0」となる。従って、「魚料理店C」の精度スコア及び「感情」のサブスコアは変わらず「215/0」とのスコアSC2dが画像IM2の下に表示される。「和食屋E」の「感情」のサブスコアは元々「120」であったので「240」と再計算される。「和食屋E」の精度スコアは、サブスコアの増加分(120)だけ増加した「474」となる。これらの精度スコア及び「感情」のサブスコアである「474/240」がスコアSC3dとして画像IM3の下に表示される。再計算後の精度スコア及びサブスコアを見たユーザUは、「日本食屋A」と「和食屋E」との精度スコアの差分が大きくなったので、自身が以前「和食屋E」を美味しい店と感じたものと納得感を得ることができる。
(パターンP3:音声による複数の検索結果の出力例)
次に、音声による複数の検索結果の出力例について説明する。図10は、音声による複数の検索結果の出力例を説明するための図である。ユーザUにより曖昧性のある用語を含む発話がなされる。例えば、ユーザUが「最近行ったあの美味しい店、予約しておいて」と発話する。発話情報が入力された制御部10は、発話情報に対応して、複数の候補の音声データを生成し、当該音声データを音声入出力部15から再生する。
例えば、検索結果である複数の候補を順に音声で再生する。図10に示す例では、「日本食屋A」、「魚料理店C」、「和食屋E」の順に、候補が音声で報知される。なお、ここでは各店舗名に対応する音声が、所定の用語に対応する情報の例である。そして、「和食屋E」が報知された際のユーザUの応答(例えば、「それ」との音声による指定)により「和食屋E」が選択され、エージェント1による「和食屋E」の予約処理が行われる。
複数の候補を音声により報知する際に、精度スコアの高い候補の順に報知しても良い。また、複数の候補を音声により報知する際に、候補名と共に精度スコア及びサブスコアを連続的に報知しても良い。精度スコア等の数値だけでは、ユーザUが聞き逃してしまう虞もあるため、精度スコア等を読み上げる際に、効果音やBGM(Background Music)等を付加しても良い。効果音等の種類は適宜、設定できるが、例えば、精度スコアが高い場合には当該精度スコアに対応する候補名を再生する際に明るい効果音が再生され、精度スコアが低い場合には当該精度スコアに対応する候補名を再生する際に暗い効果音が再生される。
(パターンP4)
パターンP4は、そもそも精度スコアが基準を満たすものが存在しない場合に行われる検索結果の出力パターンである。この場合は、エージェント1が直接その内容をユーザに問う。図11は、パターンP4の場合における、ユーザUとエージェント1との間で行われるやり取りの例を示す図である。
ユーザUが、曖昧性のある用語を含む発話(例えば、「最近行ったあの美味しい店、予約しておいて」)をする。エージェント1は、発話情報に応じてデータベース17を検索した結果、適切な候補が存在しない場合に、例えば、「その店ってどこ?」との音声を出力して、具体的な店名をユーザUに直接問う。
エージェント1の問いかけに応じて、ユーザUが「和食屋Eだよ」と回答したとする。回答に応じて、エージェント1は、和食屋Eを予約する処理を実行する。
以上、例示したパターンP1〜P4に基づいて、エージェント1から検索結果が出力される。なお、検索結果の出力として、映像を用いる方法と音声を用いる方法とを併用しても良い。また、パターンP1、P2、P4により検索結果を出力される場合に、映像を用いたり、映像と音声とを併用した方法を用いたりしても良い。
[処理の流れ]
第1の実施の形態に係るエージェント1で行われる処理の流れについて説明する。以下に説明する処理に関する制御は、特に断らない限り、制御部10によって行われる。
図12は、主に制御部10のスコア算出部10bにより行われる処理の流れを示すフローチャートである。ステップST11では、ユーザが発話する。続く、ステップST12では、発話に伴う音声が発話情報として音声入出力部15を介して制御部10に入力される。そして、処理がステップST13に進む。
ステップST13及びこれに続くステップST14、ST15では、制御部10が発話情報に対して音声認識、品詞分解、単語分解等の音声処理を実行し、曖昧性のある用語(言葉)を検出する。そして、処理がステップST16に進む。
ステップST16では、ステップST13〜ST15までの処理の結果、ユーザの発話情報に曖昧性のある用語が含まれるか否かが判断される。発話情報に曖昧性のある用語が含まれない場合は、処理がステップST11に戻る。発話情報に曖昧性のある用語が含まれる場合は、処理がステップST17に進む。
ステップST17では、制御部10のスコア算出部10bがスコア算出処理を行う。具体的には、制御部10のスコア算出部10bが、発話情報に対応するサブスコアを算出する。また、制御部10のスコア算出部10bが、算出したサブスコアに基づいて、精度スコアを算出する。
図12のフローチャートで示した処理に続いて、図13のフローチャートで示す処理が行われる。なお、図12及び図13のフローチャートで示される「AA」との記載は、処理の連続性を示すものであって、特定の処理を示すものではない。
図13のフローチャートで示される処理は、主に制御部10の検索結果出力部10cで行われる処理である。ステップST18では、発話情報に対応する候補が唯一であり、当該候補がユーザの発話に対応する候補であると断定できるレベル(以下、断定レベルと適宜、称する)であるか否かが判断される。検索結果の精度が断定レベル(例えば、99%程度の精度)である場合には、処理がステップST19に進む。
ステップST19では、上述したパターンP1で検索結果である候補を報知する。例えば、制御部10は、唯一の候補の候補名を報知しつつ、ステップST11でなされたユーザの発話に基づく処理を行う。
検索結果の精度が断定レベルでない場合には、処理がステップST20に進む。ステップST20では、発話情報に対応する候補が唯一であり、当該候補がユーザの発話に対応する候補であるとほぼ断定できる程のレベル(以下、ほぼ断定レベルと適宜、称する)であるか否かが判断される。検索結果の精度がほぼ断定レベル(例えば、90%程度の精度)である場合には、処理がステップST21に進む。
ステップST21では、上述したパターンP2で検索結果である候補を報知する。例えば、制御部10は、唯一の候補の候補名を報知し、当該候補名が、ユーザが望む候補であると確認が取れた場合に、ステップST11でなされたユーザの発話に基づく処理を行う。
検索結果の精度がほぼ断定レベルでない場合には、処理がステップST22に進む。ステップST22では、検索結果である候補がいくつかあるか否かが判断される。発話情報に対応する候補がない場合には、処理がステップST23に進む。
ステップST23では、上述したパターンP4に対応する処理が実行される。即ち、エージェント1がユーザに対して候補の名前を直接問いかける処理が行われる。
ステップST22で、検索結果である候補がいくつかある場合には、処理がステップST24に進む。ステップST24では、上述したパターンP3に対応する処理が実行され、検索結果である複数の候補がユーザに対して報知される。複数の候補は、音声で報知されても良いし、映像で報知されても良いし、音声や映像を併用して報知されても良い。そして、処理がステップST25に進む。
ステップST25では、報知された複数の候補のうち、何れかの候補が選択されたか否かが判断される。候補の選択は、音声で行っても良いし、操作入力部13による入力等により行われても良い。何れかの候補が選択された場合は、処理がステップST26に進む。
ステップST26では、制御部10が、選択された候補に関して、ユーザの発話で指示された内容の処理を実行する。そして、処理が終了する。
ステップST25では、報知された複数の候補のうち、何れかの候補が選択されない場合は、処理がステップST27に進む。ステップST27では、内容を変える指示があるか否かが判断される。内容を変える指示とは、例えば、属性情報毎の重みを変更する指示、より具体的には、所定の属性情報に重点をおく旨の指示等である。ステップST27において、内容を変える指示がない場合には、処理がステップST28に進む。
ステップST28では、一連の処理を止める(中止する)指示がユーザによりなされたか否かが判断される。一連の処理を止める指示がなされた場合は、処理が終了する。一連の処理を止める指示がなされない場合は、処理がステップST24に戻り、候補の報知が継続される。
ステップST27において、内容を変える指示がある場合には、処理がステップST29に進む。ステップST29では、ステップST27でなされた指示に応じて精度スコア及びサブスコアが再計算される。そして、処理がステップST24に進み、再計算後の精度スコアやサブスコアに基づく報知が行われる。
以上、説明したように、本実施の形態によれば、エージェントが曖昧性のある用語をどのように判断したのかをユーザが客観的な指標(例えば、精度スコア)に基づいて理解できる。また、ユーザが指標(例えば、サブスコア)に対応する属性情報の内容を変更することができる。また、エージェントは、過去の言葉の蓄積から判断できるようになるので、エージェントの判断の精度が向上する。また、言葉だけでなく、生体情報、カメラ映像なども取り込むことで、エージェントがより精度の高い判断を行うことができるようになる。また、エージェントの判断精度が向上することにより、エージェントとユーザ(人)とのインタラクションがより自然になり、ユーザが違和感を覚えないようになる。
<第2の実施の形態>
次に、第2の実施の形態について説明する。以下の説明において、第1の実施の形態と同一又は同質の構成については、同一の参照符号を付し、重複した説明を省略する。また、第1の実施の形態で説明した事項は、特に断らない限り、第2の実施の形態に適用することができる。
第2の実施の形態は、エージェントを移動体、より具体的には、車載装置に適用した例である。本実施の形態では、移動体を車として説明するが、移動体は、電車、自転車、飛行機等何でも良い。
第2の実施の形態に係るエージェント(以下、エージェント1Aと適宜、称する)は、エージェント1の制御部10と同様の機能を有する、制御部10Aを有している。制御部10Aは、図14に示すように、その機能として、例えば、スコア算出用データ蓄積部10Aaと、スコア算出部10Abと、検索結果出力部10Acとを有している。制御部10Aが、制御部10とアーキテクチャ的に異なる点は、スコア算出用データ蓄積部10Aaである。車載装置に適用されたエージェント1Aは、GPSやジャイロセンサ等を用いて位置センシングを行い、その結果を移動履歴としてデータベース17に記憶する。移動履歴が時系列のデータとして蓄積される。また、車内でなされた会話に含まれる用語(言葉)も合わせて蓄積される。
図15は、第2の実施の形態において、データベース17に蓄積される情報の具体例を説明するために参照される図(地図)である。例えば、2017.11.4(土)に通ったルートR1が移動履歴としてデータベース17に記憶される。ルートR1沿いの所定位置に「日本食屋C1」及び「家具屋F1」が存在し、ルートR1からやや離れた箇所に寿司屋D1が存在する。「日本食屋C1」付近でなされた会話(例えば「この店旨いよ」という内容の会話)や、「家具屋F1」付近を移動中になされた会話(例えば「ここ良いモノおいているよ」という内容の会話)も合わせてデータベース17に記憶される。
また、例えば、2017.11.6(月)、2017.11.8(水)、2017.11.10(金)に通ったルートR2が移動履歴としてデータベース17に記憶される。ルートR2沿いの所定位置に「ショップA1」、「日本食屋B1」及び「料理屋E1」が存在する。「日本食屋B1」付近を移動中になされた会話(例えば「この店いいよ」という内容の会話)も合わせてデータベース17に記憶される。また、各ルート沿い及び各ルートから所定範囲内に存在する店舗名が用語としてデータベース17に登録される。この場合の用語は、発話に基づくものであっても良いし、地図データから読み込まれたものであっても良い。
例示した情報がデータベース17に記憶された状態で、例えば、「平日に通るP駅近くのあの和食屋さんの予約をお願い」との発話が、ユーザからエージェント1Aに対してなされる。エージェント1Aの制御部10Aは、発話情報に「あの」という曖昧性のある用語が含まれることから、第1の実施の形態と同様に、用語に対応する属性情報毎のサブスコアを算出し、また、算出したサブスコアに基づく精度スコアを算出する。
図16は、算出されたサブスコア及び精度スコアの一例を示している。各用語には、属性情報として、例えば、「ID」、「位置精度」、「日時精度」、「和食屋に対する精度」、「個人評価」が対応付けられている。
以下、サブスコアの算出に関する設定について説明する。
位置精度:発話情報に「P駅近く」という言葉が含まれることから、P駅からの距離が近いほどサブスコアが高くなるようにする。
日時精度:発話情報に「平日」という言葉が含まれることから、平日に多く通るルートR2沿いに存在する店のサブスコアが高くなるようにし、休日に通るルートR1周辺に存在する店のサブスコアが低くなるようにする。
"和食屋"に対する精度:発話情報に「あの和食屋さん」という言葉が含まれることから、和食屋に近いもののサブスコアが高くなるようにする。
個人評価:過去に蓄積された車内の中での発言から導かれる評価値である。肯定的な発言である程、サブスコアが高くなる。
以上の設定に基づいて算出されたサブスコアが図16に示されている。また、サブスコアを加算した値が精度スコアとして算出される。なお、第1の実施の形態と同様に、各サブスコアを重み付け加算することにより精度スコアを算出するようにしても良い。
以上にして算出された精度スコアに基づいて、ユーザに対する候補の報知が行われる。候補の報知は、第1の実施の形態と同様に、パターンP1〜P4の何れかのパターンに基づいて行われる。例えば、検索結果として複数の候補が報知されるパターンP3の場合は、少なくとも精度スコアを認識可能にして報知する。第1の実施の形態で説明したように、サブスコアを認識可能にして報知しても良いし、ユーザによって指示されたサブスコアを認識可能にして報知しても良い。
なお、車載装置としてエージェント1Aを適用した場合には、エージェント1Aからユーザに対する応答の際に、以下の処理が行われても良い。
車の運転中にユーザがエージェント1Aに対して問いかけをした場合に、エージェント1Aの応答(複数の候補の報知を含む)が、車が停止したことを検知してから行われるようにしても良い。映像の場合には車が停止してから映像が表示され、音声の場合も車が停止してからその応答の音声が流れるようにする。これにより、ユーザの運転への集中力の低下を防止することができる。なお、エージェント1Aは、車が停止したか否かを車速センサにより得られるセンサ情報に基づいて判断することができる。係る構成の場合には、センサ部11が車速センサを含む。
また、エージェント1Aが映像や音声による報知中に車が動き出したことを検知した場合には、映像や音声による報知を中断する。また、車速センサのセンサ情報に基づいて、一定以上の車速が一定以上、継続する場合に、車が高速道路を運転中であるとエージェント1Aが判断する。このように、高速道路運転中など、ユーザからエージェント1Aに対する問い合わせ後に一定時間以上車が止まらないことが想定される場合には、問い合わせをキャンセルするようにしても良い。キャンセルされた旨やエラーメッセージ等を音声等によりユーザに対して報知しても良い。なお、助手席に着座しているユーザからのエージェント1Aに対する問いかけに関しては応答可能としても良い。エージェント1Aが助手席に着座しているユーザからの入力のみを受け付ける可能とすることは、例えば、ビームフォーミングと称される技術を適用することにより実現可能となる。
以上、説明した第2の実施の形態でも、第1の実施の形態と同様の効果を得ることができる。
<第3の実施の形態>
次に、第3の実施の形態について説明する。以下の説明において、第1、第2の実施の形態と同一又は同質の構成については、同一の参照符号を付し、重複した説明を省略する。また、第1、第2の実施の形態で説明した事項は、特に断らない限り、第3の実施の形態に適用することができる。第3の実施の形態は、エージェントを白物家電、より具体的には、冷蔵庫に適用した例である。
第3の実施の形態に係るエージェント(以下、エージェント1Bと適宜、称する)は、エージェント1の制御部10と同様の機能を有する、制御部10Bを有している。制御部10Bは、図17に示すように、その機能として、例えば、スコア算出用データ蓄積部10Baと、スコア算出部10Bbと、検索結果出力部10Bcとを有している。
制御部10Bが、制御部10とアーキテクチャ的に異なる点は、スコア算出用データ蓄積部10Baである。エージェント1Bは、センサ部11として、例えば、2系統のセンサを含む。1つのセンサは「ものの認識するためのセンサ」であり、係るセンサとしては、撮像装置や赤外線センサを例示することができる。また、もう1つは「重さをはかるためのセンサ」であり、係るセンサとしては重力センサを例示することができる。これら2系統のセンシング結果を利用して、スコア算出用データ蓄積部10Baは、冷蔵庫の中に入っている物の種類と重さのデータを蓄積していく。
図18は、スコア算出用データ蓄積部10Baにより、データベース17に蓄積された情報の一例を示す図である。図18における「物体」は、映像によるセンシングによりセンシングされた冷蔵庫内の「もの」に対応する。「変化日時」は、冷蔵庫内のものの出し入れに伴う変化が発生した日時である。時間情報は、センサ部11に計時部を含む構成として制御部10Bが当該計時部から時間情報を得るようにしても良いし、制御部10Bが、自身が有するRTC(Real Time Clock)等から時間情報を得るようにしても良い。
「個数変化/個数」は、上述した変化日時で変化した冷蔵庫内のものの個数と変化後の数である。個数の変化は、例えば撮像装置等によるセンシング結果に基づいて得られる。「重さの変化/重さ」は、上述した変化日時で変化した重さ(量)と変化後の重さとである。なお、個数が変化しない場合でも重さが変化する場合もある。例えば、図18におけるID:24及びID:31で示される「リンゴジュース」のように、個数が変化しない場合でも重さが変化する場合もある。これは、リンゴジュースが消費されたことを示している。
ここで、例えば、ユーザが「そろそろ無くなりそうなあの野菜ってなんだっけ?」とエージェント1Bと話しかけた場合を想定する。なお、このように必要なものを確認する思考は、外出先の買物中に行われることが多い。従って、外出先の買物中にユーザがスマートホンに話しかけ、発話情報がスマートホンからネットワークを介してエージェント1Bに送信されても良い。エージェント1Bから、ユーザの問いかけに対する応答がネットワークを介して送信され、ユーザのスマートホンにより表示や音声等により報知される。勿論、近年、インターネット等を利用したショッピングも普及していることから、屋内(家の中)でユーザが必要なものを確認する思考となる場合も想定される。係る場合は、ユーザの問いかけがエージェント1Bに直接、入力されても良い。
エージェント1Bは、入力されたユーザの発話情報に対して音声認識を行う。発話情報に「あの野菜」との曖昧性のある用語が含まれることから、制御部10Bは、精度スコア及びサブスコアを算出する。
始めに、制御部10Bのスコア算出部10Bbは、図18に示したデータベース17の情報から、それぞれの「物体」の直近(最新)の変化日時及び当該変化日時に生じた個数変化や重さの変化を読み出す。そして、読み出した結果に基づいて、「物体」毎に精度スコア及びサブスコアを算出する。
図19は、算出された精度スコア及びサブスコアの一例を示している。本実施の形態では、サブスコアとして「物体スコア」及び「重さスコア」を設定している。勿論、第1の実施の形態で説明したように物体の認識精度に応じたスコア等などがあっても良い。
各サブスコアに関する設定について説明する。
物体スコア:発話情報に「あの野菜」との用語が含まれることから、野菜の場合に高スコアが付与されるようにし、果物にも一定のスコアが付与される。図19に示す例では、例えば、野菜であるニンジン、玉ねぎには高スコアが付与され、キウイフルーツにも一定のスコアが付与される。反対に、野菜でないもの(例えば、卵)に付与されるスコアは低くなる。
重さスコア:直近の変化量と現状の重さとから判断されるスコアを付与する。発話情報に「そろそろ無くなりそう」との用語(文章)が含まれていることから、変化量が「マイナス(−)」であり、変化後の重さが小さいほど高スコアが付与される。例えば、変化量が「マイナス(−)」であり、変化後の重さが小さい玉ねぎに高スコアが付与される。
算出されたサブスコアに基づいて、精度スコアが算出される。図19に示す例では、各サブスコアを加算することにより、精度スコアが算出される。勿論、各サブスコアを重み付け加算することにより精度スコアが算出されるようにしても良い。
以上にして算出された精度スコアに基づいて、ユーザに対する候補の報知が行われる。候補の報知は、第1の実施の形態と同様に、パターンP1〜P4の何れかのパターンに基づいて行われる。例えば、検索結果として複数の候補が報知されるパターンP3の場合は、少なくとも精度スコアを認識可能にして報知する。第1の実施の形態で説明したように、サブスコアを認識可能にして報知しても良いし、ユーザによって指示されたサブスコアを認識可能にして報知しても良い。
以上、説明した第3の実施の形態でも、第1の実施の形態と同様の効果を得ることができる。
<変形例>
以上、本開示の複数の実施の形態について具体的に説明したが、本開示の内容は上述した実施の形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。以下、変形例について説明する。
上述した実施の形態に係るエージェントの一部の処理が、サーバ装置で行われても良い。例えば、図20に示すように、エージェント1とサーバ装置2との間で通信が行われる。サーバ装置2は、例えば、サーバ制御部21と、サーバ通信部22と、データベース23とを有している。
サーバ制御部21は、サーバ装置2の各部を制御する。例えば、サーバ制御部21は、上述したスコア算出用データ蓄積部10a及びスコア算出部10bを有している。サーバ通信部22は、エージェント1と通信を行うための構成であり、通信規格に対応した変復調回路、アンテナ等の構成を有している。データベース23は、データベース17と同様の情報を蓄積する。
エージェント1からサーバ装置2に対して、音声データやセンシングデータが送信される。これらの音声データ等が、サーバ通信部22を介してサーバ制御部21に供給される。サーバ制御部21は、制御部10と同様にしてスコア算出用データをデータベース23に蓄積する。また、エージェント1から供給される音声データに曖昧性のある用語が含まれる場合は、サーバ制御部21は、精度スコア等を算出し、ユーザの発話情報に対応する検索結果をエージェント1に送信する。エージェント1は、上述したパターンP1〜P4の何れかのパターンで検索結果をユーザに報知する。なお、報知のパターンがサーバ装置2により指定されても良い。この場合は、サーバ装置2からエージェント1に対して送信されるデータに、指定された報知のパターンが記述される。
その他の変形例について説明する。上述した実施の形態において、エージェントに入力される音声は、エージェントの周囲における会話だけでなく、外出先などで録音した会話、電話での会話等であっても良い。
上述した実施の形態において、精度スコア等が表示される位置は、画像の下に限定されることはなく、画像の上等、適宜、変更することができる。
上述した実施の形態において、発話情報に対応する処理は、店舗の予約に限定されることはなく、物品の購入、チケットの予約等何でも良い。
上述した第3の実施の形態において、センサ部として物体の消費期限を読み取るセンサ(例えば、物体につけられたRFID(Radio Frequency Identifier)を読み取るセンサ)を適用し、消費期限が切れた場合には、重さを0にしても良い。このように、センサ部の構成は適宜、変更することができる。
上述した実施の形態で説明した構成は一例に過ぎず、これに限定されるものではない。本開示の趣旨を逸脱しない範囲で、構成の追加、削除等が行われて良いことは言うまでもない。本開示は、装置、方法、プログラム、システム等の任意の形態で実現することもできる。プログラムは、例えば、制御部が有するメモリや適宜な記録媒体に記憶され得る。
本開示は、以下の構成も採ることができる。
(1)
検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの前記情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う制御部を有する
情報処理装置。
(2)
前記属性情報は、発話情報に基づいて取得された位置情報を含む
(1)に記載の情報処理装置。
(3)
前記制御部は、曖昧性のある用語を含む発話情報が入力された場合に、前記検索結果を報知する
(1)又は(2)に記載の情報処理装置。
(4)
前記指標は、前記属性情報毎に算出されるサブスコアと、複数のサブスコアを統合した統合スコアとを含み、
前記制御部は、少なくとも、前記統合スコアを認識可能に報知する
(1)から(3)までの何れかに記載の情報処理装置。
(5)
前記統合スコアは、前記サブスコアを重み付け加算したものである
(4)に記載の情報処理装置。
(6)
前記制御部は、前記重み付け加算で用いられる重みを発話情報に応じて変化させる
(5)に記載の情報処理装置。
(7)
前記制御部は、少なくとも1個のサブスコアを認識可能に報知する
(4)から(6)までの何れかに記載の情報処理装置。
(8)
前記制御部は、複数の前記情報を、各情報に対応する前記指標に対応付けて表示する
(1)から(7)までの何れかに記載の情報処理装置。
(9)
前記制御部は、各情報に対応する指標に応じて、各情報の表示の大きさ、濃淡及び配列順序の少なくとも一つを異なるように表示する
(8)に記載の情報処理装置。
(10)
前記指標は、前記属性情報毎に算出されるサブスコアと、複数のサブスコアを統合した統合スコアとを含み、
前記制御部は、所定の入力により指示されたサブスコアを表示する
(8)に記載の情報処理装置。
(11)
前記制御部は、複数の前記情報を、各情報に対応する前記指標に対応付けて音声により出力する
(1)から(10)までの何れかに記載の情報処理装置。
(12)
前記制御部は、所定の前記情報と当該情報に対応する前記指標とを連続的に出力する
(11)に記載の情報処理装置。
(13)
前記制御部は、所定の前記情報を、当該情報に対応する前記指標に基づく効果音を付加して出力する
(11)に記載の情報処理装置。
(14)
前記属性情報は、移動体の移動中になされた発話による評価に関する情報を含む
(1)から(13)までの何れかに記載の情報処理装置。
(15)
制御部が、検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの前記情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う
情報処理方法。
(16)
制御部が、検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの前記情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う
情報処理方法をコンピュータに実行させるプログラム。
1,1A,1B・・・エージェント、10,10A,10B・・・制御部、11・・・センサ部、15・・・音声入力部、16・・・ディスプレイ

Claims (16)

  1. 検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの前記情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う制御部を有する
    情報処理装置。
  2. 前記属性情報は、発話情報に基づいて取得された位置情報を含む
    請求項1に記載の情報処理装置。
  3. 前記制御部は、曖昧性のある用語を含む発話情報が入力された場合に、前記検索結果を報知する
    請求項1に記載の情報処理装置。
  4. 前記指標は、前記属性情報毎に算出されるサブスコアと、複数のサブスコアを統合した統合スコアとを含み、
    前記制御部は、少なくとも、前記統合スコアを認識可能に報知する
    請求項1に記載の情報処理装置。
  5. 前記統合スコアは、前記サブスコアを重み付け加算したものである
    請求項4に記載の情報処理装置。
  6. 前記制御部は、前記重み付け加算で用いられる重みを発話情報に応じて変化させる
    請求項5に記載の情報処理装置。
  7. 前記制御部は、少なくとも1個のサブスコアを認識可能に報知する
    請求項4に記載の情報処理装置。
  8. 前記制御部は、複数の前記情報を、各情報に対応する前記指標に対応付けて表示する
    請求項1に記載の情報処理装置。
  9. 前記制御部は、各情報に対応する指標に応じて、各情報の表示の大きさ、濃淡及び配列順序の少なくとも一つを異なるように表示する
    請求項8に記載の情報処理装置。
  10. 前記指標は、前記属性情報毎に算出されるサブスコアと、複数のサブスコアを統合した統合スコアとを含み、
    前記制御部は、所定の入力により指示されたサブスコアを表示する
    請求項8に記載の情報処理装置。
  11. 前記制御部は、複数の前記情報を、各情報に対応する前記指標に対応付けて音声により出力する
    請求項1に記載の情報処理装置。
  12. 前記制御部は、所定の前記情報と当該情報に対応する前記指標とを連続的に出力する
    請求項11に記載の情報処理装置。
  13. 前記制御部は、所定の前記情報を、当該情報に対応する前記指標に基づく効果音を付加して出力する
    請求項11に記載の情報処理装置。
  14. 前記属性情報は、移動体の移動中になされた発話による評価に関する情報を含む
    請求項1に記載の情報処理装置。
  15. 制御部が、検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの前記情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う
    情報処理方法。
  16. 制御部が、検索結果の候補として、複数の属性情報が対応付けられた所定の用語に対応する情報が、複数、存在する場合に、それぞれの前記情報を、各用語に対して算出された指標を認識可能にして報知する制御を行う
    情報処理方法をコンピュータに実行させるプログラム。
JP2020516055A 2018-04-25 2019-02-15 情報処理装置、情報処理方法及びプログラム Ceased JPWO2019207918A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018083863 2018-04-25
JP2018083863 2018-04-25
PCT/JP2019/005519 WO2019207918A1 (ja) 2018-04-25 2019-02-15 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JPWO2019207918A1 true JPWO2019207918A1 (ja) 2021-05-27

Family

ID=68294429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020516055A Ceased JPWO2019207918A1 (ja) 2018-04-25 2019-02-15 情報処理装置、情報処理方法及びプログラム

Country Status (4)

Country Link
US (1) US20210165825A1 (ja)
JP (1) JPWO2019207918A1 (ja)
CN (1) CN111989660A (ja)
WO (1) WO2019207918A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023272502A1 (zh) * 2021-06-29 2023-01-05 华为技术有限公司 一种人机交互方法及装置、设备及车辆

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007328713A (ja) * 2006-06-09 2007-12-20 Fuji Xerox Co Ltd 関連語表示装置、検索装置、その方法及びプログラム
JP2011179917A (ja) * 2010-02-26 2011-09-15 Pioneer Electronic Corp 情報記録装置、情報記録方法、情報記録プログラムおよび記録媒体
JP2012207940A (ja) * 2011-03-29 2012-10-25 Denso Corp 車載用情報提示装置
JP2013517566A (ja) * 2010-01-18 2013-05-16 アップル インコーポレイテッド インテリジェント自動アシスタント
JP2015524096A (ja) * 2012-05-03 2015-08-20 本田技研工業株式会社 音声制御ナビゲーション・システム用のランドマークに基づく場所思考追跡
JP2018028732A (ja) * 2016-08-15 2018-02-22 株式会社トヨタマップマスター 施設検索装置、施設検索方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140358887A1 (en) * 2013-05-29 2014-12-04 Microsoft Corporation Application content search management
US11221823B2 (en) * 2017-05-22 2022-01-11 Samsung Electronics Co., Ltd. System and method for context-based interaction for electronic devices

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007328713A (ja) * 2006-06-09 2007-12-20 Fuji Xerox Co Ltd 関連語表示装置、検索装置、その方法及びプログラム
JP2013517566A (ja) * 2010-01-18 2013-05-16 アップル インコーポレイテッド インテリジェント自動アシスタント
JP2011179917A (ja) * 2010-02-26 2011-09-15 Pioneer Electronic Corp 情報記録装置、情報記録方法、情報記録プログラムおよび記録媒体
JP2012207940A (ja) * 2011-03-29 2012-10-25 Denso Corp 車載用情報提示装置
JP2015524096A (ja) * 2012-05-03 2015-08-20 本田技研工業株式会社 音声制御ナビゲーション・システム用のランドマークに基づく場所思考追跡
JP2018028732A (ja) * 2016-08-15 2018-02-22 株式会社トヨタマップマスター 施設検索装置、施設検索方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体

Also Published As

Publication number Publication date
CN111989660A (zh) 2020-11-24
US20210165825A1 (en) 2021-06-03
WO2019207918A1 (ja) 2019-10-31

Similar Documents

Publication Publication Date Title
US11763580B2 (en) Information processing apparatus, information processing method, and program
US10819811B2 (en) Accumulation of real-time crowd sourced data for inferring metadata about entities
US8918320B2 (en) Methods, apparatuses and computer program products for joint use of speech and text-based features for sentiment detection
US10498673B2 (en) Device and method for providing user-customized content
US10409547B2 (en) Apparatus for recording audio information and method for controlling same
US11328716B2 (en) Information processing device, information processing system, and information processing method, and program
KR102212638B1 (ko) 음악 추천 시스템 및 방법
US20130339013A1 (en) Processing apparatus, processing system, and output method
WO2020116026A1 (ja) 応答処理装置、応答処理方法及び応答処理プログラム
US20200204874A1 (en) Information processing apparatus, information processing method, and program
WO2019207918A1 (ja) 情報処理装置、情報処理方法及びプログラム
US20220172716A1 (en) Response generation device and response generation method
JP2016095705A (ja) 不明事項解消処理システム
US11430429B2 (en) Information processing apparatus and information processing method
US20210064640A1 (en) Information processing apparatus and information processing method
JPWO2019098036A1 (ja) 情報処理装置、情報処理端末、および情報処理方法
JP6971205B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JPWO2018051596A1 (ja) 情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20230829