JPWO2020021861A1 - 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
JPWO2020021861A1
JPWO2020021861A1 JP2020532192A JP2020532192A JPWO2020021861A1 JP WO2020021861 A1 JPWO2020021861 A1 JP WO2020021861A1 JP 2020532192 A JP2020532192 A JP 2020532192A JP 2020532192 A JP2020532192 A JP 2020532192A JP WO2020021861 A1 JPWO2020021861 A1 JP WO2020021861A1
Authority
JP
Japan
Prior art keywords
user
information processing
situation
processing device
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020532192A
Other languages
English (en)
Inventor
政晴 永田
政晴 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2020021861A1 publication Critical patent/JPWO2020021861A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation

Abstract

カメラで撮像された画像に基づいて、ユーザとオブジェクトの位置関係を検出する検出部と、検出部で検出されたユーザとオブジェクトの位置関係に基づいて、ユーザの状況を判断する判断部と、判断部で判断されたユーザの状況に対応した音声応答を実行する応答制御部と、を有する図1

Description

本開示は、情報処理装置、情報処理システム、情報処理方法及び情報処理プログラムに関する。
現在、生活やビジネスにおいて各種情報処理装置が利用される機会が増加している。例えば、宅内においても複数台の各種情報処理装置が設置されるケースがある。このような情報処理装置としては、ユーザの発声を音声認識し、音声による応答を行うスマートスピーカ等が知られている。特許文献1には、音声認識を利用する機器において、同時に画像認識機能を付加した誤認識の少ない音声認識装置が開示されている。
特開2005−107384号公報
このような分野では、各種情報処理装置とユーザとの間で適切にコミュニケーションを図ることが望まれている。
本開示は、情報処理装置とユーザとの間で円滑なコミュニケーションを実現する情報処理装置、情報処理システム、情報処理方法及び情報処理プログラムを提供することを目的の一つとする。
本開示は、例えば、
カメラで撮像された画像に基づいて、ユーザとオブジェクトの位置関係を検出する検出部と、
前記検出部で検出されたユーザとオブジェクトの位置関係に基づいて、ユーザの状況を判断する判断部と、
前記判断部で判断されたユーザの状況に対応した音声応答を実行する応答制御部と、を有する
情報処理装置である。
本開示は、例えば、
カメラで撮像された画像に基づいて、ユーザとオブジェクトの位置関係を検出する検出部と、
前記検出部で検出されたユーザとオブジェクトの位置関係に基づいて、ユーザの状況を判断する判断部と、
前記判断部で判断されたユーザの状況に対応した音声応答を実行する応答制御部と、を有する
情報処理システムである。
本開示は、例えば、
カメラで撮像された画像に基づいて、ユーザとオブジェクトの位置関係を検出し、
検出されたユーザとオブジェクトの位置関係に基づいて、ユーザの状況を判断し、
判断されたユーザの状況に対応した音声応答を実行する
情報処理方法である。
本開示は、例えば、
カメラで撮像された画像に基づいて、ユーザとオブジェクトの位置関係を検出する検出処理と、
前記検出処理で検出されたユーザとオブジェクトの位置関係に基づいて、ユーザの状況を判断する判断処理と、
前記判断処理で判断されたユーザの状況に対応した音声応答を実行する応答制御処理と、を情報処理装置に実行させる
情報処理プログラムである。
本開示の少なくとも一つの実施形態によれば、ユーザの状況を検出し、検出された状況に応じた音声応答を行うこととしている。したがって、ユーザに対して適切な音声応答を行うことが可能となる。ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれの効果であっても良い。また、例示された効果により本開示の内容が限定して解釈されるものではない。
図1は、第1の実施形態に係る情報処理システムの利用状況を説明するための図である。 図2は、第1の実施形態に係る情報処理装置の構成を示すブロック図である。 図3は、第1の実施形態に係る情報処理装置の制御構成を示すブロック図である。 図4は、第1の実施形態に係る情報処理装置の応答処理を示すフロー図である。 図5は、第2の実施形態に係る情報処理装置の構成を示すブロック図である。 図6は、第2の実施形態に係る情報処理装置について、制御対象の判断処理を示すフロー図である。 図7は、第3の実施形態に係る情報処理装置の構成を示すブロック図である。 図8は、第3の実施形態について、3Dカメラによる距離計測を説明するための図である。 図9は、第4実施形態に係る情報処理装置の構成を示すブロック図である。 図10は、第4の実施形態に係る情報処理装置について、制御対象の判断処理を示すフロー図である。 図11は、第5の実施形態に係る情報処理システムの利用状況を説明するための図である。 図12は、第5の実施形態に係る情報処理装置の構成を示すブロック図である。 図13は、第5の実施形態に係る情報処理装置について、制御対象の判断処理を示すフロー図である。 図14は、第6の実施形態に係る情報処理システムの利用状況を説明するための図である。 図15は、複数の情報処理装置間で実行される第1選択処理を示すフロー図である。 図16は、複数の情報処理装置間で実行される第2選択処理を示すフロー図である。 図17は、第7の実施形態に係る情報処理システムの利用状況を説明するための図である。 図18は、第8の実施形態に係る情報処理装置について、制御対象の判断処理を示すフロー図である。
以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
<1.第1の実施形態>
<2.第2の実施形態>
<3.第3の実施形態>
<4.第4の実施形態>
<5.第5の実施形態>
<6.第6の実施形態>
<7.第7の実施形態>
<8.第8の実施形態>
以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態に限定されるものではない。
<1.第1の実施形態>
図1は、実施形態に係る情報処理システムの利用状況を説明するための図である。現在、ユーザの声かけ、あるいは、操作等に応じて、音声で応答することのできるスマートスピーカ、AI(Artificial Intelligence)スピーカ等の名称で呼ばれる情報処理装置1がある。本実施形態では、スマートスピーカ等の情報処理装置1が宅内(部屋A内)に設置されるケースを想定している。なお、情報処理装置1としては、このようなスマートスピーカのみならず、テレビ、ロボット、パーソナルコンピュータ等、各種装置を対象とすることができる。また、情報処理装置1の配置の形態についても、テーブル面、床面等に載置する形態の他、壁面に埋め込まれた形態等、各種形態を採用することが可能である。
図1において、宅内には、インターネット等の通信網Cに接続可能な通信設備が設けられている。通信設備としては、通信網Cに接続されるルータ3、ルータ3に接続されるアクセスポイント4が設けられている。情報処理装置1としてのスマートスピーカは、アクセスポイント4と無線通信を行うことで、通信網Cに接続されている情報処理サーバ5等と通信を行うことが可能となっている。
図2は、実施形態に係る情報処理装置1の構成を示すブロック図である。本実施形態の情報処理装置1は、ユーザの応答、あるいは、操作に応じて音声で応答することのできる、いわゆるスマートスピーカとしての形態を採用している。本実施形態の情報処理装置1は、制御部11、操作部12、カメラ13、通信部14、タッチパネル表示部15、スピーカ16、マイクロホン17を有して構成されている。
制御部11は、各種プログラムを実行可能なCPU、各種プログラム、データを記憶するROM、RAM等を有して構成され、情報処理装置1を統括して制御する部位である。操作部12は、電源ボタン、音量ボタン等、ユーザからの操作を受け付ける部位である。カメラ13は、情報処理装置1の周囲を撮像可能に配置されている。なお、カメラ13は1つ設けることとしても、複数設けることとしてもよい。1ないし複数のカメラ13は、情報処理装置1が宅内のどこに配置されても宅内の状況を撮像できるように、情報処理装置1の周囲360度を撮像範囲に持つことが好ましい。
通信部14は、外部の各種装置と通信を行う部位であって、本実施形態では、アクセスポイント4と通信を行うため、Wi-Fi規格を使用した形態としている。通信部14には、この他、Bluetooth(登録商標)、赤外線通信等による近距離通信手段の他、アクセスポイント4ではなく、携帯通信網を介して通信網Cに接続可能な携帯通信手段を使用してもよい。
タッチパネル表示部15は、液晶、有機EL(Electro Luminescence)、壁面やスクリーン等に映像を投影するプロジェクター等を使用した表示部と、感圧方式、静電容量方式等によるタッチパネルを重畳させたユーザインタフェイスであって、表示部に各種表示を行うことが可能である。また、表示部に表示される各種オブジェクトに対して、タッチ入力することで、ユーザからの各種入力を受け付けることが可能となっている。なお、情報処理装置1は、タッチパネル表示部15を設けない構成、あるいは、表示部のみを設けた構成とすることも可能である。スピーカ16は、ユーザに対して音による通知を行うことが可能である。マイクロホン17は、情報処理装置1の周囲音を取り込むことが可能である。
図1、図2で説明したスマートスピーカ等の情報処理装置1は、ユーザの声かけ、ユーザの操作、あるいは、何らかの条件を満たしたことを条件として、音声による応答制御を行う応答処理を実行する。このような応答処理によって、ユーザは、音声により必要な情報を得ることが可能となる。このような情報処理装置1における応答処理は、ユーザの行動あるいは様子を含むユーザの状況、例えば、就寝中である状況、くつろいでいる状況、テレビを見ている状況、家族と会話している状況等を考慮して行われるものではなく、ユーザの状況にふさわしくない応答制御が行われることがあった。
例えば、ユーザが就寝中という状況において寝言をしゃべった場合、情報処理装置1がユーザのしゃべった寝言を、声かけ、すなわち、情報処理装置1に対する命令であると判断し、寝言に応答してしまうことが考えられる。このような場合、情報処理装置1の音声による応答制御で、ユーザの睡眠を阻害する可能性がある。また、ユーザがソファでくつろいでいる状況において、情報処理装置1で、他の状況の応答処理と同様に、一律に音声による応答制御を行った場合、くつろいでいる状況を阻害してしまうことが考えられる。本実施形態では、ユーザに対し音声で応答する情報処理装置1において、ユーザの状況を判断し、当該状況に応じた応答制御を行うことで、ユーザの状況にあった応答制御を行うことを1つの目的とするものである。
図3は、第1の実施形態に係る情報処理装置1の制御構成を示すブロック図である。図3は、図2における制御部11内の制御構成を説明するための図である。制御部11は、音声認識部111、検出部112、応答判断部113、音声応答部114を有して構成されている。なお、制御部11中のこれら各部は、通常、ソフトウェアで構成されることになるが、その一部、あるいは全てをハードウェアで構成することとしてもよい。
マイクロホン17で集音された音声は、音声認識部111で音声認識する。音声認識技術は公知の任意好適な手法を選択すればよい。例えば、入力音声を音の最小構成単位である音素に分解し、その音素と、予め収録した音素とを比較して音素を特定し、音素を組み合わせることで、収音された音声を認識できる。また、音声認識部111における音声認識は、情報処理装置1内で行うことのみならず、情報処理装置1と通信接続された情報処理サーバ5と連携して行われるものであってもよい。
カメラ13で撮像された画像は、検出部112に送信される。なお、カメラ13で撮像される画像は、静止画、動画のどちらであってもよい。検出部112では、撮像された画像に基づき、ユーザ(人物)の検出の他、家具、家電製品、部屋の構造といったオブジェクトの検出を行う。ユーザ及びオブジェクトといった物体の検出技術は、公知の任意好適な手法で実現することが可能である。近年、Deep Learningによる一般物体検出アルゴリズムの研究が進んでおり、例えば、2016年にCVPR(Computer Vision and Pattern Recognition)で論文発表されたYOLO(You Only Look One)等、物体を高精度に検出する手法が開発されている。検出部112には、このような各種手法を採用することが可能である。
ユーザ(人物)、オブジェクトを検出するための学習手法には、例えば、ニューラルネットワークやディープラーニングが用いられる。ニューラルネットワークとは、人間の脳神経回路を模倣したモデルであって、入力層、中間層(隠れ層)、出力層の3種類の層から成る。また、ディープラーニングとは、多層構造のニューラルネットワークを用いたモデルであって、各層で特徴的な学習を繰り返し、大量データの中に潜んでいる複雑なパターンを学習することができる。ディープラーニングは、例えば画像内のオブジェクトや音声内の単語を識別する用途として用いられる。
また、このような機械学習を実現するハードウェア構造としては、ニューラルネットワークの概念を組み込まれたニューロチップ/ニューロモーフィック・チップが用いられ得る。
また、機械学習の問題設定には、教師あり学習、教師なし学習、半教師学習、強化学習、逆強化学習、能動学習、転移学習等がある。例えば教師あり学習は、与えられたラベル付きの学習データ(教師データ)に基づいて特徴量を学習する。これにより、未知のデータのラベルを導くことが可能となる。
また、教師なし学習は、ラベルが付いていない学習データを大量に分析して特徴量を抽出し、抽出した特徴量に基づいてクラスタリングを行う。これにより、膨大な未知のデータに基づいて傾向の分析や未来予測を行うことが可能となる。
また、半教師学習は、教師あり学習と教師なし学習を混在させたものであって、教師あり学習で特徴量を学ばせた後、教師なし学習で膨大な訓練データを与え、自動的に特徴量を算出させながら繰り返し学習を行う方法である。
また、強化学習は、ある環境内におけるエージェントが現在の状態を観測して取るべき行動を決定する問題を扱うものである。エージェントは、行動を選択することで環境から報酬を習得し、一連の行動を通じて報酬が最も多く得られるような方策を学習する。このように、ある環境における最適解を学習することで、人間の判断力を再現し、また、人間を超える判断力をコンピュータに習得させることが可能となる。
以上、説明したような機械学習によって、情報処理装置1は、カメラ13で撮像された画像に基づき、ユーザ(人物)の検出、そして、各種オブジェクトの検出を行うことが可能である。更には、機械学習を使用して、後述するように、ユーザとオブジェクトの位置関係に基づいて、ユーザの状況(ユーザの行動、様子を含む)を判断することも可能である。
応答判断部113は、検出部112で検出されたユーザとオブジェクトの位置関係に基づいて、ユーザがどのような状況にあるかを判断し、状況に応じた応答制御を音声応答部114に実行させる。なお、状況に応じた応答制御とは、例えば、応答の内容、応答する音声の音量、音声の速度、音声の音質、音声の種別(例えば、男声、女声等、音声を発する者の種別)を変化させることが考えられる。なお、状況に応じた応答制御には、音声応答の可否、すなわち、音声応答を行う、もしくは、音声応答を行わないことも含まれる。
音声応答部114は、応答判断部113の判断により、ユーザの状況に対応した音声生成データを生成する。音声生成データは、例えば、TTS(Text To Speech)技術を使用し、テキストを音声合成し、波形データに変換することで生成される。なお、音声生成データは、マイクロホン17から入力される音声に対応して生成される場合、あるいは、情報処理装置1の自発的判断により生成される場合がある。音声応答部114で生成された音声生成データは、スピーカ16から外部に放音される。
図4は、第1実施形態に係る情報処理装置1で実行される応答処理を示すフロー図である。応答処理は、情報処理装置1が起動している期間、実行される処理であって、ユーザの発話に応答して、音声による応答制御を行う、あるいは、条件を満たしたことで、ユーザの発話が無くても自発的に音声による応答制御を行う処理である。
応答処理が開始されると、情報処理装置1は、ユーザの発話等の音信号を検知する(S101:Yes)、あるいは、自発的な応答が必要であるか(S104)を監視する。ここで、自発的な応答が必要であるとは、ユーザが発話をしていないときであっても、情報処理装置1による応答が必要な場合であって、例えば、ユーザの操作を検出した、所定時刻が到来した、周囲環境が所定条件を満たした等、ユーザの発話を検知する以外に、応答を行う条件を満たした場合をいう。
情報処理装置1において、ユーザの発話等、音信号が検知された場合(S101:Yes)、情報処理装置1は、検出した発話に基づいて、発話の制御対象を判断する(S120)。例えば、スマートスピーカでは、命令の前に、スマートスピーカに付与された名称を付けることで、発話の対象が規定される。発話の対象が自己を指定している、すなわち、情報処理装置1を指定している場合(S103:Yes)には、情報処理装置1は、音声による応答制御を行うための処理(S105〜S109)を実行する。一方、発話の対象が情報処理装置1でない場合(S103:No)は、応答処理を一旦抜けて、ユーザの発話の監視(S101)、自発的な応答が必要であるかの監視(S104)に戻る。
音声による応答制御を行うための処理(S105〜S109)において、情報処理装置1は、カメラ13で取得した映像を検出部112で解析し、家具、家電製品、部屋の構造といったオブジェクトの検出を行う(S105)。そして、カメラ13で取得した映像を検出部112で解析し、ユーザ(人物)の検出を行う(S106)。カメラ13で取得した映像中、ユーザが検出されない場合(S107:No)には、音声による応答制御を実行する必要が無いため、応答処理を抜ける。一方、カメラ13で取得した映像中、ユーザが検出された場合(S107:Yes)、S106で検出されたユーザと、S105で検出されたオブジェクトの位置関係に基づき、ユーザがどのような状況にあるのかが判断される。なお、本実施形態では、カメラ13で取得した映像を使用して、ユーザの検出(S107)を行うこととしているが、ユーザの検出は、カメラ13とは別に設けたセンサを使用することとしてもよい。その場合、センサを使用してユーザが検出されたこと(S107:Yes)を条件として、カメラ13で取得した映像を使用し、ユーザの状況が判断される(S108)処理に進む。なお、その際、カメラ13で取得した映像にユーザが映っていない場合には、映像にユーザが映り込むまで待つ等の処理が行われることが好ましい。
例えば、図1に示されるように、ユーザがベッドに横たわっている状況では、オブジェクトとして検出されたベッドと、ユーザの位置関係に基づき、ユーザはベッドに横たわっている、すなわち、ユーザは就寝していることが判断される。判断されるユーザの状況、それに対する応答制御としては、この他に以下の表1に示す各種形態が考えられる。表1は、位置関係、すなわち、ユーザとオブジェクトの位置関係、ユーザの状況、すなわち、位置関係を使用して判定されたユーザの行動や様子といったユーザの状況、及び、応答制御の内容、すなわち、ユーザの状況に基づいて実行される応答制御の内容が対応付けられている。
Figure 2020021861
なお、ユーザの状況をより正確に判断するには、ユーザとオブジェクトの位置関係として、ユーザの体の部位とオブジェクトの位置関係を使用することが好ましい。例えば、ユーザの頭部近傍に電話機が位置している場合には、通話中と判断することが考えられる。また、ユーザの背中がベッドに接触している場合にはユーザは就寝中であると判断することや、ユーザの背中がベッドに接触していない場合にはユーザはリラックスしている状況にあると判断することが考えられる。
このように、S105で検出されたオブジェクトと、S106で検出されたユーザの位置関係に基づいて、ユーザの状況を判断することが可能である。なお、本実施形態では、音信号を検知する(S101:Yes)、あるいは、自発的な応答が必要である(S104:Yes)と判断された場合に、オブジェクト検出(S105)、ユーザ検出(S106)を実行しているが、これらの処理は、情報処理装置1において常時行うこととしてもよい。また、情報処理装置1は、所定の場所で使用されることが多いため、オブジェクト検出(S105)は、カメラ13で取得した映像の全ての領域に対して行うのではなく、変化した部分(差分)に対してのみ行うこととしてもよい。
S108でユーザの状況が判断されると、応答判断部113は、ユーザの発話の内容、及び、判断されたユーザの状況に基づいて、応答制御を実行する(S109)。例えば、ユーザがソファでくつろいでいると判断された場合、女声、音量は低め、音声の速度は遅い音声生成データを生成する。このような音声生成データをスピーカ16から放音することで、ソファでくつろいでいるユーザの雰囲気を阻害すること無く、必要な情報を音声で伝達することが可能となる。また、図1のように、ユーザが就寝中という状況では、情報処理装置1は、ユーザの寝言を命令と解釈していることが考えられる。このような場合、音声生成データを生成しない、すなわち、応答しないことで、ユーザの睡眠を阻害することが避けられる。このように、本実施形態では、オブジェクトとユーザの位置関係に応じてユーザの状況を判断し、ユーザの状況に応じた音声による応答制御を行うことが可能となる。
なお、ユーザの状況に応じた応答制御を実行する際、表示部としてのタッチパネル表示部15に判定されたユーザの状況を表示することとしてもよい。例えば、ユーザが机に向かっている場合、ユーザは勉強中と判断して、応答を行わないことが考えられる。その場合、タッチパネル表示部15に、応答を行わない理由、すなわち、勉強中であることを表示することで、何故、応答が行われなかったかを視覚的に通知することとしてもよい。このような表示部を使用した視覚的な通知は、応答を行わない場合のみに限らず、応答を行う場合においても実行することとしてもよい。また、表示部としてのタッチパネル表示部15には、上述するような応答を行わない理由以外に、応答中であること、部屋の状況、ユーザの状況等、各種情報を表示することとしてもよい。
一方、情報処理装置1の自発的な応答が必要である場合(S104:Yes)も同様に、音声による応答制御を行うための処理(S105〜S109)が実行される。この場合、ユーザの意思で発せられた声かけでは無いため、ユーザの状況のみならず、応答内容も考慮して、音声による応答制御を行うこととしてもよい。例えば、図1に示されるように、ユーザが就寝中という状況が判断された場合、起床のための目覚まし音、あるいは、地震発生に伴うアラーム等、緊急性を伴う音声を発しなければならない場合には、通常の応答時よりも大きい音声で応答する等、就寝中のユーザを起こすことを目的とすることとしてもよい。
以上、第1の実施形態について、情報処理装置1の応答処理を説明したが、本実施形態によれば、オブジェクトとユーザの位置関係に応じてユーザの状況を判断し、ユーザの状況に応じた音声による応答制御を行うことが可能となる。
<2.第2の実施形態>
図5は、第2の実施形態に係る情報処理装置の構成を示すブロック図である。図5中、第1の実施形態(図3)で説明した同じ機能のものは、同じ符号を付けており、説明を割愛する。
第1の実施形態では、マイクロホン17を使用していたのに対し、第2の実施形態では、アレイマイクロホン18を使用している点において異なっている。アレイマイクロホン18は、複数のマイクロホンが適宜に配列して構成されている。したがって、ある点から発せられた音は、各マイクロホンに対し、異なる遅延時間を有して届くことになる。この遅延時間を使用して、発せられた音の方向を推定することが可能となる。方向推定部115は、アレイマイクロホン18の複数のマイクロホンからの音を信号処理し、音が発生している方向を推定する。アレイマイクロホン18を使った、方向推定や音源分離技術については公知の技術であるため、ここでの詳細な説明は割愛する。
応答判断部113は、検出部112と方向推定部115で得られた結果から、音声認識部111の認識結果に対して、応答するか否かの判断、あるいは、応答制御の内容を決定する。第2の実施形態では、アレイマイクロホン18で音源の方向を推定することにより、ユーザにより発せられた音であるのか、ラジオ、テレビ等から発せられた音であるのかを判別することが可能となり、情報処理装置1に対してはノイズとなる音を有効に排除することが可能となっている。
図6は、第2の実施形態に係る情報処理装置1について、制御対象の判断処理を示すフロー図である。この処理は、図4の応答処理中の、制御対象の判断処理(S120)部分に相当している。制御対象の判断処理(S120)では、まず、方向推定部115において、アレイマイクロホン18に入力された音の方向(音源方向)の推定を行う(S121)。そして、検出部112において、カメラ13で撮像された画像から、ユーザあるいはオブジェクトの検出を行う(S122)。そして、推定された音源方向にオブジェクトが存在する場合(S123:Yes)、当該オブジェクトは音を出すオブジェクトであるか否かが判断される(S124)。応答判断部113には、オブジェクトの種類として、音を出すオブジェクトが登録されており、検出したオブジェクトが音を出すオブジェクトか否かを判断することが可能となっている。
音を出すオブジェクト、すなわち、ノイズ源となるオブジェクトとしては、例えば、テレビ、ラジオ、電話機、スピーカ、ゲーム機、インターホン、音声を出力する家電製品、玩具、乳幼児のように実際に音声(人の声)を発するものの他、楽器、玩具、PCのキーボード、蛇口からの水流音、各種家電(食洗機、換気扇、エアコン、扇風機)の動作音のように、動作音を発生するもの等、あるいは、窓から入る屋外の騒音等が考えられる。
なお、予めカメラ13とアレイマイクロホン18の位置関係が分かっていれば、カメラ13で撮像された画像上のどの領域のオブジェクトを検出すれば良いかがわかる。或いは、カメラ13に、左右に振る機構を持てば、音源方向と同じ向きにカメラ13を回転させることができる。
音源が音を出すオブジェクトである場合(S124:Yes)、制御対象の判断処理を終了し、図4の応答処理の先頭に戻る。したがって、情報処理装置1における応答制御は無効化されることになる。一方、音源が音を出すオブジェクトで無い場合(S124:No)、ユーザにより発せられた音声である可能性があるため、図4の応答処理のS103へと進み、音声による応答制御が実行されることになる。音源方向にオブジェクトが存在しない場合(S123:No)も同様に、ユーザにより発せられた音声である可能性があるため、図4の応答処理のS103へと進む。
以上、第2の実施形態によれば、アレイマイクロホン18を使用して音源方向を推定し、音源が音を出すオブジェクトの場合、音声による応答制御を無効化することが可能となる。例えば、テレビ、ラジオ等からニュースが流れている場合、テレビ、ラジオ等の音声に対して応答してしまうことを抑止することが可能となる。また、テレビ、ラジオ等の音声のみならず、換気扇、ゲーム機、電話の着信音等に対しても、音声として誤認識し、それに対して応答してしまうことを防ぐことが可能となる。
<3.第3の実施形態>
図7は、第3の実施形態に係る情報処理装置の構成を示すブロック図である。図7中、第1の実施形態(図3)、第2の実施形態(図5)で説明した同じ機能のものは、同じ符号を付けており、説明を割愛する。
第1、第2の実施形態では、カメラ13を使用していたのに対し、第3の実施形態では、3Dカメラ19を使用している点において異なっている。3Dカメラ19は、2つのカメラを使用するステレオカメラ、あるいは、ToF(Time of Flight)センサを搭載したカメラで等あって、撮影した物体までの距離を判別することが可能である。なお、3Dカメラ19としては、距離を計測できる以外に、通常の画像を撮像できるものであってもよく、距離センサと通常画像撮影用のセンサが分かれた形態であっても構わない。距離センサとしては、レーダセンサ、レーザセンサ、超音波センサ等、各種形態を使用することが可能である。
図8は、第3の実施形態について、3Dカメラ19による距離計測を説明するための図である。図8に示す状況、すなわち、3Dカメラ19の撮像方向にユーザとパソコンが並んでいた場合、2次元像を撮像するカメラでは、ユーザとパソコンの位置関係を正確に把握することが困難となる。したがって、実線で示すようにユーザがパソコンに近接した状態で使用しているのか、あるいは、破線で示すようにユーザはパソコンから離れた状態であって、パソコンを使用していないという、ユーザの状況を正確に判断できない。
第3の実施形態では、3Dカメラ19を使用することで、ユーザ、オブジェクト(パソコン)までの距離を計測し、ユーザとオブジェクトの位置関係をより正確に判定することとしている。このように、ユーザとオブジェクトの位置関係をより正確に判定することで、ユーザの状況をより正しく推定することが可能となる。
図8の例において、検出部112は、3Dカメラ19の出力に基づいて、オブジェクトとしてのパソコンを検出するとともに、パソコンまでの距離Lを計測する。なお、検出部112における距離計測は、例えば、オブジェクト(あるいはユーザ)の重心或いは中心など、何らかの特徴点を基準として3次元距離を計算する。実線で示されるユーザの場合、検出部112は、3Dカメラ19の出力に基づきユーザまでの距離L1を計測する。パソコンまでの距離Lとユーザ(実線)までの距離L1の差が所定の閾値内である場合、応答判断部113では、パソコンとユーザは近接関係にあると判断し、ユーザはパソコンを使用している状況と判定する。
一方、破線で示されるユーザの場合、検出部112は、3Dカメラ19の出力に基づきユーザまでの距離L2を計測する。パソコンまでの距離Lとユーザ(破線)までの距離L2の差が所定の閾値を超えている場合、応答判断部113では、パソコンとユーザは離れていると判断し、ユーザはパソコンを使用していない状況と判定する。なお、本実施形態では、3Dカメラ19からオブジェクト(パソコン)、ユーザまでの距離を計測しているが、オブジェクト(パソコン)とユーザ間の距離を計測することとしてもよい。その場合、物体の検出結果が0個、あるいは、1個だった場合は、距離として無限遠とすればよい。
このように、第3の実施形態では、3Dカメラ19を使用することで、ユーザとオブジェクトの位置関係をより正確に判定し、ユーザの状況をより正しく推定することが可能となっている。したがって、ユーザの状況を正確に把握し、適切に応答を行うことが可能となる。図8では、パソコンとユーザの位置関係について説明したが、この例に限られるものではない。例えば、電話機とユーザ間の距離が十分近い場合は、ユーザは電話中と判断し、音声による応答を抑止することが考えられる。また。学習机とユーザ間の距離が十分近い場合は、ユーザは学習中と判断し、学習に関する項目にのみ応答する、あるいは、応答の音量を小さくする等、学習の妨げにならないように応答することが考えられる。
<4.第4の実施形態>
図9は、第4の実施形態に係る情報処理装置の構成を示すブロック図である。図9中、第1〜第3の実施形態(図3、図5、図7)で説明した同じ機能のものは、同じ符号を付けており、説明を割愛する。
第4の実施形態では、アレイマイクロホン18(マイクロホン17を使用してもよい)で受けた音の音圧を判断する音圧判断部116が設けられている点において、第1〜第3の実施形態と相違している。第4の実施形態では、3Dカメラ19で撮影したユーザまでの距離と、ユーザが発声した声の音圧に基づき、ユーザが、情報処理装置1に対して命令を行ったのか否かを判断することとしている。音圧判断部116には、アレイマイクロホン18に入力された音、及び、検出部112で得られたユーザまでの距離が入力され、入力された音を音声認識部111に渡すか否かを判断する。
図10は、第4の実施形態に係る情報処理装置1について、制御対象の判断処理を示すフロー図である。この処理は、図4の応答処理中の、制御対象の判断処理(S120)部分に相当している。制御対象の判断処理(S120)では、まず、3Dカメラ19からの出力に基づいて、撮像された画像からユーザの検出を行う。ユーザが検出された場合(S125:Yes)、3Dカメラ19からの出力に基づき、ユーザまでの距離を計測する(S126)。そして、計測した距離に対応する閾値を取得する(S127)。この閾値は、予め制御部11に距離に対応付けて記憶されており、ユーザまでの距離を入力として取り出すことが可能である。
次に、音圧判断部116は、検出したユーザ方向の音圧を取得する(S128)。ここでは、方向推定部115で得られた方向推定結果を用いているが、アレイマイクロホン18の指向性を自由に設定できる特徴を活かし、検出したユーザの方向に対して、アレイマイクロホン18の指向性を向けて、その際の音圧を取得することとしてもよい。そして、音圧判断部116では、取得した音圧が閾値以上か否かを判断する(S129)。音圧が閾値以上の場合(S129:Yes)、図4の応答処理のS103へと進み、音声による応答制御が実行される。図9のブロック図では、入力された音を音声認識部111に渡すことになる。一方、音圧が閾値より小さい場合(S129:No)、制御対象の判断処理を終了し、図4の応答処理の先頭に戻る。図9のブロック図では、入力された音は音声認識部111に渡されず破棄され、以降の応答制御は中止される。
情報処理装置1とユーザが十分遠い状況で、ユーザが情報処理装置1を対象として発話(命令)する場合、大きな声で発話する特徴がある。第4の実施形態では、この特徴を活かし、ユーザまでの距離と収音したユーザの発話の音圧の関係に基づき、ユーザが情報処理装置1に対して発話しているのか、あるいは、発話していないのか(例えば、独り言や、他のユーザとの会話等)を、効果的に判別し、情報処理装置1に対して発話していない場合の応答を抑制することが可能となる。
なお、第4の実施形態中、ユーザが情報処理装置1に対して発話しているのか否かを判断する部分、すなわち、情報処理装置1からユーザまでの距離を計測し、アレイマイクロホン18(あるいは、通常のマイクロホンでもよい)で収音した音信号の音圧が、所定条件を満たす場合、すなわち、ユーザまでの距離に応じた閾値以上である場合、ユーザは情報処理装置1に対して発話していると判断する部分のみを情報処理装置1に使用することとしてもよい。
<5.第5の実施形態>
図11は、第5の実施形態に係る情報処理システムの利用状況を説明するための図である。また、図12は、第5の実施形態に係る情報処理装置1の構成を示すブロック図である。図11、図12中、第1〜4の実施形態(図1、図3、図5、図7、図9等)で説明した同じ機能のものは、同じ符号を付けており、説明を割愛する。
第5の実施形態では、第2の実施形態で使用したアレイマイクロホン18を、複数設けている点において異なっている。図11において、ユーザがテレビを視聴している場合、音源としては、テレビの音声、ユーザの音声が考えられる。このような状況において、1つのアレイマイクロホン18aを使用した場合、アレイマイクロホン18aに対しては、ユーザ、テレビが同じ方向(方向D)に位置しているため、テレビの音声であるのか、ユーザの音声であるのかを判別することが困難となる。また、両者が同時に発音した場合、両者の音声が混ざってしまって、ユーザの音声を正しく取得できないことが考えられる。
第5の実施形態では、複数のアレイマイクロホン18a、18bを設け、両者を異なる位置に配置することで、必要な方向の音声のみを抽出することとしている。なお、アレイマイクロホン18a、18bは、情報処理装置1の外部であって適宜位置に配置することが可能である。このような構成において、設定部117は、アレイマイクロホン18a及びアレイマイクロホン18bの選択、及び、その指向性の調整を行うことで、必要な方向の音声成分のみを抽出することが可能である。
図13は、第5の実施形態に係る情報処理装置1について、制御対象の判断処理を示すフロー図である。この判断処理(S120)では、まず、物体検出、すなわち、ユーザ、及び、オブジェクトの検出を実行する(S131)。例えば、図11の環境では、情報処理装置1に設けられている3Dカメラ19で、テレビ、および、ユーザが検出される。そして、検出された物体中、ユーザが検出された場合(S132:Yes)には、ユーザの音声を検出するために適した1つのアレイマイクロホン18bが選定される(S133)。前述したように、図11の環境では、アレイマイクロホン18aは、ユーザ、テレビが同じ方向に位置しているため、ユーザの音声を取得するには不適切である。そのため、ユーザの方向(方向E)、テレビの方向(方向F)が異なるアレイマイクロホン18bが選定される。なお、ユーザが検出されない場合(S132:No)には、音声の取得対象となるユーザはいないため、応答処理の先頭に戻る。
さらに、アレイマイクロホン18bの指向性をユーザの方向(方向E)に調整することで、ユーザの音声を的確に取得することとしている(S134)。このように、複数のアレイマイクロホン18a、18bを設け、3Dカメラ19で取得したユーザの状況に基づき、適切なアレイマイクロホン18bの選択、並びに、その指向性を調整することで、ユーザの音声以外の雑音の影響を抑制しつつ、ユーザの音声を的確に取得することが可能となる。
このように、第5の実施形態によれば、家の中の様々な雑音源から、ユーザの音声をより的確に抽出することができ、ユーザに対して適切な応答が可能となる。また、アレイマイクロホン18a、18bの数を多くすることで、より広い範囲、様々な位置にある雑音源への対応が可能となる。なお、第5の実施形態では、複数のアレイマイクロホン18a、18bの選定、及び、選定されたアレイマイクロホン18a、18bの指向性調整を行うこととしているが、3Dカメラ19で取得したユーザの状況に基づき、複数のアレイマイクロホン18a、18bの選定のみを行うこととしてもよい。あるいは、1つのアレイマイクロホン18a、18bを設置し、3Dカメラ19で取得したユーザの状況に基づき、その指向性を調整することとしてもよい。また、3Dカメラ19を使用することに代え、通常のカメラ13を使用することも可能である。
<6.第6の実施形態>
図14は、第6の実施形態に係る情報処理システムの利用状況を説明するための図である。図14中、第1、第5の実施形態(図1、図11)で説明した同じ機能のものは、同じ符号を付けており、説明を割愛する。
第6の実施形態では、宅内に複数の情報処理装置1a〜1cを設置している。なお、図14に記載する情報処理装置1a〜1cは、図面上、全てスマートスピーカの形態を取っているが、情報処理装置1a〜1cの何れかを、テレビ、ロボット、コンピュータ等、適宜他の形態とすることも可能である。情報処理装置1a〜1cは、図2で説明した情報処理装置1と同じ構成であって、アクセスポイント4と無線通信可能に接続されている。そして、情報処理装置1a〜1cは、同じLANネットワークに接続されており、互いに通信を行うことが可能となっている。なお、情報処理装置1a〜1cは、有線でLANネットワークに接続されてもよい。第6の実施形態では、複数の情報処理装置1a〜1c間で通信を行いユーザの状況に応じてネゴシエートすることで、ユーザに適切な音声応答を行うことを可能としている。
図14中、例えば、情報処理装置1aはテレビの正面に設置されているため、ユーザがテレビを見ている状況が判断された場合、すなわち、テレビとユーザが情報処理装置1aに対して同方向となっている場合には、情報処理装置1aでの音声認識を抑制する、あるいは、その結果を使用しないこととする。一方、情報処理装置1b、1cは、テレビから出力される音声の影響を受けにくい位置に配置されているため、第1〜第5の実施形態で説明した手法を使用して、ユーザに適切な応答を行う。その際、情報処理装置1bと情報処理装置1cの応答内容が一致している場合、情報処理装置1b、1c間でどちらが応答を行うのかを決定する。また、音声認識の結果に基づく応答については、例えば、ユーザとの距離が最も近い情報処理装置1a〜1cの何れかが応答を返す等の対応が可能である。
また、情報処理装置1b、1c間で応答内容が一致しなかった場合は、以下の優先順で応答を行う情報処理装置1b、1cを決定することが好ましい。まず、音声認識結果について、その認識確信度が高い情報処理装置1b、1cを優先する。音声認識結果の認識確信度が等しい場合、情報処理装置1b、1cのマイクロホンの角度が、ユーザの正面に近い情報処理装置1b、1cを優先する。更に、マイクロホン1b、1cの角度が等しい場合には、ユーザに対して距離が近い情報処理装置1b、1cを優先することが考えられる。このような形態により、より音声認識結果が適切と想定される情報処理装置1b、1cを使用することが可能となる。
複数の情報処理装置1a〜1cを使用する場合において、物体(ユーザ、オブジェクト)検出、ユーザの状況を検出する何れか1つの情報処理装置1a〜1cを選択する処理(第1選択処理)、音声の認識結果が採用される何れか1つの情報処理装置1a〜1cを選択する処理(第2選択処理)について説明しておく。
図15は、複数の情報処理装置1a〜1c間で実行される第1選択処理を示すフロー図である。第1選択処理は、物体(ユーザ、オブジェクト)検出の結果が採用される何れか1つの情報処理装置1a〜1cを選択するための処理である。各情報処理装置1a〜1cでは、物体の検出が実行される(S201)。その際、物体の検出結果について、その検出確信度が合わせて算出される。検出確信度とは、物体の検出結果に対する確からしさを示す数値であって、例えば、数値が高いほど、結果が正確であることを示す。
各情報処理装置1a〜1cの検出結果が一致している場合(S202:Yes)、何れの情報処理装置1a〜1cの検出結果も同じであるため、一致した検出結果が採用される(S204)。一方、検出結果が異なる場合(S202:No)、検出確信度の高い検出結果が採用されることになる(S203)。図14で説明したように、テレビとユーザと情報処理装置1aが直線状に並んだ場合、正しく物体を検出できない、あるいは、ユーザの状況を正しく判定することができないことが考えられる。このような場合、情報処理装置1aの検出結果の検出確信度は低く算出されることが考えられる。したがって、検出確信度が高く算出された情報処理装置1b、あるいは、情報処理装置1cの検出結果を採用することで、ユーザの状況を正しく判定することが可能となる。
図16は、複数の情報処理装置1a〜1c間で実行される第2選択処理を示すフロー図である。第2選択処理は、音声の認識結果が採用される何れか1つの情報処理装置1a〜1cを選択するための処理である。各情報処理装置1a〜1cは、入力された音声に基づき音声認識処理を実行する(S211)。その際、音声認識結果に対する認識確信度が合わせて算出される。認識確信度とは、音声認識結果に対する確からしさを示す数値であって、例えば、数値が高いほど、結果が正確であることを示す。音声認識結果が一致している場合(S212:Yes)、何れの情報処理装置1a〜1cの音声認識結果も同じであるため、一致した音声認識結果が採用され、ユーザに近い情報処理装置が応答を実行する(S216)。
一方、音声認識結果が情報処理装置1a〜1c間で異なる場合(S212:No)、音声認識結果について算出された認識確信度が参照される(S213)。認識確信度が一致している場合(S213:Yes)、すなわち、どの音声認識結果も同じ程度の確からしさである場合には、マイクロホンの方向上、ユーザの顔と近い位置関係にある情報処理装置1a〜1cの認識結果が採用される(S214)。そして、認識確信度が異なる場合(S213:No)、認識確信度の最も高い情報処理装置1a〜1cの認識結果が採用される(S215)。そして、認識結果に基づき、ユーザに近い位置関係にある情報処理装置1a〜1cが音声を使用して応答することになる(S216)。
このように、第6の実施形態では、複数の情報処理装置1a〜1cが連携することにより、ユーザに対して、より正確な応答制御を行うことが可能となる。また、複数台の情報処理装置1a〜1cが存在するため、ユーザが複数存在する場合でも、それぞれに応答を返すことができる。
なお、第6の実施形態のように複数の情報処理装置1a〜1cが配置される際には、どの情報処理装置1a〜1cがユーザに対して応答しているかを分かり易くするために、情報処理装置1a〜1cのタッチパネル表示部15、あるいは、別途設けられたLED(Light Emitting Diode)等の表示部を使用して、応答中であることを表示してもよい。その際、複数のユーザに対し、それぞれ別々の情報処理装置1a〜1cが応答する場合は、LEDの色を異ならせること等で区別することが好ましい。また、色による表示ではなく、タッチパネル表示部15に、現在応答しているユーザの名前を表示する、あるいは、対話内容の文字列を表示する等してもよい。
<7.第7の実施形態>
図17は、第7の実施形態に係る情報処理システムの利用状況を説明するための図である。図17中、第1の実施形態(図1)で説明した同じ機能のものは、同じ符号を付けており、説明を割愛する。第7の実施形態では、図17に示されるように、3つの部屋(部屋A、B、C)にそれぞれに情報処理装置1a〜1cが設置されている。図14の場合と同様、情報処理装置1a〜1cは、アクセスポイント4に無線接続され、互いに通信を行うことが可能である。また、各情報処理装置1a〜1cは、第1〜第6の実施形態で説明したように、カメラ13あるいは3Dカメラ19で撮像された画像に基づき、ユーザの状況を判断し、当該状況に応じた音声応答を行うことが可能となっている。
このように、宅内に複数の情報処理装置1a〜1cが設置されている場合、部屋Aにいるユーザが大きな声で情報処理装置1aに問い掛けた場合、その問い掛けが隣接する部屋B、Cに配置されている情報処理装置1b、1cに届くことが考えられる。第7の実施形態では、各情報処理装置1a〜1cが、カメラ13あるいは3Dカメラ19で撮像された画像に基づきユーザの状況を判断できる特長を活かし、音声が入力された場合であっても、ユーザが確認できない状況では、応答を抑止することとしている。
また、情報処理装置1a〜1cに搭載されている検出部112に顔識別機能を追加するとともに、音声認識部111に発話者識別機能を追加することで、画像から発話したユーザが誰かを判断し、応答することで、部屋B、Cに別のユーザが居たとしても、情報処理装置1aのみが応答することが可能となる。このように、別の部屋にある複数の情報処理装置1a〜1cが連携することで、適切な情報処理装置1a〜1cを選択してユーザに応答を行うことが可能となる。また、複数の情報処理装置1a〜1cが設置される場合、各情報処理装置1a〜1cのタッチパネル表示部15には、他の情報処理装置1a〜1cで検出したユーザの状況を表示してもよい。例えば、図17において、部屋Bの情報処理装置1bが、部屋Bに居るユーザの状況を「勉強中」と判定した場合、他の部屋、例えば、部屋Aの情報処理装置1aのタッチパネル表示部15に部屋Bのユーザが「勉強中」であることを表示することが考えられる。このような構成により、ある部屋に居るユーザは、他の部屋に居るユーザの状況を、タッチパネル表示部15等の表示部によって視覚的に知ることができ、他の部屋に居るユーザの状況に応じた行動を取ることが可能となる。例えば、情報処理装置1aにおいて、部屋Bに居るユーザの状況が「勉強中」であることを表示した場合には、部屋Aに居るユーザは、勉強を妨げないように、部屋Bに居るユーザに声掛けを控える等の行動を取ることが可能となる。
<8.第8の実施形態>
図18は、第8の実施形態に係る情報処理装置について、制御対象の判断処理を示すフロー図である。情報処理装置1としては、第1〜第7の実施形態で説明した情報処理装置1を使用することが可能である。
図4の応答処理で音信号を検知した場合(S101:Yes)、入力された音信号に対して音声認識が実行される(S141)。そして、音声認識の認識結果に対し、制御部11等に予め登録されている無効ワードの検索が実行される(S142)。検索の結果、無効ワードが検出された場合(S143:Yes)には、以降の処理を中止し、応答処理の先頭に戻る。一方、無効ワードが検出されなかった場合(S143:No)には、S103に進み、音声による応答制御が実行されることになる。
このような判断処理により、例えば、「ねぇねぇ、お母さん」のように、普段、ユーザが母親に問いかける言葉中、「ねぇねぇ」という言葉を無効ワードとして予め登録しておくことで、情報処理装置1とユーザが対話している時に、ユーザが「ねぇねぇ」と発話した際に、情報処理装置1の応答を無効にし、ユーザと母親との会話に対し、情報処理装置1が誤って応答することを防ぐことが可能となる。また、母親が情報処理装置1と対話中に、ユーザが「ねぇねぇ、お母さん」と呼びかけた際においても、情報処理装置1は、母親との対話を中断、あるいは、一時停止することで、ユーザが割り込んで母親と会話することを可能とし、ユーザと母親の会話を円滑に行わせることとしてもよい。
第8の実施形態によれば、ユーザやユーザの家族、友人などが普段お互いに呼び合っている言葉を無効ワードとして登録しておくことで、情報処理装置1が誤ってユーザ間の対話に割り込むことを防ぐことができる。なお、無効ワードは、情報処理装置1に対してユーザ自身が登録することとしてもよいし、情報処理装置1に入力されるユーザの会話に対する学習結果から自動登録することとしてもよい。
本開示は、装置、方法、プログラム、システム等により実現することもできる。例えば、上述した実施形態で説明した機能を行うプログラムをダウンロード可能とし、実施形態で説明した機能を有しない装置が当該プログラムをダウンロードすることにより、当該装置において実施形態で説明した制御を行うことが可能となる。本開示は、このようなプログラムを配布するサーバにより実現することも可能である。また、各実施形態、変形例で説明した事項は、適宜組み合わせることが可能である。
本開示は、以下の構成も採ることができる。
(1)
カメラで撮像された画像に基づいて、ユーザとオブジェクトの位置関係を検出する検出部と、
前記検出部で検出されたユーザとオブジェクトの位置関係に基づいて、ユーザの状況を判断する判断部と、
前記判断部で判断されたユーザの状況に対応した音声応答を実行する応答制御部と、を有する
情報処理装置。
(2)
前記検出部は、ユーザの部位とオブジェクトの位置関係を検出し、
前記判断部は、ユーザの部位とオブジェクトの位置関係に基づいて、ユーザの状況を判断する
(1)に記載の情報処理装置。
(3)
前記応答制御部は、ユーザの状況に対応して、音声応答の可否、応答の内容、音声の音量、音声の速度、音声の音質、音声の種別の少なくとも1つを制御する
(1)または(2)に記載の情報処理装置。
(4)
前記応答制御部は、マイクロホンで収音される音信号に基づいて、音声応答を実行する
(1)から(3)の何れか1つに記載の情報処理装置。
(5)
前記マイクロホンは、収音される音信号の方向を検出可能なアレイマイクロホンである
(4)に記載の情報処理装置。
(6)
前記応答制御部は、前記アレイマイクロホンで収音された音信号の方向に、音を出すオブジェクトが位置する場合、音声応答を実行しない
(5)に記載の情報処理装置。
(7)
前記検出部で検出されたユーザの方向に、前記アレイマイクロホンの指向性が調整される
(5)または(6)に記載の情報処理装置。
(8)
前記アレイマイクロホンを複数備え、
前記判断部で判断されたユーザの状況に基づいて、収音する前記アレイマイクロホンが選択される
(5)から(7)の何れか1つに記載の情報処理装置。
(9)
ユーザとオブジェクト間の距離を計測可能な計測部を備え、
前記判断部は、ユーザとオブジェクト間の距離を含んだユーザとオブジェクトの位置関係に基づいて、ユーザの状況を判断する
(1)から(8)の何れか1つに記載の情報処理装置。
(10)
ユーザまでの距離を計測する計測部を備え、
前記応答制御部は、前記計測部で計測したユーザまでの距離と、マイクロホンで収音した音信号の音圧が所定条件を満たす場合、音声応答を実行する
(1)から(9)の何れか1つに記載の情報処理装置。
(11)
前記情報処理装置は、表示部をさらに含み、
前記表示部は、応答中であること、応答しない理由、部屋の状況の少なくともいずれかを表示する
(1)から(10)の何れか1つに記載の情報処理装置。
(12)
前記判定部は、無効ワードに基づいて、前記ユーザの状況を判定する
(1)から(11)の何れか1つに記載の情報処理装置。
(13)
前記ユーザの状況には、前記ユーザの様子、行動の少なくともいずれかを含む
(1)から(12)の何れか1つに記載の情報処理装置。
(14)
前記ユーザの状況には、就寝中である状況、くつろいでいる状況、テレビを見ている状況、家族と会話している状況の少なくともいずれかを含む
(13)に記載の情報処理装置。
(15)
カメラで撮像された画像に基づいて、ユーザとオブジェクトの位置関係を検出する検出部と、
前記検出部で判断されたユーザとオブジェクトの位置関係に基づいて、ユーザの状況を判断する判断部と、
前記判断部で判断されたユーザの状況に対応した音声応答を実行する応答制御部と、を有する
情報処理システム。
(16)
カメラで撮像された画像に基づいて、ユーザとオブジェクトの位置関係を検出し、
検出されたユーザとオブジェクトの位置関係に基づいて、ユーザの状況を判断し、
判断されたユーザの状況に対応した音声応答を実行する
情報処理方法。
(17)
カメラで撮像された画像に基づいて、ユーザとオブジェクトの位置関係を検出する検出処理と、
前記検出処理で検出されたユーザとオブジェクトの位置関係に基づいて、ユーザの状況を判断する判断処理と、
前記判断処理で判断されたユーザの状況に対応した音声応答を実行する応答制御処理と、を情報処理装置に実行させる
情報処理プログラム。
なお、上記する(10)の情報処理装置については、以下の部分についてのみ取り出して、以下の構成として使用することも可能である。
(18)
カメラで撮像された画像に基づいて、ユーザを検出する検出部と、
前記検出部で検出されたユーザまでの距離を計測する計測部と、
前記計測部で計測したユーザまでの距離と、前記マイクロホンで収音した音信号の音圧が所定条件を満たす場合、音声応答を実行する応答制御部と、を有する
情報処理装置。
また、(18)の構成は、情報処理システム、情報処理方法、情報処理プログラム、何れの形態においても実現することが可能である。
1(1a〜1c):情報処理装置
3:ルータ
4:アクセスポイント
5:情報処理サーバ
11:制御部
12:操作部
13:カメラ
14:通信部
15:タッチパネル表示部
16:スピーカ
17:マイクロホン
18(18a、18b):アレイマイクロホン
19:3Dカメラ
111:音声認識部
112:検出部
113:応答判断部
114:音声応答部
115:方向推定部
116:音圧判断部
117:設定部

Claims (17)

  1. カメラで撮像された画像に基づいて、ユーザとオブジェクトの位置関係を検出する検出部と、
    前記検出部で検出されたユーザとオブジェクトの位置関係に基づいて、ユーザの状況を判断する判断部と、
    前記判断部で判断されたユーザの状況に対応した音声応答を実行する応答制御部と、を有する
    情報処理装置。
  2. 前記検出部は、ユーザの部位とオブジェクトの位置関係を検出し、
    前記判断部は、ユーザの部位とオブジェクトの位置関係に基づいて、ユーザの状況を判断する
    請求項1に記載の情報処理装置。
  3. 前記応答制御部は、ユーザの状況に対応して、音声応答の可否、応答の内容、音声の音量、音声の速度、音声の音質、音声の種別の少なくとも1つを制御する
    請求項1に記載の情報処理装置。
  4. 前記応答制御部は、マイクロホンで収音される音信号に基づいて、音声応答を実行する
    請求項1に記載の情報処理装置。
  5. 前記マイクロホンは、収音される音信号の方向を検出可能なアレイマイクロホンである
    請求項4に記載の情報処理装置。
  6. 前記応答制御部は、前記アレイマイクロホンで収音された音信号の方向に、音を出すオブジェクトが位置する場合、音声応答を実行しない
    請求項5に記載の情報処理装置。
  7. 前記検出部で検出されたユーザの方向に、前記アレイマイクロホンの指向性が調整される
    請求項5に記載の情報処理装置。
  8. 前記アレイマイクロホンを複数備え、
    前記判断部で判断されたユーザの状況に基づいて、収音する前記アレイマイクロホンが選択される
    請求項5に記載の情報処理装置。
  9. ユーザとオブジェクト間の距離を計測可能な計測部を備え、
    前記判断部は、ユーザとオブジェクト間の距離を含んだユーザとオブジェクトの位置関係に基づいて、ユーザの状況を判断する
    請求項1に記載の情報処理装置。
  10. ユーザまでの距離を計測する計測部を備え、
    前記応答制御部は、前記計測部で計測したユーザまでの距離と、マイクロホンで収音した音信号の音圧が所定条件を満たす場合、音声応答を実行する
    請求項1に記載の情報処理装置。
  11. 前記情報処理装置は、表示部をさらに含み、
    前記表示部は、応答中であること、応答しない理由、部屋の状況の少なくともいずれかを表示する
    請求項1に記載の情報処理装置。
  12. 前記判定部は、無効ワードに基づいて、前記ユーザの状況を判定する
    請求項1に記載の情報処理装置。
  13. 前記ユーザの状況には、前記ユーザの様子、行動の少なくともいずれかを含む
    請求項1に記載の情報処理装置。
  14. 前記ユーザの状況には、就寝中である状況、くつろいでいる状況、テレビを見ている状況、家族と会話している状況の少なくともいずれかを含む
    請求項13に記載の情報処理装置。
  15. カメラで撮像された画像に基づいて、ユーザとオブジェクトの位置関係を検出する検出部と、
    前記検出部で検出されたユーザとオブジェクトの位置関係に基づいて、ユーザの状況を判断する判断部と、
    前記判断部で判断されたユーザの状況に対応した音声応答を実行する応答制御部と、を有する
    情報処理システム。
  16. カメラで撮像された画像に基づいて、ユーザとオブジェクトの位置関係を検出し、
    検出されたユーザとオブジェクトの位置関係に基づいて、ユーザの状況を判断し、
    判断されたユーザの状況に対応した音声応答を実行する
    情報処理方法。
  17. カメラで撮像された画像に基づいて、ユーザとオブジェクトの位置関係を検出する検出処理と、
    前記検出処理で検出されたユーザとオブジェクトの位置関係に基づいて、ユーザの状況を判断する判断処理と、
    前記判断処理で判断されたユーザの状況に対応した音声応答を実行する応答制御処理と、を情報処理装置に実行させる
    情報処理プログラム。
JP2020532192A 2018-07-26 2019-06-03 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム Pending JPWO2020021861A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018140187 2018-07-26
JP2018140187 2018-07-26
PCT/JP2019/021913 WO2020021861A1 (ja) 2018-07-26 2019-06-03 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JPWO2020021861A1 true JPWO2020021861A1 (ja) 2021-08-19

Family

ID=69181584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020532192A Pending JPWO2020021861A1 (ja) 2018-07-26 2019-06-03 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム

Country Status (4)

Country Link
US (1) US11657821B2 (ja)
JP (1) JPWO2020021861A1 (ja)
DE (1) DE112019003773T5 (ja)
WO (1) WO2020021861A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020148978A1 (ja) * 2019-01-15 2020-07-23 ソニー株式会社 情報処理装置及び情報処理方法
FR3103955A1 (fr) * 2019-11-29 2021-06-04 Orange Dispositif et procédé d’analyse environnementale, et dispositif et procédé d’assistance vocale les implémentant

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
JP2018045192A (ja) * 2016-09-16 2018-03-22 トヨタ自動車株式会社 音声対話装置および発話音量調整方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005107384A (ja) 2003-10-01 2005-04-21 Sony Corp 音声認識装置および方法、プログラム並びに記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
JP2018045192A (ja) * 2016-09-16 2018-03-22 トヨタ自動車株式会社 音声対話装置および発話音量調整方法

Also Published As

Publication number Publication date
DE112019003773T5 (de) 2021-06-02
US20210264915A1 (en) 2021-08-26
US11657821B2 (en) 2023-05-23
WO2020021861A1 (ja) 2020-01-30

Similar Documents

Publication Publication Date Title
CN110291489B (zh) 计算上高效的人类标识智能助理计算机
US11017217B2 (en) System and method for controlling appliances using motion gestures
EP3413303B1 (en) Information processing device, information processing method, and program
US10109300B2 (en) System and method for enhancing speech activity detection using facial feature detection
CN106463114B (zh) 信息处理设备、控制方法及程序存储单元
WO2014125791A1 (en) Voice recognition device, voice recognition method, and program
CN111163906B (zh) 能够移动的电子设备及其操作方法
JP6759445B2 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
KR20070029794A (ko) 유저와 시스템 사이에 통신을 하기 위한 방법 및 시스템
JP2012040655A (ja) ロボット制御方法、プログラム、及びロボット
JP2000347692A (ja) 人物検出方法、人物検出装置及びそれを用いた制御システム
WO2017141530A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US11875571B2 (en) Smart hearing assistance in monitored property
JP2009166184A (ja) ガイドロボット
JPWO2020021861A1 (ja) 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
WO2019069529A1 (ja) 情報処理装置、情報処理方法、および、プログラム
JP2005202578A (ja) コミュニケーション装置およびコミュニケーション方法
US10810973B2 (en) Information processing device and information processing method
KR20200101221A (ko) 사용자 입력 처리 방법 및 이를 지원하는 전자 장치
JP2019220145A (ja) 操作端末、音声入力方法、及びプログラム
US11743588B1 (en) Object selection in computer vision
US11687049B2 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP7426631B2 (ja) 無人移動体及び情報処理方法
US11368497B1 (en) System for autonomous mobile device assisted communication
CN111919250A (zh) 传达非语言提示的智能助理设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240305