JPWO2020145071A1 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
JPWO2020145071A1
JPWO2020145071A1 JP2020565666A JP2020565666A JPWO2020145071A1 JP WO2020145071 A1 JPWO2020145071 A1 JP WO2020145071A1 JP 2020565666 A JP2020565666 A JP 2020565666A JP 2020565666 A JP2020565666 A JP 2020565666A JP WO2020145071 A1 JPWO2020145071 A1 JP WO2020145071A1
Authority
JP
Japan
Prior art keywords
situation
information processing
unit
user
voice command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020565666A
Other languages
English (en)
Inventor
輝行 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2020145071A1 publication Critical patent/JPWO2020145071A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

ユーザが音声操作を良好に行い得るようにする。状況判断部により、状況を判断する。状態制御部により、判断された状況に適した音声コマンドの受け付け状態に制御する。例えば、受け付け状態にある音声コマンドが何であるかを、表示または音声出力でユーザに通知する。ユーザは誤認識を防ぐためのウェイクワードの発話をするなどのユーザアクションを行うことなく音声コマンドの発話を行うことができ、煩わしさや負担が軽減される。

Description

本技術は、情報処理装置および情報処理方法に関する。詳しくは、スマートテレビやスマートスピーカ等の音声操作対応機器に適用して好適な情報処理装置および情報処理方法に関する。
一般的にスマートテレビやスマートスピーカ等の音声操作対応機器において、ユーザによる音声コマンドの受け付けには、特定のウェイクワード(「ホットワード」や「起動ワード」等ということもある)を発話する、あるいは特定のボタンの押下げ操作をする等のユーザアクションが必要である。
このようなユーザアクションが必要な理由は、ユーザアクション直後の音声のみを音声コマンドとして扱うことで、ユーザが通常生活において会話をする際に音声コマンドを誤認識することを防ぐためである。しかし、ユーザが音声コマンドを発話する際に必ずユーザアクションを強制させられるのはユーザにとっては煩わしく、また大きな負担である。
例えば、特許文献1には、表示画面におけるユーザの視線の位置に関する情報に基づいて、ユーザが所定のオブジェクトを見たと判断された場合に、音声コマンドの受け付けを開始する技術が開示されている。ここで、ユーザが所定のオブジェクトを見る行為は、上述した特定のウェイクワードを発話する、あるいは特定のボタンの押下げ操作をする行為に代わるものであって、これもユーザにとっては煩わしく、また大きな負担である。
特開2015−055718号公報
ユーザの煩わしさや負担を軽減するため、ユーザアクションなしに、音声コマンドを発話できるようにすることが望まれる。
本技術の目的は、ユーザが音声操作を良好に行い得るようにすることにある。
本技術の概念は、
状況を判断する処理を制御し、上記判断された状況に適した音声コマンドの受け付け状態に制御する制御部を備える
情報処理装置にある。
本技術において、制御部により、状況を判断する処理が制御される。そして、制御部により、判断された状況に適した音声コマンドの受け付け状態に制御される。例えば、入力される音声コマンドが状況に適した音声コマンドであるとき、この音声コマンドを実行するコマンド実行部をさらに備える、ようにされてもよい。
例えば、制御部は、アプリケーション機能の状況を判断する制御をし、その状況は、判断されたアプリケーション機能の状況である、ようにされてもよい。これにより、アプリケーション機能の状況に適した音声コマンドの受け付け状態に自動的に制御される。この場合、例えば、アプリケーション機能は、スマートテレビまたはスマートスピーカのアプリケーション機能である、ようにされてもよい。
また、例えば、センサ部をさらに備え、状況は、センサ部で取得される状況である、ようにされてもよい。これにより、センサ部で取得される状況に適した音声コマンドの受け付け状態に自動的に制御される。この場合、例えば、センサ部は、カメラを含む、ようにされてもよい。また、この場合、例えば、状況は、ユーザの状況である、ようにされてもよい。
また、例えば、外部機器と通信を行う通信部をさらに備え、状況は、外部機器で取得される状況である、ようにされてもよい。これにより、外部機器で取得される状況に適した音声コマンドの受け付け状態に自動的に制御される。
このように本技術においては、判断された状況に適した音声コマンドの受け付け状態に制御するものである。そのため、ユーザは誤認識を防ぐためのユーザアクションを行うことなく音声コマンドの発話を行うことができ、ユーザの煩わしさや負担を軽減することが可能となる。
なお、本技術において、例えば、状況に適した音声コマンドをユーザに通知するコマンド通知部をさらに備える、ようにされてもよい。これにより、ユーザは、状況に適した音声コマンドの発話を適切に行うことが可能となる。
実施の形態としての情報処理システムの一例の全体概要を示すブロック図である。 音声操作対応機器に含まれる情報処理装置の構成例を示すブロック図である。 音声操作対応機器がスマートテレビやスマートスピーカである場合の構成例を説明するための図である。 情報処理装置の制御部における処理手順の一例を示すフローチャートである。 ケース1に対応した情報処理装置の構成例を示すブロック図である。 ディスプレイに表示される受け付け可能な音声コマンドの一覧の例を示す図である。 ケース2に対応した情報処理装置の構成例を示すブロック図である。 ケース3に対応した情報処理装置の構成例を示すブロック図である。 ケース4に対応した情報処理装置の構成例を示すブロック図である。 車両制御システムの概略的な構成の一例を示すブロック図である。 車外情報検出部及び撮像部の設置位置の一例を示す説明図である。
以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
1.実施の形態
2.移動体への応用例
3.変形例
<1.実施の形態>
[情報処理システムの構成例]
図1は、実施の形態としての情報処理システム10の一例の全体概要を示している。この例において、情報処理システム10は、音声操作対応機器100を有する他に、この音声操作対応機器100と通信が可能な外部機器200、例えばIoT(Internet of Things)機器を有している。
音声操作対応機器100は、ユーザ300からの音声コマンド発話による操作が可能な電子機器であり、具体的には、例えばスマートテレビ、スマートスピーカ等が該当する。ここで、スマートテレビは、従来のテレビをスマート化したものである。例えば、スマートテレビは、インターネットに接続して種々の情報を取得できる、他の機器とネットワークで接続して機器間連携できる、等の特徴がある。また、スマートスピーカは、従来のスピーカをスマート化したものであり、対話型の音声操作に対応したAI(Artificial Intelligence)アシスタントを利用可能なスピーカである。なお、スマートテレビ単体でも対話型の音声操作に対応したAIアシスタントを利用可能である。
外部機器200は、例えば、セキュリティカメラ、照明機器、さらには電子レンジ、掃除器、エアコン、洗濯機、冷蔵庫等である。音声操作対応機器100と外部機器200との間の通信は、無線あるいは有線で行われる。無線方式には、“Wi-Fi”、“Bluetooth”などが知られている。なお、「Wi-Fi」、「Bluetooth」は、登録商標である。
音声操作対応機器100は、状況を判断し、その判断された状況に適した音声コマンドの受け付け状態になり、ユーザ300から入力される音声コマンドがその状況に適した音声コマンドである場合に、その音声コマンドを実行する。この場合、ユーザ300は誤認識を防ぐためのユーザアクション、例えばウェイクワード発話等を行うことなく音声コマンドの発話を行うことができ、煩わしさや負担が軽減される。
音声操作対応機器100は、例えば、自身が持つアプリケーション機能部の状況を判断し、その判断された状況に適した音声コマンドの受け付け状態になることができる。例えば、音声操作対応機器100がスマートテレビである場合には、アプリケーション機能部としては、テレビ受信機能部、メール機能部、インターネット接続機能部、情報表示機能部などがある。また、例えば、音声操作対応機器100がスマートスピーカである場合には、音声出力機能部、メール機能部、インターネット接続機能部、情報表示機能部などがある。
また、音声操作対応機器100は、例えば、自身が持つセンサ部で取得される状況(ユーザや外部環境の情報)に適した音声コマンドの受け付け状態になることができる。センサ部には、温度センサ、湿度センサ、人感センサ、距離センサ、近接センサ等の他に、カメラ(イメージセンサ)やマイクロホン等も含まれる。例えば、カメラ、マイクロホン、人感センサ等でユーザの状況を取得できる。
また、音声操作対応機器100は、例えば、外部機器200で取得される状況(ユーザや外部環境の情報)に適した音声コマンドの受け付け状態になることができる。なお、外部機器200には、状況を取得するための機器、音声コマンドの実行によって制御される機器、あるいはそれら両方の機能を持つ機器が存在する。
上述では、状況として、アプリケーション機能部の状況、自身が持つセンサ部で取得される状況、外部機器で取得される状況を挙げたが、状況はこれらに限定されるものではなく、その他であってもよい。また、音声操作対応機器100は、これら個々の状況に適した音声コマンドの受け付け状態となる他に、一部または全部を組み合わせた総合的な状況に適した音声コマンドの受け付け状態になることも可能である。
また、音声操作対応機器100は、状況に適した音声コマンドの受け付け状態になったとき、どの音声コマンドの受け付け状態にあるかを、ユーザ300に通知する。この場合、ディスプレイにユーザが視覚で確認可能に表示し、あるいはスピーカからユーザが聴覚で確認可能に音声出力を行い、あるいはそれらの両方で通知する。このように受け付け状態にある音声コマンドをユーザに通知することで、ユーザは、状況に適した音声コマンドの発話を適切に行うことが可能となる。
なお、ユーザは、通知される受け付け状態にある音声コマンドの中に、ユーザが意図する音声コマンドが存在しない場合も考えらえる。その場合、ユーザは、ウェイクワード発話等などのユーザアクションを行った後に、意図する音声コマンドの発話を行って、希望する音声操作を行うことができる。
図2は、音声操作対応機器100に含まれる情報処理装置110の構成例を示している。情報処理装置110は、制御部111と、通信部112と、センサ部113と、マイクロホン114と、スピーカ115と、ディスプレイ116を有している。この例は、ディスプレイ116を有するものであり、例えば、図3(a)に示すように、音声操作対応機器100がスマートテレビであることを想定したものである。なお、図3(b)に示すように、音声操作対応機器100がスマートスピーカであることを想定した場合、ディスプレイ116の機能を外部のテレビ受信機(あるいはモニタやプロジェクタ)400に持たせる構成が考えられる。なお、スマートスピーカ100自体がプロジェクタ等のディスプレイ116の機能を持つ場合も存在する。
図2に戻って、通信部112は、外部機器200と通信をする。センサ部113は、カメラ、マイク、その他の各種センサを含む。なお、このセンサ部113に含まれるマイクロホンの代わりに、マイクロホン114を用いることも可能であるし、リモートコントローラやスマートホン等の操作用機器に設けられたマイクロホンを用いることも可能である。ここで、例えば、赤外線で音声操作装置100を操作可能なリモートコントローラに配置された特定のボタンを押し下げて、リモートコントローラに配置されたマイクロホンやマイクロホン114による音声コマンドの受け付け処理を開始したり、スマートホンの表示部に表示された特定のアイコン画像を選択することで同様の処理を開始したりすることができる。また、カメラやマイクロホンを有しない構成も考えらえる。
制御部111は、情報処理装置110の全体を制御する。この制御部111は、状況判断部117と、音声認識制御部118を有している。外部機器200で取得される状況情報は、通信部112を通じて、制御部111の状況判断部117に与えられる。また、センサ部113で取得される状況情報は、制御部111の状況判断部117に与えられる。なお、制御部111は、音声操作対応機器100が持つアプリケーション機能部の状況を常に把握しており、その状況情報は状況判断部117に与えられる。
状況判断部117は、各部から与えられる状況情報に基づいて、アプリケーション機能部の状況、センサ部で取得される状況、外部機器で取得される状況を判断する。音声認識制御部118は、状況判断部117で判断された状況に適した音声コマンドを選択し、その音声コマンドの受け付け状態にする。
このとき、音声認識制御部118は、どの音声コマンドの受け付け状態にあるかを、ユーザ300に通知するための制御をする。この場合、例えば、ディスプレイ116に表示するか、スピーカ115から音声出力をする。
また、音声認識制御部118は、マイク114から入力された音声コマンドの発話を認識し、その音声コマンドが状況に適した音声コマンドであるときには、その音声コマンドを実行するように制御する。この場合、必要に応じて、通信部112を介して、外部機器200に制御情報が送られる。なお、情報処理装置110の一部の処理、例えば音声認識処理などに関しては、図示しないクラウドサーバで行うように構成することも考えられる。
図4のフローチャートは、情報処理装置110の制御部111における処理手順の一例を示している。制御部111は、このフローチャートの処理を周期的に繰り返し実行する。制御部111は、ステップST1において、処理を開始する。
次に、制御部111は、ステップST2において、状況情報を取得する。この場合、制御部111は、アプリケーション機能部の状況情報、センサ部113からの状況情報および外部機器200からの状況情報の少なくともいずれかを取得する。
次に、制御部111は、ステップST3において、状況情報から状況を判断する。次に、制御部111は、ステップST4において、判断された状況から、その状況に適した音声コマンドが存在するか否かを判断する。状況に適した音声コマンドが存在するとき、制御部111は、ステップST5において、その状況に適した音声コマンドの受け付け状態にして、表示または音声出力でユーザに通知する。
次に、ステップST6において、制御部111は、音声コマンドの発話があったか否かを判断する。音声コマンドの発話があったとき、制御部111は、ステップST7において、その発話された音声コマンドが状況に適したものであるか、つまり受け付け状態にある音声コマンドであるか否かを判断する。
発話された音声コマンドが状況に適したものであるとき、制御部111は、ステップST8において、その音声コマンドを実行する。そして、制御部111は、ステップST8の処理の後、ステップST9において、処理を終了する。
また、ステップST4で状況に適した音声コマンドが存在しないとき、ステップST6で音声コマンドの発話がないとき、またはステップST7で発話された音声コマンドが状況に適したものでないとき、制御部111は、ステップST9において、処理を終了する。また、これらの場合に制御部111は、ステップST9において処理を終了する前に、状況に適した音声コマンドをユーザに通知する処理を行ってもよい。
次に、具体的なケースについて説明する。ここでは、以下の4つのケースについて説明する。
「ケース1」
このケース1は、音声操作対応機器100が自身の保持する情報のみで状況判断するケースである。このケース1は、音声操作対応機器100のアプリケーション機能における状況変化を検知し、ユーザが音声コマンドによって次のアクションを実行することが想定されるケースである。このケース1では、情報処理装置110がアプリケーション機能部の状況を判断し、その判断された状況に適した音声コマンドの受け付け状態になる。
図5は、このケース1に対応した情報処理装置110の構成例を示しており、情報処理装置110は、制御部111と、マイクロホン114と、スピーカ115と、ディスプレイ116を有している。この図5において、図2と対応する部分には、同一符号を付し、その詳細説明は省略する。このケース1においては、図2の情報処理装置110における通信部112、センサ部113は、使用されない。
このケース1では、以下のようなユースケースが考えられる。
(1)新着メールが届いたことを検知(機器のアプリケーション機能から取得される情報)し、ユーザがメール本文を読むことが想定される場合
(2)時刻が9時になったことを検知(機器のアプリケーション機能から取得される情報)し、番組表画面を表示してチャネルを変更することが想定される場合
(1)のユースケースの場合、状況に適した音声コマンドとしては、“新着メールを開いて”などが考えられる。また、(2)のユースケースの場合、“番組表を表示して”→“○○テレビに変えて”などが考えられる。なお、図6は、(1)のユースケースの場合に、ディスプレイ116に表示される、受け付け可能な音声コマンドの一覧の例を示している。
「ケース2」
このケース2は、音声操作対応機器100が自身の保持するカメラや各種センサにより状況判断するケースである。このケース2は、音声操作対応機器100が保持するカメラや各種センサの情報からユーザや外部環境の状況の変化を検知した際に、ユーザが音声コマンドによって次のアクションを実行することが想定されるケースである。このケース2では、情報処理装置110がセンサ部113で取得された状況を判断し、その判断された状況に適した音声コマンドの受け付け状態になる。
図7は、このケース2に対応した情報処理装置110の構成例を示しており、情報処理装置110は、制御部111と、センサ部113と、マイクロホン114と、スピーカ115と、ディスプレイ116を有している。この図7において、図2と対応する部分には、同一符号を付し、その詳細説明は省略する。このケース2においては、図2の情報処理装置110における通信部112は、使用されない。
このケース2では、以下のようなユースケースが考えられる。
(1)ユーザがテレビの前に座ったことを検知(機器そのものが保持するカメラの情報)したことにより、ユーザが機器の電源をつけることが想定される場合
(2)距離センサの情報からユーザが機器から離れたことを検知したことにより、ユーザが文字サイズを変更することが想定される場合
(1)のユースケースの場合、状況に適した音声コマンドとしては、“テレビの電源をつけて”などが考えられる。また、(2)のユースケースの場合、“文字サイズを大きくして”などが考えられる。
「ケース3」
このケース3は、音声操作対応機器100が外部のIoT機器等と通信を行って状況判断するケースである。このケース3は、音声操作対応機器100にネットワーク経由で接続されている各種IoT機器から取得される情報からユーザや外部環境の状況の変化を検知した際に、ユーザが音声コマンドによって次のアクションを実行することが想定されるケースである。このケース3では、情報処理装置110が外部機器200で取得された状況を判断し、その判断された状況に適した音声コマンドの受け付け状態になる。
図8は、このケース3に対応した情報処理装置110の構成例を示しており、情報処理装置110は、制御部111と、通信部112と、マイクロホン114と、スピーカ115と、ディスプレイ116を有している。この図8において、図2と対応する部分には、同一符号を付し、その詳細説明は省略する。このケース3においては、図2の情報処理装置110におけるセンサ部113は、使用されない。
このケース3では、以下のようなユースケースが考えられる。
(1)玄関に人が訪問したとき(IoTセキュリティカメラから取得される情報)、このIoTセキュリティカメラの映像をテレビのディスプレイに表示することが想定される場合
(1)のユースケースの場合、状況に適した音声コマンドとしては、“玄関のカメラを表示して”などが考えられる。
この場合、制御部111は外部のIoT機器等からの情報を基にディスプレイ116に通知を出力する、あるいはスピーカ115から音声通知を出力する等の処理を行い、それらの出力された通知に関連する音声コマンドのみを受け付けるようにしてもよい。同様に、ケース1においても、アプリケーション機能における状況変化に基づいた通知が出力され、それに基づいた音声コマンドのみが受け付けられるようにしてもよい。
「ケース4」
このケース4は、音声操作対応機器100が上述のケース1〜3で用いられる情報の組み合わせを利用して状況判断するケースである。このケース4は、音声操作対応機器100そのものの機能および音声操作対応機器100そのものが保持するカメラや各種センサの情報、音声操作対応機器100にネットワーク経由で接続されている各種IoT機器から取得される情報を統合することで、ユーザや外部環境の状況の変化を検知し、ユーザが音声コマンドによって次のアクションを実行することが想定されるケースである。
このケース4では、情報処理装置110がアプリケーション機能部の状況、センサ部113で取得された状況および外部機器200で取得された状況を統合的に判断し、その判断された状況に適した音声コマンドの受け付け状態になる。
図9は、このケース4に対応した情報処理装置110の構成例を示しており、情報処理装置110は、制御部111と、通信部112と、センサ部113と、マイクロホン114と、スピーカ115と、ディスプレイ116を有している。この図9において、図2と対応する部分には、同一符号を付し、その詳細説明は省略する。このケース4においては、図2の情報処理装置110における全ての部分が使用される。
以上説明したように、図1に示す情報処理システム10において、音声操作対応機器100は、判断された状況に適した音声コマンドの受け付け状態に自動的になるものである。そのため、ユーザ300は誤認識を防ぐためのウェイクワードの発話をするなどのユーザアクションを行うことなく音声コマンドの発話を行うことができ、ユーザ300の煩わしさや負担を軽減することが可能となる。
また、図1に示す情報処理システム10において、音声操作対応機器100は、状況に適した音声コマンド、つまり受け付け可能な音声コマンドが何であるかを、ユーザ300に表示または音声出力で通知するものである。そのため、ユーザ300は、状況に適した音声コマンドの発話を適切に行うことが可能となる。
それぞれのケースにおいて、制御部は状況判断部による情報判断をユーザの事前の設定に基づいて制御してもよいし、それまでに行われたユーザの行動に基づいて蓄積された情報に基づいて制御してもよい。例えば、ケース1においてユーザが事前に9時開始の番組の視聴予約をしている場合に9時に音声受け付け処理を開始する処理や、定期的に見ている番組が始まる時間に、ユーザがテレビの前に座ったことを、センサ情報を基に確認した場合に、音声受け付けを開始するような処理が考えられる。またユーザの設定や過去の行動履歴のような情報は音声操作対応機器100の内部に保存されていてもよいし、クラウドサーバのような図示されない外部の記録装置に記録されていてもよい。
なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
.移動体への応用例>
本開示に係る技術(本技術)は、様々な製品へ応用することができる。例えば、本開示に係る技術は、自動車、電気自動車、ハイブリッド電気自動車、自動二輪車、自転車、パーソナルモビリティ、飛行機、ドローン、船舶、ロボット等のいずれかの種類の移動体に搭載される装置として実現されてもよい。
図10は、本開示に係る技術が適用され得る移動体制御システムの一例である車両制御システムの概略的な構成例を示すブロック図である。
車両制御システム12000は、通信ネットワーク12001を介して接続された複数の電子制御ユニットを備える。図10に示した例では、車両制御システム12000は、駆動系制御ユニット12010、ボディ系制御ユニット12020、車外情報検出ユニット12030、車内情報検出ユニット12040、及び統合制御ユニット12050を備える。また、統合制御ユニット12050の機能構成として、マイクロコンピュータ12051、音声画像出力部12052、及び車載ネットワークI/F(Interface)12053が図示されている。
駆動系制御ユニット12010は、各種プログラムにしたがって車両の駆動系に関連する装置の動作を制御する。例えば、駆動系制御ユニット12010は、内燃機関又は駆動用モータ等の車両の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構、車両の舵角を調節するステアリング機構、及び、車両の制動力を発生させる制動装置等の制御装置として機能する。
ボディ系制御ユニット12020は、各種プログラムにしたがって車体に装備された各種装置の動作を制御する。例えば、ボディ系制御ユニット12020は、キーレスエントリシステム、スマートキーシステム、パワーウィンドウ装置、あるいは、ヘッドランプ、バックランプ、ブレーキランプ、ウィンカー又はフォグランプ等の各種ランプの制御装置として機能する。この場合、ボディ系制御ユニット12020には、鍵を代替する携帯機から発信される電波又は各種スイッチの信号が入力され得る。ボディ系制御ユニット12020は、これらの電波又は信号の入力を受け付け、車両のドアロック装置、パワーウィンドウ装置、ランプ等を制御する。
車外情報検出ユニット12030は、車両制御システム12000を搭載した車両の外部の情報を検出する。例えば、車外情報検出ユニット12030には、撮像部12031が接続される。車外情報検出ユニット12030は、撮像部12031に車外の画像を撮像させるとともに、撮像された画像を受信する。車外情報検出ユニット12030は、受信した画像に基づいて、人、車、障害物、標識又は路面上の文字等の物体検出処理又は距離検出処理を行ってもよい。
撮像部12031は、光を受光し、その光の受光量に応じた電気信号を出力する光センサである。撮像部12031は、電気信号を画像として出力することもできるし、測距の情報として出力することもできる。また、撮像部12031が受光する光は、可視光であっても良いし、赤外線等の非可視光であっても良い。
車内情報検出ユニット12040は、車内の情報を検出する。車内情報検出ユニット12040には、例えば、運転者の状態を検出する運転者状態検出部12041が接続される。運転者状態検出部12041は、例えば運転者を撮像するカメラを含み、車内情報検出ユニット12040は、運転者状態検出部12041から入力される検出情報に基づいて、運転者の疲労度合い又は集中度合いを算出してもよいし、運転者が居眠りをしていないかを判別してもよい。
マイクロコンピュータ12051は、車外情報検出ユニット12030又は車内情報検出ユニット12040で取得される車内外の情報に基づいて、駆動力発生装置、ステアリング機構又は制動装置の制御目標値を演算し、駆動系制御ユニット12010に対して制御指令を出力することができる。例えば、マイクロコンピュータ12051は、車両の衝突回避あるいは衝撃緩和、車間距離に基づく追従走行、車速維持走行、車両の衝突警告、又は車両のレーン逸脱警告等を含むADAS(Advanced Driver Assistance System)の機能実現を目的とした協調制御を行うことができる。
また、マイクロコンピュータ12051は、車外情報検出ユニット12030又は車内情報検出ユニット12040で取得される車両の周囲の情報に基づいて駆動力発生装置、ステアリング機構又は制動装置等を制御することにより、運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行うことができる。
また、マイクロコンピュータ12051は、車外情報検出ユニット12030で取得される車外の情報に基づいて、ボディ系制御ユニット12030に対して制御指令を出力することができる。例えば、マイクロコンピュータ12051は、車外情報検出ユニット12030で検知した先行車又は対向車の位置に応じてヘッドランプを制御し、ハイビームをロービームに切り替える等の防眩を図ることを目的とした協調制御を行うことができる。
音声画像出力部12052は、車両の搭乗者又は車外に対して、視覚的又は聴覚的に情報を通知することが可能な出力装置へ音声及び画像のうちの少なくとも一方の出力信号を送信する。図10の例では、出力装置として、オーディオスピーカ12061、表示部12062及びインストルメントパネル12063が例示されている。表示部12062は、例えば、オンボードディスプレイ及びヘッドアップディスプレイの少なくとも一つを含んでいてもよい。
図11は、撮像部12031の設置位置の例を示す図である。
図11では、撮像部12031として、撮像部12101、12102、12103、12104、12105を有する。
撮像部12101、12102、12103、12104、12105は、例えば、車両12100のフロントノーズ、サイドミラー、リアバンパ、バックドア及び車室内のフロントガラスの上部等の位置に設けられる。フロントノーズに備えられる撮像部12101及び車室内のフロントガラスの上部に備えられる撮像部12105は、主として車両12100の前方の画像を取得する。サイドミラーに備えられる撮像部12102、12103は、主として車両12100の側方の画像を取得する。リアバンパ又はバックドアに備えられる撮像部12104は、主として車両12100の後方の画像を取得する。車室内のフロントガラスの上部に備えられる撮像部12105は、主として先行車両又は、歩行者、障害物、信号機、交通標識又は車線等の検出に用いられる。
なお、図11には、撮像部12101ないし12104の撮影範囲の一例が示されている。撮像範囲12111は、フロントノーズに設けられた撮像部12101の撮像範囲を示し、撮像範囲12112,12113は、それぞれサイドミラーに設けられた撮像部12102,12103の撮像範囲を示し、撮像範囲12114は、リアバンパ又はバックドアに設けられた撮像部12104の撮像範囲を示す。例えば、撮像部12101ないし12104で撮像された画像データが重ね合わせられることにより、車両12100を上方から見た俯瞰画像が得られる。
撮像部12101ないし12104の少なくとも1つは、距離情報を取得する機能を有していてもよい。例えば、撮像部12101ないし12104の少なくとも1つは、複数の撮像素子からなるステレオカメラであってもよいし、位相差検出用の画素を有する撮像素子であってもよい。
例えば、マイクロコンピュータ12051は、撮像部12101ないし12104から得られた距離情報を基に、撮像範囲12111ないし12114内における各立体物までの距離と、この距離の時間的変化(車両12100に対する相対速度)を求めることにより、特に車両12100の進行路上にある最も近い立体物で、車両12100と略同じ方向に所定の速度(例えば、0km/h以上)で走行する立体物を先行車として抽出することができる。さらに、マイクロコンピュータ12051は、先行車の手前に予め確保すべき車間距離を設定し、自動ブレーキ制御(追従停止制御も含む)や自動加速制御(追従発進制御も含む)等を行うことができる。このように運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行うことができる。
例えば、マイクロコンピュータ12051は、撮像部12101ないし12104から得られた距離情報を元に、立体物に関する立体物データを、2輪車、普通車両、大型車両、歩行者、電柱等その他の立体物に分類して抽出し、障害物の自動回避に用いることができる。例えば、マイクロコンピュータ12051は、車両12100の周辺の障害物を、車両12100のドライバが視認可能な障害物と視認困難な障害物とに識別する。そして、マイクロコンピュータ12051は、各障害物との衝突の危険度を示す衝突リスクを判断し、衝突リスクが設定値以上で衝突可能性がある状況であるときには、オーディオスピーカ12061や表示部12062を介してドライバに警報を出力することや、駆動系制御ユニット12010を介して強制減速や回避操舵を行うことで、衝突回避のための運転支援を行うことができる。
撮像部12101ないし12104の少なくとも1つは、赤外線を検出する赤外線カメラであってもよい。例えば、マイクロコンピュータ12051は、撮像部12101ないし12104の撮像画像中に歩行者が存在するか否かを判定することで歩行者を認識することができる。かかる歩行者の認識は、例えば赤外線カメラとしての撮像部12101ないし12104の撮像画像における特徴点を抽出する手順と、物体の輪郭を示す一連の特徴点にパターンマッチング処理を行って歩行者か否かを判別する手順によって行われる。マイクロコンピュータ12051が、撮像部12101ないし12104の撮像画像中に歩行者が存在すると判定し、歩行者を認識すると、音声画像出力部12052は、当該認識された歩行者に強調のための方形輪郭線を重畳表示するように、表示部12062を制御する。また、音声画像出力部12052は、歩行者を示すアイコン等を所望の位置に表示するように表示部12062を制御してもよい。
以上、本開示に係る技術が適用され得る車両制御システムの一例について説明した。本開示に係る技術は、以上説明した構成のうち、統合制御ユニット12050等に適用され得る。統合制御ユニット12050に本開示に係る技術を適用することにより、車両制御システム12000でユーザが音声操作を行う場合、ユーザは誤認識を防ぐためのウェイクワードの発話をするなどのユーザアクションを行うことなく音声コマンドの発話を行うことができ、ユーザの煩わしさや負担を軽減することが可能となる。また、例えば車両に搭載されたカーナビゲーションシステムが外部機器200として存在してもよいし、カーナビゲーションシステムの制御部の状況判断処理に基づいて車両制御システム12000のオーディオスピーカ12061や表示部12062が制御されてもよい。
<3.変形例>
なお、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、技術は、以下のような構成もとることができる。
(1)状況を判断する処理を制御し、上記判断された状況に適した音声コマンドの受け付け状態に制御する制御部を備える
情報処理装置。
(2)上記制御部は、アプリケーション機能の状況を判断する制御をし、
上記状況は、上記判断されたアプリケーション機能の状況である
前記(1)に記載の情報処理装置。
(3)上記アプリケーション機能は、スマートテレビまたはスマートスピーカのアプリケーション機能である
前記(2)に記載の情報処理装置。
(4)センサ部をさらに備え、
上記状況は、上記センサ部で取得される状況である
前記(1)から(3)のいずれかに記載の情報処理装置。
(5)上記センサ部は、カメラを含む
前記(4)に記載の情報処理装置。
(6)上記状況は、ユーザの状況である
前記(4)または(5)に記載の情報処理装置。
(7)外部機器と通信を行う通信部をさらに備え、
上記状況は、上記外部機器で取得される状況である
前記(1)から(6)のいずれかに記載の情報処理装置。
(8)入力される音声コマンドが上記状況に適した音声コマンドであるとき、該音声コマンドを実行するコマンド実行部をさらに備える
前記(1)から(7)のいずれかに記載の情報処理装置。
(9)上記状況に適した音声コマンドをユーザに通知するコマンド通知部をさらに備える
前記(1)から(8)のいずれかに記載の情報処理装置。
(10)状況を判断する手順と、
上記判断された状況に適した音声コマンドの受け付け状態に制御する手順を有する
情報処理方法。
10・・・情報処理システム
100・・・音声操作対応機器
110・・・情報処理装置
111・・・制御部
112・・・通信部
113・・・センサ部
114・・・マイクロホン
115・・・スピーカ
116・・・ディスプレイ
117・・・状況判断部
118・・・音声認識制御部
200・・・外部機器
300・・・ユーザ
400・・・テレビ受信機(TV)

Claims (10)

  1. 状況を判断する処理を制御し、上記判断された状況に適した音声コマンドの受け付け状態に制御する制御部を備える
    情報処理装置。
  2. 上記制御部は、アプリケーション機能の状況を判断する制御をし、
    上記状況は、上記判断されたアプリケーション機能の状況である
    請求項1に記載の情報処理装置。
  3. 上記アプリケーション機能は、スマートテレビまたはスマートスピーカのアプリケーション機能である
    請求項2に記載の情報処理装置。
  4. センサ部をさらに備え、
    上記状況は、上記センサ部で取得される状況である
    請求項1に記載の情報処理装置。
  5. 上記センサ部は、カメラを含む
    請求項4に記載の情報処理装置。
  6. 上記状況は、ユーザの状況である
    請求項4に記載の情報処理装置。
  7. 外部機器と通信を行う通信部をさらに備え、
    上記状況は、上記外部機器で取得される状況である
    請求項1に記載の情報処理装置。
  8. 入力される音声コマンドが上記状況に適した音声コマンドであるとき、該音声コマンドを実行するコマンド実行部をさらに備える
    請求項1に記載の情報処理装置。
  9. 上記状況に適した音声コマンドをユーザに通知するコマンド通知部をさらに備える
    請求項1に記載の情報処理装置。
  10. 状況を判断する手順と、
    上記判断された状況に適した音声コマンドの受け付け状態に制御する手順を有する
    情報処理方法。
JP2020565666A 2019-01-07 2019-12-19 情報処理装置および情報処理方法 Pending JPWO2020145071A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019000497 2019-01-07
JP2019000497 2019-01-07
PCT/JP2019/049762 WO2020145071A1 (ja) 2019-01-07 2019-12-19 情報処理装置および情報処理方法

Publications (1)

Publication Number Publication Date
JPWO2020145071A1 true JPWO2020145071A1 (ja) 2021-11-18

Family

ID=71521326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020565666A Pending JPWO2020145071A1 (ja) 2019-01-07 2019-12-19 情報処理装置および情報処理方法

Country Status (5)

Country Link
US (1) US20220084518A1 (ja)
EP (1) EP3910447A4 (ja)
JP (1) JPWO2020145071A1 (ja)
CN (1) CN113260953A (ja)
WO (1) WO2020145071A1 (ja)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013048880A1 (en) * 2011-09-30 2013-04-04 Apple Inc. Automatically adapting user interfaces for hands-free interaction
JP6221535B2 (ja) 2013-09-11 2017-11-01 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2015068699A1 (ja) * 2013-11-08 2015-05-14 株式会社ソニー・コンピュータエンタテインメント エンタテインメント装置、表示制御方法、プログラム及び情報記憶媒体
WO2016157662A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
JP2018073067A (ja) * 2016-10-27 2018-05-10 京セラ株式会社 電子機器、制御方法およびプログラム
CA3044602A1 (en) * 2016-11-23 2018-05-31 Alarm.Com Incorporated Detection of authorized user presence and handling of unauthenticated monitoring system commands
KR101925034B1 (ko) * 2017-03-28 2018-12-04 엘지전자 주식회사 스마트 컨트롤링 디바이스 및 그 제어 방법
JP7026449B2 (ja) * 2017-04-21 2022-02-28 ソニーグループ株式会社 情報処理装置、受信装置、及び情報処理方法
US11128636B1 (en) * 2020-05-13 2021-09-21 Science House LLC Systems, methods, and apparatus for enhanced headsets

Also Published As

Publication number Publication date
EP3910447A4 (en) 2022-03-09
WO2020145071A1 (ja) 2020-07-16
US20220084518A1 (en) 2022-03-17
EP3910447A1 (en) 2021-11-17
CN113260953A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
EP3470276B1 (en) Vehicle control device and vehicle comprising the same
US10296083B2 (en) Driver assistance apparatus and method for controlling the same
EP3456576B1 (en) Vehicle control device and vehicle including the same
US20180148094A1 (en) Parking support apparatus
CN107251120B (zh) 具有单摄像头停车辅助的可训练收发器
US10713501B2 (en) Focus system to enhance vehicle vision performance
WO2018180509A1 (ja) 画像処理装置、および画像処理方法
WO2018037950A1 (ja) 車両の状態制御装置および方法、並びに車両
KR102330978B1 (ko) 음성 인터렉션 방법 및 이를 이용한 차량
JP7382327B2 (ja) 情報処理装置、移動体、情報処理方法及びプログラム
US10549779B2 (en) Vehicle control device mounted on vehicle and method for controlling vehicle
CN111016820A (zh) 智能体系统、智能体控制方法及存储介质
JP6981095B2 (ja) サーバ装置、記録方法、プログラム、および記録システム
WO2019039280A1 (ja) 情報処理装置、情報処理方法、プログラム、及び、車両
CN111033615B (zh) 相机、方法、非暂时性计算机可读介质和系统
WO2020145071A1 (ja) 情報処理装置および情報処理方法
KR101816570B1 (ko) 차량용 디스플레이 장치
KR20160064762A (ko) 차량용 디스플레이 장치 및 이를 구비한 차량
KR20230028248A (ko) 제어 장치, 투영 시스템, 제어 방법 및 프로그램
KR102089955B1 (ko) 차량에 구비된 차량용 로봇 및 차량용 로봇의 제어방법
JP2018125707A (ja) 表示制御装置および方法、並びにプログラム
JP2007233795A (ja) 監視装置および方法、記録媒体、並びに、プログラム
JP2020083301A (ja) 移動体用投影装置、携帯端末、プログラム
US20190306444A1 (en) Imaging control apparatus and method, and vehicle

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221214

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20230807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240430