JPWO2018100743A1 - 制御装置および機器制御システム - Google Patents

制御装置および機器制御システム Download PDF

Info

Publication number
JPWO2018100743A1
JPWO2018100743A1 JP2018553628A JP2018553628A JPWO2018100743A1 JP WO2018100743 A1 JPWO2018100743 A1 JP WO2018100743A1 JP 2018553628 A JP2018553628 A JP 2018553628A JP 2018553628 A JP2018553628 A JP 2018553628A JP WO2018100743 A1 JPWO2018100743 A1 JP WO2018100743A1
Authority
JP
Japan
Prior art keywords
control
information
voice information
voice
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018553628A
Other languages
English (en)
Other versions
JP6725006B2 (ja
Inventor
須山 明彦
明彦 須山
田中 克明
克明 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Publication of JPWO2018100743A1 publication Critical patent/JPWO2018100743A1/ja
Application granted granted Critical
Publication of JP6725006B2 publication Critical patent/JP6725006B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • H04M2201/405Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition involving speaker-dependent recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Selective Calling Equipment (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

音声認識サーバを用いた機器制御を行う際に、ユーザが制御内容をすべて発話しなくても機器制御を行うことのできる制御装置(10)を提供する。制御装置(10)は、ユーザによる制御対象機器を制御するためのユーザ指示を取得するユーザ指示取得部(21)と、ユーザ指示に応じて、制御対象機器に対する制御内容を示す音声情報であって、ユーザ指示とは異なる情報である補助音声情報を含む、制御音声情報を生成する制御音声情報生成部(23)と、生成した制御音声情報を、音声認識処理を実行する音声認識サーバへ出力する制御音声情報出力部(25)と、を含む。

Description

本発明は、制御装置および機器制御システムに関する。
ユーザが発話した音声を音声認識することにより制御対象機器(TVやオーディオ機器等)を制御する機器制御システムが知られている。このような機器制御システムでは、音声認識処理を実行する音声認識サーバを用いて、ユーザが発話した音声から制御対象機器を動作させるための制御コマンドを生成している。
特開2014−78007号公報 特表2016−501391号公報 特開2011−232521号公報
上述のような音声認識サーバを用いた機器制御を行う場合、制御対象となる制御対象機器の指定、その制御内容をユーザが逐一発話しなくてはならない。そこで、ユーザが制御対象機器の指定や制御内容をすべて発話しなくても制御対象機器を制御することができれば、ユーザにとって利便性が向上すると考えられる。例えば、いつも同じ制御対象機器を動作させる場合に制御対象機器の指定を省略できれば、ユーザの発話量を減らすことができユーザの利便性が向上する。また、ユーザが発話できない状況において発話せずに制御対象機器を動作させることができればユーザの利便性が向上する。
上記課題を解決するために、本発明の目的は、音声認識サーバを用いた機器制御を行う制御装置および機器制御システムであって、ユーザが制御内容をすべて発話しなくても制御対象機器を制御することのできる制御装置および機器制御システムを提供することにある。
上記課題を解決するために、本発明に係る制御装置は、ユーザによる制御対象機器を制御するためのユーザ指示を取得するユーザ指示取得部と、前記ユーザ指示に応じて、前記制御対象機器に対する制御内容を示す音声情報であって、前記ユーザ指示とは異なる情報である補助音声情報を含む、制御音声情報を生成する制御音声情報生成部と、前記生成した制御音声情報を、音声認識処理を実行する音声認識サーバへ出力する制御音声情報出力部と、を含む。
また、本発明に係る機器制御システムは、第1制御装置と、第2制御装置と、制御対象機器と、を含む機器制御システムであって、前記第1制御装置は、ユーザによる前記制御対象機器を制御するためのユーザ指示を取得するユーザ指示取得部と、前記ユーザ指示に応じて、前記制御対象機器に対する制御内容を示す音声情報であって、前記ユーザ指示とは異なる情報である補助音声情報を含む、制御音声情報を生成する制御音声情報生成部と、前記生成した制御音声情報を、音声認識処理を実行する音声認識サーバへ出力する制御音声情報出力部と、を含み、前記第2制御装置は、前記音声認識サーバで実行された音声認識処理の認識結果に基づいて、前記制御対象機器を動作させるための制御コマンドを生成する制御コマンド生成部と、前記制御コマンドに従って前記制御対象機器を制御する機器制御部と、を含む。
本発明によれば、音声認識サーバを用いた機器制御を行う制御装置および機器制御システムにおいて、ユーザが制御内容をすべて発話しなくても制御対象機器を制御することが可能となる。
本発明の第1実施形態に係る機器制御システムの全体構成の一例を示す図である。 第1実施形態に係る第1制御装置と、第2制御装置と、音声認識サーバと、により実行される機能の一例を示す機能ブロック図である。 第1実施形態に係る関連付け情報の一例を示す図である。 第1実施形態に係る機器制御システムが実行する処理の一例を示すシーケンス図である。 第2実施形態の第1の例に係る第1制御装置と、第2制御装置と、音声認識サーバと、により実行される機能の一例を示す機能ブロック図である。 第1制御装置の表示部に表示される操作指示画面の一例を示す図である。 第2実施形態に係る補助音声情報記憶部の一例を示す図である。 第2実施形態の第2の例に係る第1制御装置と、第2制御装置と、音声認識サーバと、により実行される機能の一例を示す機能ブロック図である。 第2実施形態の第2の例に係る機器制御システムが実行する処理の一例を示すシーケンス図である。 第1実施形態に係る第1制御装置と、第2制御装置と、音声認識サーバと、により実行される機能の一例を示す機能ブロック図である。 第2実施形態に係る第1制御装置と、第2制御装置と、音声認識サーバと、により実行される機能の一例を示す機能ブロック図である。
以下、本発明の実施形態について図面を参照しながら説明する。図面では同一または同等の要素に同一の符号を付し、重複する説明を省略する。
[第1実施形態]
図1は、本発明の第1実施形態に係る機器制御システム1の全体構成の一例を示す図である。図1に示すように、第1実施形態に係る機器制御システム1は、第1制御装置10と、第2制御装置20と、音声認識サーバ30と、制御対象機器40(制御対象機器40A、制御対象機器40B)と、を含んで構成されている。第1制御装置10と、第2制御装置20と、音声認識サーバ30と、制御対象機器40とは、LANやインターネットなどの通信手段に接続されており、互いに通信されるようになっている。
第1制御装置10(本発明の制御装置の一例に相当)は、制御対象機器40を制御するためのユーザからの各種指示を受け付ける装置であって、例えば、スマートフォン、タブレット、パーソナルコンピュータ等によって実現される。なお、第1制御装置10は、このような汎用装置に限定されず、専用装置として実現されてもよい。第1制御装置10は、第1制御装置10にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである制御部、ROMやRAM等の記憶素子やハードディスクドライブなどである記憶部、ネットワークボードなどの通信インタフェースである通信部、ユーザによる操作入力を受け付ける操作部と、ユーザが発する音声を集音するマイクロホンユニットなどである集音部などを含んでいる。
第2制御装置20は、制御対象機器40を制御するための装置であって、例えば、クラウドサーバ等によって実現される。第2制御装置20は、第2制御装置20にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである制御部、ROMやRAM等の記憶素子やハードディスクドライブなどである記憶部、ネットワークボードなどの通信インタフェースである通信部などを含んでいる。
音声認識サーバ30は、音声認識処理を実行する装置であって、例えば、クラウドサーバ等によって実現される。音声認識サーバ30にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである制御部、ROMやRAM等の記憶素子やハードディスクドライブなどである記憶部、ネットワークボードなどの通信インタフェースである通信部などを含んでいる。
制御対象機器40は、ユーザが制御する対象となる機器である。制御対象機器40は、例えば、オーディオ機器またはオーディオビジュアル機器であり、ユーザからの指示に応じてコンテンツ(音声や映像)の再生等を行う。なお、制御対象機器40は、オーディオ機器またはオーディオビジュアル機器に限定されず、照明機器等他の用途に用いられる機器であってもよい。なお、図1では、2つの制御対象機器40(制御対象機器40A、制御対象機器40)が含まれているが、3つ以上の制御対象機器40が含まれていてもよいし、1つの制御対象機器40が含まれていてもよい。
図2は、第1実施形態に係る第1制御装置10と、第2制御装置20と、音声認識サーバ30とにより実行される機能の一例を示す機能ブロック図である。図2に示すように、第1実施形態に係る第1制御装置10は、機能的に、ユーザ指示取得部21と、制御音声情報生成部23と、制御音声情報出力部25と、補助音声情報記憶部26と、を含んで構成されている。これらの機能は、第1制御装置10の記憶部に記憶されたプログラムを制御部が実行することで実現される。このプログラムは、例えば光ディスク等のコンピュータ読み取り可能な各種の情報記憶媒体に格納されて提供されてもよいし、通信ネットワークを介して提供されてもよい。補助音声情報記憶部26は、第1制御装置10の記憶部により実現される。なお、補助音声情報記憶部26は、外部の記憶装置により実現されてもよい。
また、第1実施形態に係る第2制御装置20は、機能的に、制御コマンド生成部27と、機器制御部28を含んで構成されている。これらの機能は、第2制御装置20の記憶部に記憶されたプログラムを制御部が実行することで実現される。このプログラムは、例えば光ディスク等のコンピュータ読み取り可能な各種の情報記憶媒体に格納されて提供されてもよいし、通信ネットワークを介して提供されてもよい。
また、第1実施形態に係る音声認識サーバ30は、機能的に、音声認識処理部31を含んで構成されている。この機能は、音声認識サーバ30の記憶部に記憶されたプログラムを制御部が実行することで実現される。このプログラムは、例えば光ディスク等のコンピュータ読み取り可能な各種の情報記憶媒体に格納されて提供されてもよいし、通信ネットワークを介して提供されてもよい。
第1制御装置10のユーザ指示取得部21は、ユーザによるユーザ指示を取得する。具体的には、ユーザ指示取得部21は、ユーザによる制御対象機器40を制御するためのユーザ指示を取得する。第1実施形態では、ユーザが第1制御装置10の集音部に対して発話することで、ユーザ指示取得部21はユーザの発話した音声(以下、発話音声情報とする)をユーザ指示として取得する。以下、第1実施形態におけるユーザ指示は、発話音声情報として説明する。
第1制御装置10の制御音声情報生成部23は、ユーザ指示取得部21が取得したユーザ指示に応じて、制御対象機器40に対する制御内容を示す音声情報である制御音声情報を生成する。具体的には、制御音声情報生成部23は、ユーザ指示取得部21がユーザ指示を取得することで、制御対象機器40に対する制御内容を示す制御音声情報を生成する。制御音声情報は、音声認識処理が可能な音声情報から構成されており、ユーザ指示とは異なる情報である補助音声情報を含んでいる。補助音声情報は、予め補助音声情報記憶部26に記憶されている。なお、ユーザ指示取得部21がユーザ指示を取得する毎に、予め定められた補助音声情報が生成されてもよい。
ここで、一般的に、音声認識により制御対象機器40を制御するためには、ユーザは、制御対象機器40を特定する情報と、制御対象機器40の動作を示す情報と、を含むユーザ指示を出す必要がある。したがって、例えばリビングにあるオーディオ機器でプレイリスト1を再生したい場合には、ユーザは「リビングでプレイリスト1を再生」と発話することとなる。この例では、「リビングで」が制御対象機器40を特定する情報となり、「プレイリスト1を再生」が制御対象機器40の動作を示す情報となる。ここで、ユーザが常にリビングにあるオーディオ機器を使用している場合には、「リビングで」の発話を省略したり、ユーザが常にプレイリスト1を再生する場合には、「プレイリスト1を」の発話を省略したりできれば、ユーザにとって利便性が向上する。このように、ユーザ指示の少なくとも一部を省略することができれば、ユーザにとって利便性が向上する。この点、第1実施形態においては、ユーザ指示の一部を省略可能な構成としている。以下、ユーザが「リビングで」といった制御対象機器40を特定する情報の発話を省略する場合を例にして説明するが、制御対象機器40の動作を示す情報の発話を省略する場合にも同様に適用できる。
ユーザ指示の一部を省略可能にするため、第1実施形態に係る第1制御装置10の制御音声情報生成部23は、発話音声情報に、補助音声情報を付加した制御音声情報を生成している。補助音声情報は、予め補助音声情報記憶部26に記憶された音声情報である。制御音声情報生成部23は、補助音声情報記憶部26から補助音声情報を取得して発話音声情報に付加する。補助音声情報記憶部26に記憶されている補助音声情報は、予めユーザが発話した音声情報であってもよいし、予め音声合成により生成した音声情報であってもよい。例えば、ユーザが制御対象機器40を特定する情報の発話を省略する場合には、制御対象機器40を特定する音声情報(ここでは、「リビングで」とする)を補助音声情報として補助音声情報記憶部26に記憶しておく。そして、ユーザが「プレイリスト1を再生」と発話すると、発話音声情報「プレイリスト1を再生」に、補助音声情報「リビングで」が付加された制御音声情報「プレイリスト1を再生リビングで」が生成される。つまり、ユーザが発話を省略した制御対象機器40を特定する情報が、補助音声情報として発話音声情報に付加される。
ここで、補助音声情報として、「リビングで」といった制御対象機器40が設置されている場所を示す場所情報を用いているが、この例に限定されず、制御対象機器40を一意に特定できる情報であればよい。例えば、制御対象機器40を一意に識別できる機器識別情報(MACアドレス、機器番号等)や、制御対象機器40の所有者を示すユーザ情報であってもよい。
また、補助音声情報記憶部26には、複数の補助音声情報が記憶されていてもよい。具体的には、複数のユーザそれぞれに対応する複数の補助音声情報が記憶されていてもよい。この場合、制御音声情報生成部23は、ユーザ指示を行ったユーザを特定し、特定したユーザに対応する補助音声情報を取得してもよい。ユーザの特定方法としては、発話音声情報の音声認識によりユーザを特定してもよいし、ユーザにシステムへのログイン操作を行わせることでユーザを特定してもよい。
また、補助音声情報は、予め補助音声情報記憶部26に記憶されている例に限定されず、制御音声情報生成部23が、ユーザ指示に応じて音声合成により生成してもよい。この場合、ユーザ指示に応じて生成される補助音声情報が定められており、上述の例でいえば、ユーザ指示を取得すると、制御音声情報生成部23は補助音声情報「リビングで」を生成する。なお、制御音声情報生成部23が、ユーザ指示を行ったユーザを特定し、特定したユーザに対応する補助音声情報を生成してもよい。
第1制御装置10の制御音声情報出力部25は、制御音声情報生成部23が生成した制御音声情報を、音声認識処理を実行する音声認識サーバ30へ出力する。
音声認識サーバ30の音声認識処理部31は、第1制御装置10から出力された制御音声情報に対して音声認識処理を実行する。そして、音声認識処理部31は、音声認識処理を実行した認識結果を第2制御装置20へ出力する。ここで、認識結果は、制御音声情報を音声認識により文字列に変換したテキスト情報とする。なお、認識結果は、テキスト情報に限定されず、第2制御装置20がその内容を認識できる形態であればよい。
第2制御装置20の制御コマンド生成部27は、音声認識サーバ30において実行された音声認識の認識結果に基づいて、制御対象機器40と制御内容とを特定する。そして、特定した制御対象機器40を、特定した制御内容で動作させるための制御コマンドを生成する。制御コマンドは、特定した制御対象機器40で処理可能な形式で生成される。例えば、制御音声情報「プレイリスト1を再生リビングで」を音声認識して得られた認識文字列「プレイリスト1を再生リビングで」から、制御対象機器40と、制御内容とを特定する。ここで、第2制御装置20には、制御対象機器40ごとに、制御対象機器40に対応する単語(場所、機器番号、ユーザ名など)を関連付けた、関連付け情報が予め記憶されていることとする。図3は、第1実施形態に係る関連付け情報の一例を示す図である。制御コマンド生成部27は、図3に示すような関連付け情報を参照することで、認識文字列に含まれる単語から制御対象機器40を特定することができる。例えば、制御コマンド生成部27は、認識文字列に含まれる単語「リビングで」から機器Aを特定することができる。また、制御コマンド生成部27は、公知の自然言語処理を用いて、認識文字列から制御内容を特定することができる。
第2制御装置20の機器制御部28は、制御コマンドに従って制御対象機器40を制御する。具体的には、機器制御部28は、特定した制御対象機器40に対して制御コマンドを送信する。そして、制御対象機器40は、第2制御装置20から送信された制御コマンドに従って処理を実行する。なお、制御対象機器40が第2制御装置20に対して制御コマンドの取得要求を送信してもよい。そして、第2制御装置20が、取得要求に応じて制御対象機器40に対して制御コマンドを送信してもよい。
なお、音声認識サーバ30が、音声認識処理により制御対象機器40と制御内容とを特定し、特定した情報を認識結果として第2制御装置20へ出力してもよい。
第1実施形態では、音声認識サーバ30において音声認識を行うため、第1制御装置10では、ユーザ指示を取得した段階でユーザ指示の具体的内容まで把握することはできない。したがって、制御音声情報生成部23は、ユーザが発話した内容によらず、予め定められた補助音声情報を発話音声情報に付加するだけである。例えばユーザが「ベッドルームでプレイリスト1を再生」と発話した場合には、制御音声情報生成部23は、発話音声情報「ベッドルームでプレイリスト1を再生」に、補助音声情報「リビングで」を付加した制御音声情報「ベッドルームでプレイリスト1を再生リビングで」を生成することとなる。このような制御音声情報を音声認識して得られる認識文字列を解析すると、制御の対象となる制御対象機器40が複数特定されてしまい、ベッドルームの機器Bで再生するのか、リビングの機器Aで再生するのか、判別できない。そこで、制御の対象となる制御対象機器40が複数特定される場合にも1の制御対象機器40を特定できるように、発話音声情報に対して補助音声情報を付加する位置が定められていることとする。具体的には、制御音声情報生成部23は、発話音声情報の先頭または末尾に補助音声情報を付加する。そして、制御音声情報生成部23が発話音声情報の末尾に補助音声情報を付加する場合には、制御コマンド生成部27は、制御音声情報を音声認識して得られる認識文字列において、最先に出現する制御対象機器40に対応する単語から制御対象機器40を特定する。また、制御音声情報生成部23が発話音声情報の先頭に補助音声情報を付加する場合には、制御コマンド生成部27は、制御音声情報を音声認識して得られる認識文字列において、最後に出現する制御対象機器40に対応する単語から制御対象機器40を特定する。これにより、制御の対象となる制御対象機器40が複数特定される場合にも1の制御対象機器40を特定することができる。さらには、ユーザが発話した内容を優先して制御対象機器40を特定することができる。
なお、制御音声情報生成部23が発話音声情報の末尾に補助音声情報を付加する場合に、制御コマンド生成部27は、制御音声情報を音声認識して得られる文字列において、最後に出現する制御対象機器40を制御対象として特定してもよい。また、制御音声情報生成部23が発話音声情報の先頭に補助音声情報を付加する場合に、制御コマンド生成部27は、制御音声情報を音声認識して得られる文字列において、最先に出現する制御対象機器40を制御対象として特定してもよい。これにより、補助音声情報の内容を優先して制御対象機器40を特定することができる。
なお、第1制御装置10において発話音声情報の音声認識を行えてもよい。この場合、制御音声情報生成部23が、発話音声情報に対して音声認識を行うことにより、発話音声情報に制御対象機器40を特定可能な情報が含まれるか否かを判断する判断部を含んでいてもよい。そして、発話音声情報に制御対象機器40を特定可能な情報が含まれないと判断された場合に、制御音声情報生成部23は、発話音声情報に補助音声情報を付加して制御音声情報を生成してもよい。これにより、制御音声情報を音声認識して得られる認識文字列の解析において、制御対象となる制御対象機器40が複数特定されることを防ぐことができる。
ここで、第1実施形態に係る機器制御システム1が実行する処理の一例を図4のシーケンス図を用いて説明する。
第1制御装置10のユーザ指示取得部21は、ユーザからのユーザ指示(第1実施形態においては発話音声情報)を取得する(S101)。
第1制御装置10の制御音声情報生成部23は、S101において取得したユーザ指示に応じて制御音声情報を生成する(S102)。第1実施形態においては、S101において取得した発話音声情報に、補助音声情報を付加した制御音声情報を生成する。
第1制御装置10の制御音声情報出力部25は、S102において生成された制御音声情報を音声認識サーバ30へ出力する(S103)。
音声認識サーバ30の音声認識処理部31は、第1制御装置10から出力された制御音声情報に対して音声認識処理を実行し、その認識結果を第2制御装置20へ出力する(S104)。
第2制御装置20の制御コマンド生成部27は、音声認識サーバ30から出力された認識結果に基づいて、制御対象となる制御対象機器40を特定し、当該制御対象機器40を動作させるための制御コマンドを生成する(S105)。
第2制御装置20の機器制御部28は、S105において生成された制御コマンドを、特定した制御対象機器40に対して送信する(S106)。
制御対象機器40は、第2制御装置20から送信された制御コマンドに従って処理を実行する(S107)。
[第2実施形態]
第2実施形態では、ユーザ指示取得部21が、ユーザによる操作部に対する操作をユーザ指示として受け付ける場合について説明する。第2実施形態に係る機器制御システム1の全体構成は、図1に示した第1実施形態に係る構成と同一であるため、重複する説明は省略する。
図5は、第2実施形態の第1の例に係る第1制御装置10と、第2制御装置20と、音声認識サーバ30と、により実行される機能の一例を示す機能ブロック図である。第2実施形態の第1の例に係る機能ブロック図は、図2に示した第1実施形態に係る機能ブロック図とは、第1制御装置10の構成に差異がある点を除けば、同一のものである。従って、第1実施形態と同等の構成には同符号を付し、重複する説明は省略する。
第2実施形態の第1の例では、ユーザ指示取得部21は、ユーザが第1制御装置10の操作部に対して操作を行うことで、ユーザによる操作部に対する操作を示す情報(以下、操作指示情報)をユーザ指示として受け付ける。以下、第2実施形態におけるユーザ指示は、操作指示情報として説明する。例えば、第1制御装置10の操作部として1以上のボタンが設けられている場合は、ユーザがいずれかのボタンを押下することで、ユーザ指示取得部21が押下されたボタンを示す操作指示情報を受け付ける。なお、第1制御装置10の操作部はボタンに限定されず、表示部に備えられるタッチパネルであってもよい。また、第1制御装置10とは別体の携帯機器(例えば、スマートフォンとする)を用いて第1制御装置10を遠隔操作してもよい。この場合は、スマートフォンでアプリケーションを実行することにより、図6に示すように操作指示画面60が表示部に表示される。図6は、第1制御装置10の表示部に表示される操作指示画面60の一例を示す図である。操作指示画面60は、ユーザからの操作を受け付ける項目画像62(例えば、プリセット1、プリセット2、プリセット3)を含んでいる。項目画像62は、第1制御装置10のボタンに対応付けられている。そして、ユーザが、項目画像62に対してタップ等の操作を行うことで、ユーザ指示取得部21が操作対象となった項目画像62を示す操作指示情報を受け付ける。なお、第1制御装置10が表示を有する装置(例えば、スマートフォン)の場合は、図6に示したような操作指示画面60を用いて、ユーザが操作を行えばよい。
第2実施形態の第1の例では、制御音声情報生成部23は、操作指示情報に対応し、予め記憶部に記憶されている補助音声情報に基づいて制御音声情報を生成する。図7は、第2実施形態に係る補助音声情報記憶部26の一例を示す図である。第2実施形態に係る補助音声情報記憶部26では、図7に示すように、操作指示情報と、補助音声情報と、が対応付けられて管理されている。制御音声情報生成部23は、図7に示す補助音声情報記憶部26から、ユーザ指示取得部21が取得した操作指示情報に対応付けられている補助音声情報を取得して制御音声情報を生成する。言い換えれば、制御音声情報生成部23は、ユーザ指示取得部21が取得した操作指示情報に対応付けられている補助音声情報を制御音声情報とする。なお、制御音声情報生成部23は、操作指示情報に対応付けられている補助音声情報を再生して再度録音したものを制御音声情報として生成してもよい。このように、制御音声情報生成部23が予め記憶されている補助音声情報をそのまま制御音声情報とすることで、ユーザの発話がなくても音声認識サーバ30を用いた音声認識による機器制御を行うことが可能となる。
図5において補助音声情報は、第1制御装置10の補助音声情報記憶部26に記憶されているが、この例に限定されず、補助音声情報は、第1制御装置10とは別体の携帯機器(スマートフォン等)に記憶されてもよい。補助音声情報が携帯機器に記憶されている場合は、携帯機器から第1制御装置10へ補助音声情報を送信し、第1制御装置10が受信した補助音声情報を制御音声情報として音声認識サーバ30へ出力すればよい。また、補助音声情報は、他のクラウドサーバに記憶されてもよい。補助音声情報が他のクラウドサーバに記憶されている場合も、第1制御装置10がクラウドサーバから補助音声情報を取得してから、音声認識サーバ30へ出力すればよい。
第1制御装置10の制御音声情報出力部25は、制御音声情報生成部23が生成した制御音声情報を、音声認識処理を実行する音声認識サーバ30へ出力する。第2実施形態では、第1制御装置10は、制御音声情報出力部25が出力した制御音声情報が示す音声情報を履歴情報記憶部29に保持しておく。第1制御装置10は、制御音声情報を出力した時刻に対応付けて制御音声情報が示す音声情報を保持することで、制御音声情報の使用履歴を示す履歴情報を生成する。なお、制御音声情報出力部25が出力した制御音声情報のうち、音声認識サーバ30の音声認識処理部31で音声認識処理が成功した制御音声情報を履歴情報として保持してもよい。これにより音声認識処理が成功する音声情報のみを履歴情報として保持しておくことができる。
ここで、第1制御装置10の制御音声情報生成部23は、履歴情報に保持されている音声情報に基づいて制御音声情報を生成してもよい。例えば、スマートフォン等の表示部に履歴情報を表示し、ユーザが履歴情報のいずれかを選択することで、第1制御装置10のユーザ指示取得部21が選択された履歴情報を操作指示情報として取得してもよい。そして、第1制御装置10の制御音声情報生成部23は、履歴情報記憶部29からユーザが選択した履歴情報に対応する音声情報を取得して制御音声情報を生成してもよい。履歴情報から制御音声情報を生成することで、一度音声認識処理が成功した音声情報を制御音声情報とすることができるため、音声認識処理の失敗が生じにくくなる。
図7に示す補助音声情報記憶部26で管理される補助音声情報は、第1制御装置10の補助音声情報登録部15により登録される。具体的には、補助音声情報登録部15は、第1制御装置10に設けられているボタンに対応付けて補助音声情報を登録する。ボタンが複数ある場合は、複数のボタンそれぞれに対応付けて補助音声情報を登録する。例えば、ユーザが第1制御装置10のボタンを長押しし、当該ボタンに登録したい制御内容を発話することで、補助音声情報登録部15が、当該ボタンを示す情報(例えば、プリセット1)と、発話した制御内容を示す音声情報(例えば、「リビングでプレイリスト1を再生」)とを対応付けて補助音声情報記憶部26に登録する。ここで、プリセット1に既に補助音声情報が対応付けられている場合は、補助音声情報登録部15は、最新の補助音声情報で上書きして登録する。また、ユーザが第1制御装置10のボタンを長押しすることで履歴情報を呼び出してもよい。そして、ユーザが履歴情報から音声情報を選択することで、補助音声情報登録部15が、当該ボタンを示す情報と、履歴情報から選択した音声情報とを対応付けて補助音声情報記憶部26に登録してもよい。また、第1制御装置10と相互に通信可能な第1制御装置10とは別体の携帯機器(スマートフォン等)を用いて、第1制御装置10に設けられているボタンに対応付けて補助音声情報を登録してもよい。
また、補助音声情報登録部15は、履歴情報から補助音声情報を登録してもよい。具体的には、履歴情報を参照し、ユーザが登録したい音声情報を選択した後に、対応付ける操作指示情報を選択することで、補助音声情報登録部15が、当該操作指示情報と履歴情報から選択した音声情報とを対応付けて補助音声情報記憶部26に登録してもよい。
また、第1制御装置10をスマートフォン等により遠隔操作する場合や、第1制御装置10がスマートフォン等である場合は、スマートフォンで実行するアプリケーション上で登録を行うことができる。例えば、図5に示した操作指示画面において、ユーザが項目画像を長押しし、当該項目画像に登録したい制御内容を発話することで、補助音声情報登録部15が、当該項目画像を示す情報(例えば、プリセット2)と、発話した制御内容を示す音声情報(例えば、「ベッドルームで電源OFF」)とを対応付けて補助音声情報記憶部26に登録する。ここで、プリセット2に既に補助音声情報が対応付けられている場合は、補助音声情報登録部15は、最新の補助音声情報を上書きして登録する。また、ユーザが項目画像を長押しすることで履歴情報を呼び出してもよい。そして、ユーザが履歴情報から音声情報を選択することで、補助音声情報登録部15が、当該項目画像を示す情報と、履歴情報から選択した音声情報とを対応付けて補助音声情報記憶部26に登録してもよい。また、図6に示した操作指示画面における項目画像の名称(プリセット1、プリセット2、プリセット3)は、ユーザが任意に変更することができる。また名称を変更する際に、登録されている音声情報を再生させ内容を聞いて確認しながら名称を変更しても良い。
次に、第2実施形態の第2の例では、第1制御装置10は制御音声情報生成部23を含まない。図8は、第2実施形態の第2の例に係る第1制御装置10と、第2制御装置20と、音声認識サーバ30と、により実行される機能の一例を示す機能ブロック図である。第2実施形態の第2の例に係る機能ブロック図は、図5に示した第2実施形態の第1の例に係る機能ブロック図とは、第1制御装置10の構成に差異がある点を除けば、同一のものである。従って、第2実施形態の第1の例と同等の構成には同符号を付し、重複する説明は省略する。
第2実施形態の第2の例では、第1制御装置10の制御音声情報出力部25は、補助音声情報記憶部26から、ユーザ指示取得部21が取得した操作指示情報に対応付けられている補助音声情報を取得する。そして、制御音声情報出力部25は、補助音声情報記憶部26から取得した補助音声情報を音声認識サーバ30へ出力する。つまり、制御音声情報出力部25は、補助音声情報記憶部26に記憶されている補助音声情報をそのまま制御音声情報として音声認識サーバ30へ出力する。また、制御音声情報出力部25は、履歴情報記憶部29から取得した音声情報をそのまま制御音声情報として音声認識サーバ30へ出力してもよい。このように、制御音声情報出力部25が予め記憶されている補助音声情報をそのまま制御音声情報として出力することで、ユーザの発話がなくても音声認識サーバ30を用いた音声認識による機器制御を行うことが可能となる。
ここで、第2実施形態の第2の例に係る機器制御システム1が実行する処理の一例を図9のシーケンス図を用いて説明する。
第1制御装置10の補助音声情報登録部15は、補助音声情報を補助音声情報記憶部26に登録する(S201)。
第1制御装置10のユーザ指示取得部21は、ユーザからのユーザ指示(第2実施形態においては操作指示情報)を取得する(S202)。
第1制御装置10の制御音声情報出力部25は、補助音声情報記憶部26から、S202において取得した操作指示情報に対応する補助音声情報を取得して、音声認識サーバ30へ出力する(S203)。
音声認識サーバ30の音声認識処理部31は、第1制御装置10から出力された制御音声情報に対して音声認識処理を実行し、その認識結果を第2制御装置20へ出力する(S204)。
第2制御装置20の制御コマンド生成部27は、音声認識サーバ30から出力された認識結果に基づいて、制御対象となる制御対象機器40を特定し、当該制御対象機器40を動作させるための制御コマンドを生成する(S205)。
第2制御装置20の機器制御部28は、S105において生成された制御コマンドを、特定した制御対象機器40に対して送信する(S206)。
制御対象機器40は、第2制御装置20から送信された制御コマンドに従って処理を実行する(S207)。
このように、第2実施形態では、第1制御装置10の操作部、アプリケーションの項目画像といった操作指示情報に対応付けて補助音声情報を予め登録しておくことで、ユーザはボタン操作をするだけで発話することなく制御対象機器40を制御することが可能となる。これにより、ノイズの多い環境、声を発することができない環境や、制御対象機器40が遠くにある場合でも、音声認識サーバを用いた音声認識による機器制御を実行することができる。
特に、クラウドサーバである第2制御装置20および音声認識サーバ30を介して、第1制御装置10とは異なる機器に対する制御を行う場合や、タイマー制御、スケジュールが定められた制御を行う場合に、予め登録した補助音声情報を用いて制御することは有効である。第2制御装置20および音声認識サーバ30を介して機器を制御する場合、制御コマンドは第2制御装置20から対象の機器に対してだけ送信されるため、第1制御装置10は自装置とは異なる機器に対する制御コマンドを保持することができない。したがって、第1制御装置10から自装置とは異なる機器を制御する場合には、制御コマンドを用いた制御をすることができないため、登録した補助音声情報を用いて制御することが有効である。
また、タイマー制御を行う場合や、スケジュールが定められた制御を行う場合には、制御指示が複雑になるため登録した補助音声情報を用いて制御することが有効である。例えば、「部屋の明かりをオフしてから、30分後にテレビの電源ONにして、チャンネルを2chに変更し、徐々に音量をあげる」といった時間情報が対応付けられた複数の動作を示す情報を含むユーザ指示(スケジュールが定められたユーザ指示)を、第1制御装置10が1つの制御コマンドとして出力することは難しい。ここで、複数の動作は、1の制御対象機器40における動作であってもよいし、複数の制御対象機器40における動作であってもよい。しかし、第2制御装置20および音声認識サーバ30では、上述のようなスケジュールが定められたユーザ指示を音声情報として取得すれば、音声認識処理を実行することにより、定められたスケジュールに従って制御コマンドを各機器に送信することができる。したがって、時間情報が対応付けられた複数の動作を示す情報を含み、スケジュールが定められた制御を示す補助音声情報を予め登録しておくことで、本来第1制御装置10からは指示できないような複雑なユーザ指示を容易に行うことが可能となる。
また、第2制御装置20または音声認識サーバ30の機能を指定するようなユーザ指示(例えば、「天気に応じた音楽を再生する」)も、第1制御装置10が制御コマンドとして出力することは難しいため、補助音声情報として予め登録しておくことが有効である。
また、複雑な制御指示であっても、ユーザは発話するだけで補助音声情報として登録することができるのでユーザにとって利便性が高い。そして、登録された補助音声情報は、再生するだけでその制御内容を確認することができるので、制御内容の表示が難しい制御コマンドと比較してユーザにとって利便性が高い。
なお、本発明は、上述の実施形態に限定されるものではない。
例えば、第1実施形態において、第1制御装置10は、ローカルサーバやクラウドサーバとして実現されてもよい。この場合、第1制御装置10とは別体の、ユーザ指示を受け付ける受付装置50が用いられる。図8は、第1実施形態に係る第1制御装置10と、第2制御装置20と、音声認識サーバ30と、受付装置50とにより実行される機能の一例を示す機能ブロック図である。図8に示すように、受付装置50は、ユーザからのユーザ指示を受け付けるユーザ指示受付部51を含んで構成されている。ユーザ指示受付部51が、ユーザによるユーザ指示を受け付けると、ユーザ指示は第1制御装置10へ送信される。第1制御装置10のユーザ指示取得部21は、受付装置50から送信されたユーザ指示を取得する。
また、第2実施形態において、第1制御装置10は、ローカルサーバやクラウドサーバとして実現されてもよい。この場合、第1制御装置10とは別体の、ユーザ指示を受け付ける受付装置50が用いられる。図9は、第2実施形態に係る第1制御装置10と、第2制御装置20と、音声認識サーバ30と、受付装置50とにより実行される機能の一例を示す機能ブロック図である。図9に示すように、受付装置50は、ユーザからのユーザ指示を受け付けるユーザ指示受付部51と、補助音声情報登録部15とを含んで構成されている。ユーザ指示受付部51が、ユーザによるユーザ指示を受け付けると、ユーザ指示は第1制御装置10へ送信される。第1制御装置10のユーザ指示取得部21は、受付装置50から送信されたユーザ指示を取得する。
また、上述の第1実施形態および第2実施形態では、第2制御装置20と音声認識サーバ30とが別体の装置である例を示したが、第2制御装置20と音声認識サーバ30とが一体の装置であってもよい。
また、上述の第1実施形態では、制御対象機器40を特定する情報や、制御対象機器40の動作を示す情報を補助音声情報としたが、この例に限定されない。例えば、補助音声情報は、ユーザが発話した方向を示す角度情報や、ユーザを識別するためのユーザ識別情報等であってもよい。そして、ユーザが発話下方向を示す角度情報を付加した制御音声情報が生成された場合は、当該角度情報に基づいて制御対象機器40を制御することができる。例えば、制御対象機器40に備えられるスピーカを角度情報に基づいてユーザが発話した方向に向けることができる。ユーザ識別情報を付加した制御音声情報が生成された場合は、ユーザ識別情報の音声認識結果に応じて制御対象機器40を制御することができる。例えば、ユーザ識別情報によりユーザ識別が成功した場合は、制御対象機器40にユーザ識別が成功したユーザ名を表示したり、ユーザ識別が成功したことを示すLED点灯をしたりすることができる。

Claims (13)

  1. ユーザによる制御対象機器を制御するためのユーザ指示を取得するユーザ指示取得部と、
    前記ユーザ指示に応じて、前記制御対象機器に対する制御内容を示す音声情報であって、前記ユーザ指示とは異なる情報である補助音声情報を含む、制御音声情報を生成する制御音声情報生成部と、
    前記生成した制御音声情報を、音声認識処理を実行する音声認識サーバへ出力する制御音声情報出力部と、
    を含む制御装置。
  2. 前記ユーザ指示は、前記ユーザが発話した音声である発話音声情報であり、
    前記制御音声情報生成部は、前記発話音声情報に前記補助音声情報を付加した前記制御音声情報を生成する、
    請求項1に記載の制御装置。
  3. 前記制御音声情報は、前記発話音声情報の先頭または末尾に前記補助音声情報を付加して生成される、
    請求項2に記載の制御装置。
  4. 前記発話音声情報に前記制御対象機器を特定可能な情報が含まれるか否かを判断する判断部、をさらに含み、
    前記判断部が前記発話音声情報に前記制御対象機器を特定可能な情報が含まれないと判断した場合に、前記生成部は前記発話音声情報に前記補助音声情報を付加した前記制御音声情報を生成する、
    請求項2または3に記載の制御装置。
  5. 前記補助音声情報は、前記制御対象機器を一意に特定する情報である、
    請求項1から4のいずれか一項に記載の制御装置。
  6. 前記補助音声情報は、前記制御対象機器の動作を示す情報である、
    請求項1から4のいずれか一項に記載の制御装置。
  7. 前記ユーザ指示は、前記ユーザによる操作部に対する操作を示す操作指示情報であり、
    前記制御音声情報生成部は、前記操作指示情報に対応し、予め記憶部に記憶されている前記補助音声情報に基づいて前記制御音声情報を生成する、
    請求項1に記載の制御装置。
  8. 前記操作指示情報と、前記補助音声情報とを対応付けて前記記憶部に登録する補助音声情報登録部、をさらに含む、
    請求項7に記載の制御装置。
  9. 制御音声情報出力部が出力した制御音声情報を示す音声情報を保持する履歴情報記憶部、をさらに含み、
    前記制御音声情報生成部は、前記履歴情報記憶部に保持されている音声情報に基づいて前記制御音声情報を生成する、
    請求項7に記載の制御装置。
  10. 前記補助音声情報は、時間情報が対応付けられた複数の動作を示す情報を含む、
    請求項7から9のいずれか一項に記載の制御装置。
  11. 前記制御音声情報が音声認識処理されることにより得られた制御コマンドに従って前記制御対象機器を制御する機器制御部、をさらに含む、
    請求項1から8のいずれか一項に記載の制御装置。
  12. 前記制御対象機器は、オーディオ機器である、
    請求項1から11のいずれか一項に記載の制御装置。
  13. 第1制御装置と、第2制御装置と、制御対象機器と、を含む機器制御システムであって、
    前記第1制御装置は、
    ユーザによる前記制御対象機器を制御するためのユーザ指示を取得するユーザ指示取得部と、
    前記ユーザ指示に応じて、前記制御対象機器に対する制御内容を示す音声情報であって、前記ユーザ指示とは異なる情報である補助音声情報を含む、制御音声情報を生成する制御音声情報生成部と、
    前記生成した制御音声情報を、音声認識処理を実行する音声認識サーバへ出力する制御音声情報出力部と、を含み、
    前記第2制御装置は、
    前記音声認識サーバで実行された音声認識処理の認識結果に基づいて、前記制御対象機器を動作させるための制御コマンドを生成する制御コマンド生成部と、
    前記制御コマンドに従って前記制御対象機器を制御する機器制御部と、を含む、
    機器制御システム。
JP2018553628A 2016-12-02 2016-12-02 制御装置および機器制御システム Active JP6725006B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/085976 WO2018100743A1 (ja) 2016-12-02 2016-12-02 制御装置および機器制御システム

Publications (2)

Publication Number Publication Date
JPWO2018100743A1 true JPWO2018100743A1 (ja) 2019-08-08
JP6725006B2 JP6725006B2 (ja) 2020-07-15

Family

ID=62242023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018553628A Active JP6725006B2 (ja) 2016-12-02 2016-12-02 制御装置および機器制御システム

Country Status (3)

Country Link
US (1) US20180182399A1 (ja)
JP (1) JP6725006B2 (ja)
WO (1) WO2018100743A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018101459A1 (ja) 2016-12-02 2018-06-07 ヤマハ株式会社 コンテンツ再生機器、収音機器、及びコンテンツ再生システム
KR102471493B1 (ko) * 2017-10-17 2022-11-29 삼성전자주식회사 전자 장치 및 음성 인식 방법
JP6962158B2 (ja) 2017-12-01 2021-11-05 ヤマハ株式会社 機器制御システム、機器制御方法、及びプログラム
JP7192208B2 (ja) * 2017-12-01 2022-12-20 ヤマハ株式会社 機器制御システム、デバイス、プログラム、及び機器制御方法
JP7067082B2 (ja) 2018-01-24 2022-05-16 ヤマハ株式会社 機器制御システム、機器制御方法、及びプログラム
US10803864B2 (en) 2018-05-07 2020-10-13 Spotify Ab Voice recognition system for use with a personal media streaming appliance
US11308947B2 (en) * 2018-05-07 2022-04-19 Spotify Ab Voice recognition system for use with a personal media streaming appliance
CN110956960A (zh) * 2018-09-27 2020-04-03 中强光电股份有限公司 智能语音系统及利用智能语音系统控制投影机的方法
JP2022028094A (ja) * 2018-12-21 2022-02-15 ソニーグループ株式会社 情報処理装置、制御方法、情報処理端末、情報処理方法
US11869494B2 (en) * 2019-01-10 2024-01-09 International Business Machines Corporation Vowel based generation of phonetically distinguishable words

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53166306U (ja) * 1978-06-08 1978-12-26
JPH01318444A (ja) * 1988-06-20 1989-12-22 Canon Inc 自動ダイヤル装置
JP2002315069A (ja) * 2001-04-17 2002-10-25 Misawa Homes Co Ltd 遠隔制御装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7995768B2 (en) * 2005-01-27 2011-08-09 Yamaha Corporation Sound reinforcement system
CN101268715B (zh) * 2005-11-02 2012-04-18 雅马哈株式会社 电话会议装置
US20110054894A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application
US8290780B2 (en) * 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
US20130089300A1 (en) * 2011-10-05 2013-04-11 General Instrument Corporation Method and Apparatus for Providing Voice Metadata
CN103077165A (zh) * 2012-12-31 2013-05-01 威盛电子股份有限公司 自然语言对话方法及其系统
CN103020047A (zh) * 2012-12-31 2013-04-03 威盛电子股份有限公司 修正语音应答的方法及自然语言对话系统
US9779752B2 (en) * 2014-10-31 2017-10-03 At&T Intellectual Property I, L.P. Acoustic enhancement by leveraging metadata to mitigate the impact of noisy environments
US10509626B2 (en) * 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53166306U (ja) * 1978-06-08 1978-12-26
JPH01318444A (ja) * 1988-06-20 1989-12-22 Canon Inc 自動ダイヤル装置
JP2002315069A (ja) * 2001-04-17 2002-10-25 Misawa Homes Co Ltd 遠隔制御装置

Also Published As

Publication number Publication date
WO2018100743A1 (ja) 2018-06-07
US20180182399A1 (en) 2018-06-28
JP6725006B2 (ja) 2020-07-15

Similar Documents

Publication Publication Date Title
WO2018100743A1 (ja) 制御装置および機器制御システム
US11527243B1 (en) Signal processing based on audio context
KR102304052B1 (ko) 디스플레이 장치 및 그의 동작 방법
US8117036B2 (en) Non-disruptive side conversation information retrieval
JP6482911B2 (ja) 機器制御方法および電気機器
JP5134876B2 (ja) 音声通信装置及び音声通信方法並びにプログラム
JP6440346B2 (ja) ディスプレイ装置、電子装置、対話型システム及びそれらの制御方法
JP2018106148A (ja) 多重話者音声認識修正システム
KR20140089863A (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
JP2014093778A (ja) 放送受信装置、サーバおよびその制御方法
JP6716300B2 (ja) 議事録生成装置、及び議事録生成プログラム
JP7406874B2 (ja) 電子機器、その制御方法、およびそのプログラム
US10002611B1 (en) Asynchronous audio messaging
JP6832503B2 (ja) 情報提示方法、情報提示プログラム及び情報提示システム
WO2016103465A1 (ja) 音声認識システム
WO2018020828A1 (ja) 翻訳装置および翻訳システム
JP2020064300A (ja) 備忘録作成システム、備忘録作成方法、および備忘録作成システムのログ管理サーバのプログラム
JP2005241971A (ja) プロジェクタシステム、マイク装置、プロジェクタ制御装置およびプロジェクタ
JP2003215707A (ja) プレゼンテーションシステム
JP2020061046A (ja) 音声操作装置、音声操作方法、コンピュータプログラムおよび音声操作システム
JP2019179081A (ja) 会議支援装置、会議支援制御方法およびプログラム
KR102089593B1 (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
JP7489232B2 (ja) 情報処理システム、情報処理方法、及び情報処理プログラム
KR101715381B1 (ko) 전자장치 및 그 제어방법
JP7471979B2 (ja) 会議支援システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200608

R151 Written notification of patent or utility model registration

Ref document number: 6725006

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532