JPWO2018207483A1 - 情報処理装置、電子機器、制御方法、および制御プログラム - Google Patents

情報処理装置、電子機器、制御方法、および制御プログラム Download PDF

Info

Publication number
JPWO2018207483A1
JPWO2018207483A1 JP2019517487A JP2019517487A JPWO2018207483A1 JP WO2018207483 A1 JPWO2018207483 A1 JP WO2018207483A1 JP 2019517487 A JP2019517487 A JP 2019517487A JP 2019517487 A JP2019517487 A JP 2019517487A JP WO2018207483 A1 JPWO2018207483 A1 JP WO2018207483A1
Authority
JP
Japan
Prior art keywords
sound
noise
detection
unit
determination unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019517487A
Other languages
English (en)
Inventor
佐藤 義雄
義雄 佐藤
善朗 石川
善朗 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JPWO2018207483A1 publication Critical patent/JPWO2018207483A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/01Noise reduction using microphones having different directional characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Manipulator (AREA)
  • Toys (AREA)

Abstract

誤動作による応答を防止する。制御部(10)は、複数のマイク(30)から検出音をそれぞれ区別して取得する音声取得部(11)と、検出音それぞれについて、該検出音から発話内容を認識できなかった場合、検出音がノイズであると判定するノイズ判定部(14)と、ノイズであると判定された場合、1つ以上のマイク(30)による音の検出を停止させる検出制御部(17)と、を備える。

Description

本発明は、発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置等に関する。
近年、センサまたはマイク等で発話を検出し、該発話の内容に応じた応答(例えば、所定の動作またはメッセージ)を出力する情報処理装置が種々開発されている。
このような情報処理装置に係る技術として、ユーザの発話以外で誤動作することを防ぐための技術が開示されている。例えば、特許文献1には、使用者からの所定の合図を検出した場合に音声入力の受け付けを開始し、音声入力された音声の意味が予め登録された命令に一致した場合、エアコンを操作する等の所定の動作を行う操作装置が開示されている。
日本国公開特許公報「特開2007−121579号公報(公開日:2007年05月17日)」
しかしながら、特許文献1に記載の操作装置の技術を用いた上で、より多くの音声による命令を受け付けられるようにした場合に、思わぬ誤動作が生じる虞がある。
例えば、ユーザと対話する対話ロボット等では、非常に多種類の発話内容に対し、多岐にわたる応答を返すこととなる。このように、発話内容に応じてより細やかな応答を返そうとするほど、例えばテレビ番組の音等の環境音を、ユーザの発話であると誤検出してしまう可能性が増す。
本発明の一態様は、上述の問題点に鑑みたものであり、誤動作による応答を防止する情報処理装置等を実現することを目的とする。
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置であって、複数のマイクから検出音をそれぞれ区別して取得する音声取得部と、上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定部と、上記ノイズ判定部により上記検出音がノイズであると判定された場合、上記複数のマイクのうち、1つ以上のマイクによる音の検出を停止させる検出制御部と、を備えることを特徴とする。
上記の課題を解決するために、本発明の一態様に係る情報処理装置の制御方法は、発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置の制御方法であって、複数のマイクから検出音をそれぞれ区別して取得する音声取得ステップと、上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定ステップと、上記ノイズ判定ステップにおいて上記検出音がノイズであると判定された場合、上記複数のマイクのうち、1つ以上のマイクによる音の検出を停止させる検出制御ステップと、を含むことを特徴とする。
本発明の一態様によれば、誤動作による応答を防止することができる。
本発明の実施形態1に係る対話ロボットの要部構成を示すブロック図である。 上記対話ロボットの動作例を示す図である。 上記対話ロボットの処理の流れの一例を示すフローチャートである。 本発明の実施形態2に係る対話ロボットの要部構成を示すブロック図である。 上記対話ロボットの動作例を示す図である。 上記対話ロボットの処理の流れの一例を示すフローチャートである。
〔実施形態1〕
本開示の実施形態1において、図1〜3を用いて説明する。図1は、本実施形態に係る対話ロボット1の要部構成を示すブロック図である。対話ロボット1は、ユーザの発話内容を認識して、該発話内容に対応する応答を出力する電子機器である。ここで、「応答」とは、音声、動作、光、またはこれらの組み合わせで示される、対話ロボット1の、発話に対する反応を意味する。本実施形態では一例として、対話ロボット1がスピーカ40(後述)から発話内容に対する応答を音声出力する場合について説明する。対話ロボット1は図示の通り、記憶部20と、マイク30と、スピーカ(出力部)40と、制御部(情報処理装置)10とを備える。
記憶部20は、制御部10が実行する処理に必要なデータを格納するメモリである。記憶部20は少なくとも、応答文テーブル21を含む。応答文テーブル21は、所定の文またはキーワードに、応答内容が対応付けて記憶されたデータテーブルである。本実施形態では、応答内容として、上記文またはキーワードに対する回答となるメッセージの文字列を記憶しておくこととする。
マイク30は、音を検出する入力装置である。マイク30は、その種類は問わないが、後述する方向特定部12で、検出音の方向を特定できる程度の検出精度および指向性を有している。マイク30は、後述する検出制御部17により音検出の開始および停止が制御される。対話ロボット1は、マイク30を複数個備えている。さらに言えば、対話ロボット1には、複数個のマイク30が、それぞれ異なる方向に向けて配置されていることが望ましい。これにより、後述する方向特定部12による検出音の方向特定の精度を向上させることができる。
スピーカ40は、後述する出力制御部16の制御に従って、応答内容であるメッセージを音声出力するものである。対話ロボット1はスピーカ40を複数備えていてもよい。
制御部10は、対話ロボット1を統括的に制御するCPU(Central Processing Unit)である。制御部10は、機能ブロックとして、音声取得部11と、ノイズ判定部14と、応答決定部15と、出力制御部16と、検出制御部17を含む。
音声取得部11は、マイク30の検出音を取得するものである。音声取得部11は、複数のマイク30からそれぞれの検出音を区別して取得する。また、音声取得部11は、各マイク30の検出音を任意の長さで区切って、複数回にわたり取得する。音声取得部11は方向特定部12および文字列変換部13を含む。
方向特定部12は、マイク30の検出音が発せられた方向を特定するものである。方向特定部12は、複数のマイク30の検出音から検出音の発生方向を総合的に特定してもよい。方向特定部12は特定した検出音の方向を示す情報をノイズ判定部14に送る。
文字列変換部13は、マイク30の検出音を文字列に変換するものである。文字列変換部13は、変換した文字列を応答決定部15に送る。なお、文字列変換部13は、例えば検出音が言語でない場合等、検出音を文字列に変換できなかった場合、変換不能である旨をノイズ判定部14に通知する。
文字列変換部13は各検出音それぞれについて文字列への変換可否を判定する。そして、文字列に変換できた検出音については該文字列を応答決定部15に送信し、文字列に変換できなかった検出音については、変換不能である旨の通知をノイズ判定部14に送信する。もしくは、文字列変換部13は複数の検出音のいずれか1つ(例えば、最も入力の大きい検出音)について文字列への変換可否を判定し、変換可能な場合は文字列を応答決定部15に送信し、不可能な場合は変換不能な旨の通知をノイズ判定部14に送信してもよい。
ノイズ判定部14は、マイク30の検出音がノイズであるか否かを判定するものである。ノイズ判定部14は、文字列変換部13から変換不能の旨の通知を取得した場合、すなわち、文字列変換部13において発話内容を認識できなかった場合、マイク30の検出音がノイズであると判定する。検出音がノイズであると判定した場合、ノイズ判定部14は、1つ以上のマイク30による音の検出を停止させる旨の指示(OFF指示)を、検出制御部17に送信する。
なお、ノイズ判定部14は、検出音がノイズであると判定した場合、方向特定部12から取得した検出音の方向を示す情報と、対話ロボット1におけるマイク30の配置および指向性とから、音の検出を停止させるマイク30を1つ以上決定してもよい。この場合、ノイズ判定部14は、OFF指示において停止させるマイク30を指定してもよい。
なお、ノイズ判定部14は、所定期間内に所定の回数(例えば、2回)連続して変換不能の旨の通知を受信した場合に、マイク30の検出音がノイズであると判定してもよい。この場合、ノイズ判定部14は最初に発話内容を認識できなかった時点では、OFF指示を送信しなくてよい。
応答決定部15は、応答指示に応じて、文字列に対応する応答を決定するものである。応答決定部15は文字列変換部13から文字列を受信すると、記憶部20の応答文テーブル21を参照し、該文字列に含まれる文またはキーワードに対応する応答内容(メッセージ)を検索する。応答決定部15は検索結果で得られたメッセージの中から1つ以上のメッセージを出力メッセージとして決定し、出力制御部16に送る。
出力制御部16は、応答決定部15から受信した出力メッセージをスピーカ40に出力させる。
検出制御部17は、ノイズ判定部14からのOFF指示に従って、該指示によりノイズ判定部14が指定するマイク30の音の検出を停止させる。なお、検出制御部17は所定時間が経過した後、またはノイズ判定部14からマイク30の音の検出を開始させる指示(ON指示)を受信した場合に、マイク30の音の検出を再開させてもよい。
次に、対話ロボット1の具体的な動作について、図2を用いて説明する。図2は、対話ロボット1の動作例を示す図である。図2では一例として、対話ロボット1の筐体の左右方向にそれぞれ1つずつマイク30が配置されており、かつ右側のマイク30がテレビのノイズまたはBGMを検出した場合について説明する。また、以降の説明では、ノイズ判定部14は2回連続して発話内容を認識できなかった場合に、検出音をノイズと判定することとする。
対話ロボット1の右側のマイク30がテレビ番組のノイズまたはBGMを検出すると(図2の(a))、制御部10の音声取得部11はこれを取得し、文字列変換部13は検出音の文字列への変換を試みる。ノイズまたはBGMは言語として認識できないため、文字列変換部13は変換不能の旨をノイズ判定部14に通知する。この場合、応答決定部15は文字列を取得しないため応答を決定せず、よって対話ロボット1は応答しない(図2の(b))。
次に、右側のマイク30が再度テレビのノイズまたはBGMを検出したとする(図2の(c))。この場合、音声取得部11の文字列変換部13は変換不能の旨を再度ノイズ判定部14および応答決定部15に通知する。ノイズ判定部14は同じマイクからの検出音について、2回連続で発話内容を認識できなかったため、検出音をノイズであると判定する。ノイズ判定部14は、方向特定部12から受信した方向を示す情報に基づき、検出音の発生方向に向いたマイク30(本例では、右側のマイク30)を特定する。ノイズ判定部14は検出制御部17に、特定した右側のマイク30を指定してOFF指示を送信する。検出制御部17は右側のマイク30を停止させる(図2の(d))。
以降、テレビのある方向の音を検出する右側のマイク30は停止しているため、対話ロボット1はテレビからの音自体を検知しない状態になる(図2の(e))。
なお、ノイズ判定部14は、左側のマイク30の検出音に応じて応答決定部15に応答指示を送った場合、もしくは、OFF指示の送信から所定期間が経過した場合に、該OFF指示を解除してもよい。または、ノイズ判定部14は、左側のマイク30の検出音に応じて応答決定部15に応答指示を送った場合、もしくは、OFF指示の送信から所定期間が経過した場合に、OFF指示で停止させた右側のマイク30の音の検出を再開させるためのON指示を送信してもよい。そして、検出制御部17はOFF指示の解除、またはON指示に従って、右側のマイク30の音の検出を再開させてもよい。
最後に、対話ロボット1の処理の流れについて、図3を用いて説明する。図3は、対話ロボット1の処理の流れの一例を示すフローチャートである。複数のマイク30が音を検出すると、音声取得部11は検出音をそれぞれ区別して取得する(S10、音声取得ステップ)。音声取得部11は方向特定部12において、各検出音が発せられた方向を特定し(S12)、該方向を示す情報をノイズ判定部14に送信する。また、文字列変換部13は各検出音を文字列に変換する(S14)。
ここで、文字列変換部13が文字列変換に成功した場合(S16でYES)、応答決定部15は文字列変換部13から文字列を取得し、該文字列に対応する応答を決定する(S18)。出力制御部16は決定された応答を出力するようスピーカ40に指示し、スピーカ40は該応答を音声出力する(S20)。
一方、文字列変換部13が文字列変換に失敗した場合(S16でNO)、文字列変換部13はノイズ判定部14に変換不能の旨を通知する。ノイズ判定部14は、該通知を受信した場合、同じマイク30からの検出音について、連続して2回該通知を受信したか否かを判定する(S22)。1回目の通知である場合(S22でNO)、ノイズ判定部14はOFF指示を送信せずに待機する。一方、連続した2回目の通知であった場合(S22でYES)、ノイズ判定部14は検出音をノイズと判定し(S24、ノイズ判定ステップ)、方向特定部12から受信した、方向を示す情報に基づいて、該ノイズが発せられた方向に向いたマイク30を1つ以上特定する。そして、ノイズ判定部14は、特定したマイク30を停止させるよう検出制御部17に指示し、検出制御部17は該マイク30を停止させる(S26、検出制御ステップ)。
なお、S12の処理とS14の処理との順序は逆であってもよいし、同時進行であってもよい。また、S22の処理は必須ではない。すなわち、ノイズ判定部14は、文字列変換部13から変換不能の旨を通知されたら、それが1回目の通知であってもS24およびS26の処理を行ってもよい。
以上の処理によれば、対話ロボット1は、各マイク30の検出音がノイズであるか否かを判定することができる。具体的には、各マイク30の検出音が、言語として認識できる音であるか否かに応じて、該検出音がノイズであるか否かを判定することができる。これにより、対話ロボット1は、検出音がユーザの意図した発話かどうかを判断することができるため、ノイズに対し誤って応答するという誤動作を防止できる。
また、対話ロボット1は、ノイズの発生方向を特定し、該方向に向けたマイク30を停止させるため、以降のノイズ検出を低減することができる。したがって、検出音としてノイズを検出した場合に実行する判定処理や動作等の、無駄な処理を省略することができる。これにより、対話ロボット1の負荷を低減することができるとともに、無駄な消費電力を削減することができる。よって、対話ロボット1の稼働時間を長くすることができる。
〔実施形態2〕
本開示の実施形態2について、図4〜6を用いて説明する。なお、説明の便宜上、実施形態1で説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
図4は、実施形態2に係る対話ロボット2の要部構成を示すブロック図である。対話ロボット2は、記憶部20に回答文テーブル22が格納されている点において、実施形態1に係る対話ロボット1と異なる。
回答文テーブル22は、応答に対し、ユーザの回答内容を示す文字列が対応付けられた情報である。なお、回答文テーブル22の応答は、応答文テーブル21に記憶された応答と同一のものである。
本実施形態に係る文字列変換部13は、検出音から変換した文字列を、ノイズ判定部14にも送信する。また、本実施形態に係る応答決定部15は、決定した応答をノイズ判定部14に伝える。
本実施形態に係るノイズ判定部14は、応答決定部15から受信した応答を記憶する。なお、ノイズ判定部14は所定期間が経過した場合、記憶している応答を削除してもよい。ノイズ判定部14は、文字列変換部13から文字列を取得した場合、回答文テーブル22を参照して、該文字列の少なくとも一部分が、回答文テーブル22におけるユーザの回答内容を示す文字列と一致するか否かを判定する。すなわち、ノイズ判定部14は、回答文テーブル22において、文字列変換部13から取得した文字列の少なくとも一部分と、応答決定部15から得ていた応答とが対応付けられているか否かを判定する。換言すると、ノイズ判定部14は、取得した文字列、すなわち検出音が示す発話内容が、スピーカ40から出力した応答内容への回答として期待される内容であるか否かを判定する。
回答文テーブル22において、取得した文字列の少なくとも一部分が応答と対応付けられている場合、すなわち、発話内容が期待の回答であった場合、ノイズ判定部14は応答決定部15に応答を許可する旨の指示を送信する。応答決定部15は該指示を受けてから、応答の決定を行う。
一方、回答文テーブル22において、取得した文字列のいずれの部分も応答と対応付けられていない場合、すなわち、発話内容が期待の回答でない場合、ノイズ判定部14は検出制御部17にOFF指示を送信する。この場合、ノイズ判定部14は応答決定部15には応答を許可する旨の指示を送信しなくてよい。結果、対話ロボット2は応答を行わない。
なお、ノイズ判定部14は、応答決定部15からの応答を記憶していない状態で文字列を取得した場合、応答決定部15に応答を許可する旨の指示を送信してよい。
次に、対話ロボット2の具体的な動作について、図5を用いて説明する。図5は、対話ロボット2の動作例を示す図である。図5では一例として、対話ロボット2の筐体の左右方向にそれぞれ1つずつマイク30が配置されており、かつ右側のマイク30がテレビ番組の音声を検出した場合について説明する。
右側のマイク30がテレビ番組の音声「こんにちは」を検出すると(図5の(a))、制御部10の音声取得部11はこれを取得し、文字列変換部13において文字列変換を試みる。図2の例と異なり、テレビ番組の音声「こんにちは」は言語として認識可能であるため、文字列変換部13は該音声を文字列に変換する。文字列変換部13は変換した文字列をノイズ判定部14および応答決定部15に通知する。ノイズ判定部14は、応答決定部15からの応答を記憶していない状態で文字列を受信すると、応答決定部15に応答を許可する旨の指示を送信する。これにより、応答決定部15は応答を決定し、出力制御部16はスピーカ40から応答(図示の例では、「今日はどこか行く?」というメッセージ)を出力させる(図5の(b))。そして、ノイズ判定部14は出力された応答を応答決定部15から伝えられる。
次に、右側のマイク30が再度テレビの音声「こんにちは」を検出したとする(図5の(c))。この場合も文字列変換部13は文字列をノイズ判定部14および応答決定部15に送信する。
ノイズ判定部14は、受信した文字列の少なくとも一部分が、回答文テーブル22において、記憶している応答と対応付けられているか否かを判定する。受信した文字列の少なくとも一部分が応答と対応付けられている場合、ノイズ判定部14は前回と同様に、応答決定部15に対し応答を許可する旨の指示を送信する。一方、受信した文字列のいずれの部分も応答と対応付けられていない場合、ノイズ判定部14は、受信した文字列が、期待されるユーザの回答内容を示していないと判断する。この場合、ノイズ判定部14は、該文字列、すなわち検出音をノイズと判定する。この場合、実施形態1に示す対話ロボット1と同様に、ノイズ判定部14は右側のマイク30を指定してOFF指示を検出制御部17に送信する。またこの場合、応答決定部15に応答を許可する旨の指示は送信されないため、対話ロボット2は応答しない(図5の(d))。
以降、テレビのある方向の音を検出する右側のマイク30は停止しているため、対話ロボット2はテレビからの音自体を検知しない状態になる(図5の(e))。
最後に、対話ロボット2の処理の流れについて、図6を用いて説明する。図6は、対話ロボット2の処理の流れの一例を示すフローチャートである。
対話ロボット2は、自発的に、またはユーザの発話に対し応答を出力する(S40)。このとき、応答決定部15は、自身が決定した応答(または自発的メッセージ)をノイズ判定部14に伝える。なお、ここでの応答出力の流れは、図3のS10〜S14、S16でYES、およびS18〜S20の流れと同様である。
その後、対話ロボット2は、図3のS10〜S14と同様、検出音の取得(S42、音声取得ステップ)、検出音が発せられた方向の特定(S44)、および、検出音の文字列への変換(S46)を検出音毎に実行する。文字列変換に成功した場合、(S18でYES)、文字列変換部13はノイズ判定部14および応答決定部15に文字列を送信する。ノイズ判定部14は、応答決定部15から伝えられていた応答と、文字列変換部13から受信した文字列と、回答文テーブル22とから、文字列が示す発話内容が、対話ロボット2の応答または自発的メッセージから期待される回答か否か判定する(S50)。
文字列が示す発話内容が期待される回答である場合(S50でYES)、ノイズ判定部14は応答決定部15に対し、応答を許可する旨の指示を送信する。応答決定部15は、図3のS18およびS20と同様に、応答を決定し(S52)、スピーカ40は出力制御部16の制御に応じて該応答を出力する(S54)。
一方、文字列が示す発話内容が期待される回答でない場合(S50でNO)、ノイズ判定部14は該文字列に変換された検出音が、ノイズであると判定する(S56、ノイズ判定ステップ)。ノイズ判定部14はこの場合、図3のS26と同様に、マイク30を停止させるよう検出制御部17に指示し、検出制御部17は該マイク30を停止させる(S58、検出制御ステップ)。
なお、本実施形態においても、図3のS22の処理を、S48の処理とS56の処理との間、S50の処理とS56の処理との間に行ってもよい。つまり、ノイズ判定部14は、同じマイク30からの検出音について2回連続して変換不能の旨を通知された場合に、該検出音をノイズと判定してもよい。またノイズ判定部14は、2回連続して期待の回答が得られなかった場合に、該検出音をノイズと判定してもよい。
以上の処理によれば、対話ロボット2は、マイク30の検出音がノイズであるか否かを判定することができる。具体的には、マイク30の検出音が、自機が発した応答(または自発的メッセージ)に対する反応であるか否かの判断に応じて、該検出音がノイズであるか否かを判定する。これにより、対話ロボット2は、検出音がユーザの意図した発話かどうかを判断することができるため、ノイズに対し誤って応答するという誤動作を防止できる。
また、対話ロボット2は、ノイズの発生方向を特定し、該方向に向けたマイク30を停止させるため、以降のノイズ検出を低減することができる。したがって、検出音としてノイズを検出した場合に実行する判定処理や動作等の、無駄な処理を省略することができる。これにより、対話ロボット2の負荷を低減することができるとともに、無駄な消費電力を削減することができる。よって、対話ロボット2の稼働時間を長くすることができる。
〔変形例〕
上記各実施形態では、制御部10は対話ロボット1および2において、記憶部20、マイク30、およびスピーカ40と一体に構成されていた。しかしながら、制御部10と記憶部20、マイク30、およびスピーカ40はそれぞれ別個の装置であってもよい。そして、これらの装置は有線または無線通信で接続されていてもよい。
例えば、対話ロボット1および2がマイク30およびスピーカ40を備え、対話ロボット1および2と別のサーバが制御部10および記憶部20を備えていてもよい。この場合、対話ロボット1および2はマイク30の検出音をサーバに送信し、サーバからマイク30の音の検出の停止および開始、ならびにスピーカ40の出力に係る指示制御を受けてもよい。
また、本開示は対話ロボット1および2以外に適用してもよい。例えば、本開示に係る各種構成を、スマートフォン、家電製品、およびパーソナルコンピュータ等において実現してもよい。
また、対話ロボット1および2は、応答を音声出力以外の方法で示してもよい。例えば、応答文テーブル21に、応答として対話ロボット1および2の所定の動作(ジェスチャ等)を指定する情報を予め記憶しておいてもよい。そして、応答決定部15は該情報で指定される動作を応答として決定し、出力制御部16は対話ロボット1および2のモータ等を制御することで、該動作、すなわち応答をユーザに示してもよい。
〔ソフトウェアによる実現例〕
制御部10の制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
後者の場合、制御部10は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る情報処理装置(制御部10)は、発話内容を認識して、該発話内容に対応する応答を出力部(スピーカ40)に出力させる情報処理装置であって、複数のマイク(マイク30)から検出音をそれぞれ区別して取得する音声取得部(音声取得部11)と、上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定部(ノイズ判定部14)と、上記ノイズ判定部により上記検出音がノイズであると判定された場合、上記複数のマイクのうち、1つ以上のマイクによる音の検出を停止させる検出制御部(検出制御部17)と、を備える。
前記の構成によれば、情報処理装置は、各マイクの検出音がノイズであるか否かを判定することができる。これにより、情報処理装置は、検出音がユーザの意図した発話かどうかを判断することができるため、ノイズに対し誤って応答するという誤動作を防止できる。
また、前記の構成によれば、情報処理装置は、上記ノイズと判定された検出音を検出したマイクを含む一部のマイクを停止させることができる。したがって、マイクでノイズを検出する可能性を低減しつつも、ノイズを検出していないマイクで、ユーザからの発話音声の検出を引き続き試みることができる。よって、誤動作の防止と、ユーザビリティとを両立させることができる。
また、ノイズと判定された検出音を検出したマイクを停止させることで、ノイズを検出した場合に実行する判定処理や動作等の、無駄な処理を省略することができる。これにより、自装置にかかる負荷を低減することができるとともに、無駄な消費電力を削減することができる。よって、自装置の稼働時間を長くすることができる。
本発明の態様2に係る情報処理装置は、前記態様1において、上記音声取得部は、各マイクの検出音を複数回取得し、上記ノイズ判定部は、同じマイクの検出音について、所定の回数連続して発話内容を認識できなかった場合に、上記検出音がノイズであると判定してもよい。
繰り返し、発話内容が認識できない検出音を検出する場合、該検出音はノイズである可能性が高いといえる。したがって、前記の構成によれば、検出音がノイズであるか否かの判定を精度よく行うことができる。
本発明の態様3に係る情報処理装置は、前記態様1または2において、上記複数のマイクは指向性を有するマイクであって、上記複数のマイクの検出音から、該検出音の発生方向を特定する方向特定部(方向特定部12)を備え、上記検出制御部は、上記ノイズ判定部がいずれかのマイクの検出音がノイズであると判定した場合、該検出音の発生方向に向いている1つ以上のマイクによる音の検出を停止させてもよい。
前記の構成によれば、情報処理装置は、ノイズの発生方向を特定し、該方向に向いているマイクを1つ以上停止させる。これにより、以降、マイクでノイズを検出する可能性をさらに低減することができる。
本発明の態様4に係る情報処理装置は、前記態様1〜3のいずれか一態様において、上記ノイズ判定部は、上記検出音から発話内容を認識できた場合であって、上記発話内容が、自装置から応答した内容に対応していない場合に、上記検出音がノイズであると判定してもよい。
前記の構成によれば、情報処理装置は、マイクの検出音が、自装置の応答に対応している発話内容であるか否かに応じて、該検出音がノイズであるか否かを判定する。これにより、情報処理装置は、検出音がユーザの意図した発話かどうかを判断することができるため、ノイズに対し誤って応答するという誤動作を防止できる。
本発明の態様5に係る電子機器(対話ロボット1または2)は、態様1〜4のいずれか一態様に記載の情報処理装置(制御部10)と、上記マイク(マイク30)と、上記出力部(スピーカ40)と、を備える。前記の構成によれば、前記態様1〜4のいずれか一態様に記載の情報処理装置と同様の効果を奏する。
本発明の態様6に係る、情報処理装置の制御方法は、発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置の制御方法であって、複数のマイクから検出音をそれぞれ区別して取得する音声取得ステップ(S10およびS42)と、上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定ステップ(S24およびS56)と、上記ノイズ判定ステップにおいて上記検出音がノイズであると判定された場合、上記複数のマイクのうち、1つ以上のマイクによる音の検出を停止させる検出制御ステップ(S26およびS58)と、を含む。前記の処理によれば、前記態様1に記載の情報処理装置と同様の効果を奏する。
本発明の各態様に係る情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記情報処理装置が備える各部(ソフトウェア要素)として動作させることにより上記情報処理装置をコンピュータにて実現させる情報処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
1、2 対話ロボット(電子機器)
10 制御部(情報処理装置)
11 音声取得部
12 方向特定部
13 文字列変換部
14 ノイズ判定部
15 応答決定部
16 出力制御部
17 検出制御部
20 記憶部
21 応答文テーブル
22 回答文テーブル
30 マイク
40 スピーカ(出力部)

Claims (7)

  1. 発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置であって、
    複数のマイクから検出音をそれぞれ区別して取得する音声取得部と、
    上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定部と、
    上記ノイズ判定部により上記検出音がノイズであると判定された場合、上記複数のマイクのうち、1つ以上のマイクによる音の検出を停止させる検出制御部と、を備えることを特徴とする、情報処理装置。
  2. 上記音声取得部は各マイクの検出音を複数回取得し、
    上記ノイズ判定部は、同じマイクの検出音について、所定の回数連続して発話内容を認識できなかった場合に、上記検出音がノイズであると判定することを特徴とする、請求項1に記載の情報処理装置。
  3. 上記複数のマイクは指向性を有するマイクであって、
    上記複数のマイクの検出音から、該検出音の発生方向を特定する方向特定部を備え、
    上記検出制御部は、上記ノイズ判定部がいずれかのマイクの検出音がノイズであると判定した場合、該検出音の発生方向に向いている1つ以上のマイクによる音の検出を停止させることを特徴とする、請求項1または2に記載の情報処理装置。
  4. 上記ノイズ判定部は、上記検出音から発話内容を認識できた場合であって、上記発話内容が、自装置から応答した内容に対応していない場合に、上記検出音がノイズであると判定することを特徴とする、請求項1〜3のいずれか1項に記載の情報処理装置。
  5. 請求項1〜4のいずれか1項に記載の情報処理装置と、
    上記マイクと、
    上記出力部と、を備えることを特徴とする、電子機器。
  6. 発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置の制御方法であって、
    複数のマイクから検出音をそれぞれ区別して取得する音声取得ステップと、
    上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定ステップと、
    上記ノイズ判定ステップにおいて上記検出音がノイズであると判定された場合、上記複数のマイクのうち、1つ以上のマイクによる音の検出を停止させる検出制御ステップと、を含むことを特徴とする、情報処理装置の制御方法。
  7. 請求項1に記載の情報処理装置としてコンピュータを機能させるための制御プログラムであって、上記音声取得部、上記ノイズ判定部、および上記検出制御部としてコンピュータを機能させるための制御プログラム。
JP2019517487A 2017-05-11 2018-03-27 情報処理装置、電子機器、制御方法、および制御プログラム Pending JPWO2018207483A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017094942 2017-05-11
JP2017094942 2017-05-11
PCT/JP2018/012384 WO2018207483A1 (ja) 2017-05-11 2018-03-27 情報処理装置、電子機器、制御方法、および制御プログラム

Publications (1)

Publication Number Publication Date
JPWO2018207483A1 true JPWO2018207483A1 (ja) 2020-01-23

Family

ID=64102760

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019517487A Pending JPWO2018207483A1 (ja) 2017-05-11 2018-03-27 情報処理装置、電子機器、制御方法、および制御プログラム

Country Status (4)

Country Link
US (1) US20200058319A1 (ja)
JP (1) JPWO2018207483A1 (ja)
CN (1) CN110612569A (ja)
WO (1) WO2018207483A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792988A (ja) * 1993-09-27 1995-04-07 Matsushita Electric Ind Co Ltd 音声検出装置と映像切り替え装置
JP2014203024A (ja) * 2013-04-09 2014-10-27 コニカミノルタ株式会社 制御装置、画像形成装置、端末装置、制御方法、および制御プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100392723C (zh) * 2002-12-11 2008-06-04 索夫塔马克斯公司 在稳定性约束下使用独立分量分析的语音处理系统和方法
JP4048492B2 (ja) * 2003-07-03 2008-02-20 ソニー株式会社 音声対話装置及び方法並びにロボット装置
JP5431282B2 (ja) * 2010-09-28 2014-03-05 株式会社東芝 音声対話装置、方法、プログラム
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
US9245527B2 (en) * 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
KR101643560B1 (ko) * 2014-12-17 2016-08-10 현대자동차주식회사 음성 인식 장치, 그를 가지는 차량 및 그 방법
JP6582514B2 (ja) * 2015-04-23 2019-10-02 富士通株式会社 コンテンツ再生装置、コンテンツ再生プログラム及びコンテンツ再生方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792988A (ja) * 1993-09-27 1995-04-07 Matsushita Electric Ind Co Ltd 音声検出装置と映像切り替え装置
JP2014203024A (ja) * 2013-04-09 2014-10-27 コニカミノルタ株式会社 制御装置、画像形成装置、端末装置、制御方法、および制御プログラム

Also Published As

Publication number Publication date
US20200058319A1 (en) 2020-02-20
WO2018207483A1 (ja) 2018-11-15
CN110612569A (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
US9880808B2 (en) Display apparatus and method of controlling a display apparatus in a voice recognition system
US20160125883A1 (en) Speech recognition client apparatus performing local speech recognition
US11514905B2 (en) Information processing apparatus and information processing method
CN108735207B (zh) 声音对话系统、声音对话方法及计算机可读存储介质
US20180285068A1 (en) Processing method of audio control and electronic device thereof
US11475892B2 (en) Speech control system, speech control method, image processing apparatus, speech control apparatus, and storage medium
JP6636303B2 (ja) 対話装置、対話機器、対話装置の制御方法、制御プログラム、および記録媒体
US20190147890A1 (en) Audio peripheral device
CN110277095B (zh) 语音服务控制装置及其方法
JP2014191029A (ja) 音声認識システムおよび音声認識システムの制御方法
WO2018135276A1 (ja) 言動制御装置、ロボット、制御プログラムおよび言動制御装置の制御方法
JP7133969B2 (ja) 音声入力装置、及び遠隔対話システム
JP6559417B2 (ja) 情報処理装置、情報処理方法、対話システム、および制御プログラム
JP6904225B2 (ja) 情報処理装置
US20220122600A1 (en) Information processing device and information processing method
JPWO2018207483A1 (ja) 情報処理装置、電子機器、制御方法、および制御プログラム
US11367436B2 (en) Communication apparatuses
JP6265670B2 (ja) 情報処理装置、サーバ、および、制御プログラム
JP7303091B2 (ja) 制御装置、電子機器、制御装置の制御方法および制御プログラム
TWI718513B (zh) 電子裝置與語音辨識切換方法
KR20210054246A (ko) 전자장치 및 그 제어방법
US11922970B2 (en) Electronic apparatus and controlling method thereof
US20230080895A1 (en) Dynamic operation of a voice controlled device
CN112702469B (zh) 语音交互方法和设备、音视频处理方法及语音播报方法
CN113450790A (zh) 电子设备的控制装置、记录介质、控制方法、电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201104

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210525