JPWO2021024466A1 - 音声対話装置、音声対話方法およびプログラム記録媒体 - Google Patents

音声対話装置、音声対話方法およびプログラム記録媒体 Download PDF

Info

Publication number
JPWO2021024466A1
JPWO2021024466A1 JP2021537527A JP2021537527A JPWO2021024466A1 JP WO2021024466 A1 JPWO2021024466 A1 JP WO2021024466A1 JP 2021537527 A JP2021537527 A JP 2021537527A JP 2021537527 A JP2021537527 A JP 2021537527A JP WO2021024466 A1 JPWO2021024466 A1 JP WO2021024466A1
Authority
JP
Japan
Prior art keywords
voice
signal
wakeup word
servers
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021537527A
Other languages
English (en)
Other versions
JP7224470B2 (ja
Inventor
亮 小谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2021024466A1 publication Critical patent/JPWO2021024466A1/ja
Application granted granted Critical
Publication of JP7224470B2 publication Critical patent/JP7224470B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

ユーザによる複数のサーバへの問い合わせを一度で済ますことができる音声対話装置の提供を目的とする。音声対話装置は、音声信号取得部およびウェイクアップワード分割部を含む。音声信号取得部は、音声に対応する入力音声信号を取得する。ウェイクアップワード分割部は、音声認識処理を行う複数のサーバを示す全称的なウェイクアップワードが入力音声信号に含まれている場合に、入力音声信号に基づく音声信号を、複数のサーバに送信する。

Description

本発明は、音声対話装置、音声対話方法およびプログラム記録媒体に関する。
音声認識技術の精度が高まるにつれ、人間との音声による対話が可能な音声対話システムが脚光を浴びている。音声対話システムは、ネットワーク経由で音声データをサーバに送信し、サーバで音声認識処理および音声合成処理を行う。このようなシステムは、パーソナルアシスタント、AI(Artificial Intelligence)アシスタントまたはバーチャルアシスタントと言われるサービスの提供を可能とし、例えば、そのようなシステムまたはサービスとして、Amazon(登録商標)社のEcho(登録商標)、Google(登録商標)社のGoogle Home(登録商標)等が知られている。また、スマートフォンに搭載されたシステムやサービスとしては、Apple(登録商標)社のSiri(登録商標)やGoogle社のGoogle Assistant、Amazon社のAlexa(登録商標)等が知られている。
これらの音声対話システムのサーバは、入力される音声に含まれるウェイクアップワードに基づいて音声認識処理を開始する。ウェイクアップワードとは、予め登録されているフレーズであって、音声認識処理を開始する際のトリガーとなるフレーズである。そのウェイクアップワードは、通常、システムごとに異なる。例えば、上記のAmazon社のEchoでは「Alexa」が、Apple社のSiriでは「Siri」が、Google社のGoogle Homeでは「OK, Google」がウェイクアップワードとして知られている。
特開2018−181330号公報
上記のように多数の音声対話システムによるサービスが提供されているため、ユーザが、複数のサービスを利用できる環境、つまり音声認識処理が可能な複数のサーバに接続可能な環境にいることも多い。そのような環境において、一のサーバがユーザからの問い合わせに対して適当に回答できない場合、ユーザは他のサーバに問い合わせるため、異なるウェイクアップワードとともに再度発話する必要がある。
本発明は、以上のような課題を解決するためになされたものであり、ユーザによる複数のサーバへの問い合わせを一度で済ますことができる音声対話装置の提供を目的とする。
本発明に係る音声対話装置は、ユーザによって発話された音声に対して音声認識処理を行うサーバに、音声信号を送信する。音声対話装置は、音声信号取得部およびウェイクアップワード分割部を含む。音声信号取得部は、音声に対応する入力音声信号を取得する。ウェイクアップワード分割部は、音声認識処理を行う複数のサーバを示す全称的なウェイクアップワードが入力音声信号に含まれている場合に、入力音声信号に基づく音声信号を、複数のサーバに送信する。
本発明によれば、ユーザによる複数のサーバへの問い合わせを一度で済ますことができる音声対話装置の提供が可能である。
本発明の目的、特徴、局面、および利点は、以下の詳細な説明と添付図面とによって、より明白になる。
実施の形態1における音声対話装置の構成を示すブロック図である。 音声対話装置が含む処理回路の構成の一例を示す図である。 音声対話装置が含む処理回路の構成の別の一例を示す図である。 実施の形態1における音声対話方法を示すフローチャートである。 実施の形態2における音声対話装置の構成を示すブロック図である。 実施の形態2における音声対話装置のハードウェア構成を示す図である。 実施の形態2における音声対話方法を示すフローチャートである。 実施の形態2における応答信号再生処理を示すフローチャートである。 実施の形態3における音声対話装置の構成を示すブロック図である。 実施の形態3における有効性信号を含む応答信号の一例を示す図である。 実施の形態3における音声対話方法を示すフローチャートである。 実施の形態3における応答信号再生処理を示すフローチャートである。 実施の形態4における音声対話装置およびそれに関連して動作する装置の構成を示すブロック図である。
<実施の形態1>
図1は、実施の形態1における音声対話装置100の構成を示すブロック図である。
音声対話装置100は、ネットワークを介して複数のサーバ200に接続されている。複数のサーバ200の各々は、入力される音声に対して音声認識処理を行う機能を有する。実施の形態1における音声対話装置100は、複数のサーバ200として、第1サーバ210から第3サーバ230に接続されている。第1サーバ210から第3サーバ230は、それぞれ個別の音声認識処理機能を有している。例えば、第1サーバ210から第3サーバ230は、異なる音声認識処理のサービスを提供する事業者によって運用されている。なお、音声対話装置100に接続されるサーバの数は、これに限定されるものではない。
複数のサーバ200の各々は、自己に入力される音声信号に含まれるウェイクアップワードに基づいて音声認識処理を開始する機能を有する。ウェイクアップワードとは、複数のサーバ200の各々が音声認識処理を開始する際のトリガーとなるワードである。
音声対話装置100は、音声信号取得部10およびウェイクアップワード分割部20を含む。
音声信号取得部10は、ユーザによって発話された音声に対応する入力音声信号を取得する。音声は、例えば、マイク110によって取得される。
ウェイクアップワード分割部20は、全称的なウェイクアップワードが、入力音声信号に含まれているか否かを検出する。全称的なウェイクアップワードとは、複数のサーバ200を総括的に示すワードである。例えば、全称的なウェイクアップワードとは、「OK,エニバデ(OK, anybody)」、「OK,エビバデ(OK, everybody)」等である。または例えば、全称的なウェイクアップワードは、世界的に使用実績の少ないフレーズ、使用実績のない新しいフレーズ、造語等であってもよい。これら全称的なウェイクアップワードは、音声対話装置100に、予め登録されている。
ウェイクアップワード分割部20は、全称的なウェイクアップワードが入力音声信号に含まれている場合、入力音声信号に基づく音声信号を、複数のサーバ200に送信する。
図2は、音声対話装置100が含む処理回路90の構成の一例を示す図である。音声信号取得部10およびウェイクアップワード分割部20の各機能は、処理回路90により実現される。すなわち、処理回路90は、音声信号取得部10およびウェイクアップワード分割部20を有する。
処理回路90が専用のハードウェアである場合、処理回路90は、例えば、単一回路、複合回路、プログラム化されたプロセッサ、並列プログラム化されたプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせた回路等である。音声信号取得部10およびウェイクアップワード分割部20の各機能は、複数の処理回路により個別に実現されてもよいし、1つの処理回路によりまとめて実現されてもよい。
図3は、音声対話装置100が含む処理回路の構成の別の一例を示す図である。処理回路は、プロセッサ91とメモリ92とを有する。プロセッサ91がメモリ92に格納される音声対話プログラムを実行することにより、音声信号取得部10およびウェイクアップワード分割部20の各機能が実現される。例えば、音声対話プログラムとして記述されたソフトウェアまたはファームウェアが、プロセッサ91によって実行されることにより各機能が実現される。このように、音声対話装置100は、音声対話プログラムを格納するメモリ92と、その音声対話プログラムを実行するプロセッサ91とを有する。言い換えると、メモリ92は、プログラム記録媒体である。
音声対話プログラムには、音声対話装置100が、ユーザによって発話された音声に対応する入力音声信号を取得し、音声認識処理を行う複数のサーバ200を示す全称的なウェイクアップワードがその入力音声信号に含まれている場合に、入力音声信号に基づく音声信号を、複数のサーバ200に送信する機能が記述されている。また、音声対話プログラムは、音声信号取得部10およびウェイクアップワード分割部20の手順または方法をコンピュータに実行させるものである。
プロセッサ91は、例えば、CPU(Central Processing Unit)、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)等である。メモリ92は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)等の、不揮発性または揮発性の半導体メモリである。または、メモリ92は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等、今後使用されるあらゆる記憶媒体であってもよい。
上述した音声信号取得部10およびウェイクアップワード分割部20の各機能は、一部が専用のハードウェアによって実現され、他の一部がソフトウェアまたはファームウェアにより実現されてもよい。このように、処理回路は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって、上述の各機能を実現する。
図4は、実施の形態1における音声対話方法を示すフローチャートである。
ステップS1にて、音声信号取得部10は、ユーザによって発話された音声に対応する入力音声信号を受信する。ここでは、一例として、ユーザが「OK,エニバデ(OK, anybody)。X社の製品はどこで買える?」と発話し、マイク110がその音声を取得する。音声信号取得部10は、そのマイク110から入力音声信号を取得する。
ステップS2にて、ウェイクアップワード分割部20は、その入力音声信号に全称的なウェイクアップワードが含まれているか解析する。解析対象の全称的なウェイクアップワードは、予め音声対話装置100に登録されている。ここでは、音声対話装置100には、全称的なウェイクアップワードとして、「OK,エニバデ(OK, anybody)」および「OK,エビバデ(OK, everybody)」が予め登録されている。
ステップS3にて、ウェイクアップワード分割部20は、全称的なウェイクアップワードが検出されたか否かを判定する。全称的なウェイクアップワードが検出された場合、ステップS4が実行される。全称的なウェイクアップワードが検出されなかった場合、音声対話方法は終了する。
ステップS4にて、ウェイクアップワード分割部20は、複数のサーバ200に、入力音声信号に基づく音声信号を送信する。実施の形態1においては、「OK,エニバデ(OK, anybody)。X社の製品はどこで買える?」に対応する入力音声信号、つまり、音声信号取得部10にて取得された入力音声信号が複数のサーバ200に送信される。
複数のサーバ200の各々は、音声対話装置100から受信した音声信号に含まれる全称的なウェイクアップワードに基づいて音声認識処理を開始する。そして、複数のサーバ200の各々は、その音声認識処理の結果に基づく応答信号を音声対話装置100に送信する。音声対話装置100は、複数のサーバ200から応答信号を受信する。その応答信号が音声出力装置(図示せず)にて再生されることで、ユーザとの対話が成立する。
以上をまとめると、実施の形態1における音声対話装置100は、ユーザによって発話された音声に対して音声認識処理を行うサーバに、音声信号を送信する。音声対話装置100は、音声信号取得部10およびウェイクアップワード分割部20を含む。音声信号取得部10は、音声に対応する入力音声信号を取得する。ウェイクアップワード分割部20は、音声認識処理を行う複数のサーバ200を示す全称的なウェイクアップワードが入力音声信号に含まれている場合に、入力音声信号に基づく音声信号を、複数のサーバ200に送信する。
このような音声対話装置100は、ユーザによる複数のサーバ200への問い合わせを一度で完了させる。ユーザは、複数のサーバ200に対して一括に問い合わせを行うことができ、一のサーバが回答できない場合であっても、他のサーバに対しての2度目の発話をする必要がなくなる。音声対話装置100は、音声認識処理機能を有する音声認識処理システムに適用でき、その音声対話の効率性を向上させる。
また、実施の形態1における音声対話方法は、ユーザによって発話された音声に対して音声認識処理を行うサーバに、音声信号を送信する。音声対話方法は、音声に対応する入力音声信号を取得し、音声認識処理を行う複数のサーバ200を示す全称的なウェイクアップワードが入力音声信号に含まれている場合に、入力音声信号に基づく音声信号を、複数のサーバ200に送信する。
このような音声対話方法は、ユーザによる複数のサーバ200への問い合わせを一度で完了させる。音声対話方法は、音声認識処理機能を有する音声認識処理システムに適用でき、音声対話の効率性を向上させる。
<実施の形態2>
実施の形態2における音声対話装置および音声対話方法を説明する。実施の形態2は実施の形態1の下位概念であり、実施の形態2における音声対話装置は、実施の形態1における音声対話装置100の各構成を含む。なお、実施の形態1と同様の構成および動作については説明を省略する。
図5は、実施の形態2における音声対話装置101の構成を示すブロック図である。
実施の形態2における複数のサーバ200の各々は、自己のサーバを示す個別のウェイクアップワードを認識することはできるが、全称的なウェイクアップワードは認識できない。例えば、ユーザが「OK,エニバデ(OK, anybody)。X社の製品はどこで買える?」と発話した場合、複数のサーバ200の各々は、「OK,エニバデ(OK, anybody)」の部分をウェイクアップワードとして認識できない。
音声対話装置101には、全称的なウェイクアップワードに加え、音声対話装置101に接続されている複数のサーバ200の各々を示す個別のウェイクアップワードが、予め登録されている。
音声対話装置101は、実施の形態1の音声信号取得部10およびウェイクアップワード分割部20に加えて、通信処理部30および応答信号出力部40を含む。また、ウェイクアップワード分割部20は、以下に示す機能において、実施の形態1と異なる。
ウェイクアップワード分割部20は、全称的なウェイクアップワードが入力音声信号に含まれている場合、入力音声信号から全称的なウェイクアップワードを削除して主音声信号を生成する。そして、ウェイクアップワード分割部20は、その主音声信号を複数のサーバ200に送信する。なお、実施の形態2におけるウェイクアップワード分割部20は、通信処理部30を介して、主音声信号を送信する。
通信処理部30は、ネットワーク130に接続されており、ウェイクアップワード分割部20から出力される主音声信号を複数のサーバ200の各々に送信する。また、通信処理部30は、複数のサーバ200の各々から送信される応答信号を受信して応答信号出力部40に出力する。
応答信号出力部40は、応答信号を受信する。実施の形態2における応答信号出力部40は、複数のサーバ200から応答信号を受信した順にその応答信号を出力する。
サーバから受信する応答信号は、音声信号、テキスト信号等である。応答信号としての音声信号は、PCM(pulse code modulation)による信号またはmp3のファイルフォーマットで圧縮された信号等であり、応答信号出力部40は、その音声信号をスピーカ120に出力する。応答信号がテキスト信号である場合、応答信号出力部40は、そのテキスト信号に基づいてスピーカ120が音声出力可能な音声信号を、音声合成処理によって生成し、スピーカ120に出力する。
スピーカ120は、その応答信号に基づいて音声を出力する。
図6は、実施の形態2における音声対話装置101のハードウェア構成を示す図である。
音声対話装置101はメイン処理部93およびプログラム記録媒体94を含む。メイン処理部93は、図2および図3に示された処理回路に対応する。プログラム記録媒体94は、図3に示されたメモリ92に対応する。
実施の形態2における音声信号取得部10、ウェイクアップワード分割部20、通信処理部30および応答信号出力部40の機能は、メイン処理部93によって実現される。また、プログラム記録媒体94には、音声信号取得部10、ウェイクアップワード分割部20、通信処理部30および応答信号出力部40の機能が記載された音声対話プログラムが記憶されている。音声対話プログラムがメイン処理部93で実行されることにより、上記の各機能が実現される。
図7は、実施の形態2における音声対話方法を示すフローチャートである。
ステップS10にて、音声信号取得部10は、ユーザによって発話された音声に対応する入力音声信号を受信する。実施の形態1と同様に、ここでは、ユーザが「OK,エニバデ(OK, anybody)。X社の製品はどこで買える?」と発話し、音声信号取得部10は、その音声に対応する入力音声信号を取得する。
ステップS20にて、ウェイクアップワード分割部20は、入力音声信号にウェイクアップワードが含まれているか解析する。解析対象のウェイクアップワードは、予め音声対話装置101に登録されている。ここでは、音声対話装置101には、特定のサーバを示す個別のウェイクアップワード、および、全称的なウェイクアップワードが、解析対象のウェイクアップワードとして予め登録されている。
ステップS30にて、ウェイクアップワード分割部20は、ウェイクアップワードが検出されたか否かを判定する。ウェイクアップワードが検出された場合、ステップS40が実行される。ウェイクアップワードが検出されなかった場合、音声対話方法は終了する。
ステップS40にて、ウェイクアップワード分割部20は、検出されたウェイクアップワードが全称的なウェイクアップワードであるか否かを判定する。全称的なウェイクアップワードでない場合、つまり、検出されたウェイクアップワードが特定のサーバを示す個別のウェイクアップワードである場合、ステップS50が実行される。全称的なウェイクアップワードである場合、ステップS60が実行される。
ステップS50にて、ウェイクアップワード分割部20は、特定のサーバを送信先として選択する。
ステップS60にて、ウェイクアップワード分割部20は、複数のサーバ200を送信先として選択する。
ステップS70にて、ウェイクアップワード分割部20は、入力音声信号から全称的なウェイクアップワードを削除して主音声信号を生成する。ここでは、ウェイクアップワード分割部20は、入力音声信号から、全称的なウェイクアップワードである「OK,エニバデ(OK, anybody)」に対応する音声信号を削除し、「X社の製品はどこで買える?」に対応する主音声信号を生成する。
ステップS80にて、通信処理部30は、ステップS50もしくはS60で選択されたサーバに音声信号を送信する。すなわち、音声対話処理がステップS50を経た場合には、通信処理部30は入力音声信号を特定のサーバに送信する。音声対話処理がステップS60およびS70を経た場合には、通信処理部30は主音声信号を複数のサーバ200に送信する。
ステップS90にて、応答信号再生処理が実行される。図8は、実施の形態2における応答信号再生処理を示すフローチャートである。
ステップS91にて、通信処理部30は、複数のサーバ200から応答信号を受信する。
ステップS92にて、応答信号出力部40は、応答信号をスピーカ120に出力する。なお、いずれかのサーバから受信した応答信号がテキスト信号である場合、応答信号出力部40は、音声合成処理によってそのテキスト信号に基づく音声信号を生成し、スピーカ120に出力する。このような処理により、スピーカ120は、複数のサーバ200から応答信号を受信した順に、応答音声を再生することができる。
ステップS93にて、通信処理部30は、全ての対象サーバから応答信号を受信したか否かを判定する。対象サーバとは、ステップS80において、音声信号が送信されたサーバのことであり、特定のサーバもしくは複数のサーバ200のことである。全ての対象サーバから応答信号を受信していない場合、ステップS91が再び実行される。全ての対象サーバから応答信号を受信した場合、応答信号再生処理は終了する。そして、図7に示される音声対話方法が終了する。
以上をまとめると、実施の形態2におけるウェイクアップワード分割部20は、入力音声信号から全称的なウェイクアップワードを削除して主音声信号を生成する。そして、ウェイクアップワード分割部20は、その主音声信号を複数のサーバ200に送信する。
複数のサーバ200が全称的なウェイクアップワードを認識できない場合であっても、実施の形態2における音声対話装置101は、具体的な問い合わせ内容に対応する主音声信号だけをサーバに送信する。そのため、音声対話の正確性が向上する。
また、実施の形態2における音声対話装置101は、すでに運用されている複数のサーバ200に接続するだけで、ユーザによる複数のサーバ200への問い合わせを一度で完了させるという効果を奏する。
また、実施の形態2における応答信号出力部40は、複数のサーバ200から応答信号を受信した順に、その応答信号をスピーカ120に出力する。よって、先に応答信号が返却された順に、応答音声を再生することが可能である。
<実施の形態3>
実施の形態3における音声対話装置および音声対話方法を説明する。実施の形態3は実施の形態1の下位概念であり、実施の形態3における音声対話装置は、実施の形態1における音声対話装置100の各構成を含む。なお、実施の形態1または2と同様の構成および動作については説明を省略する。
図9は、実施の形態3における音声対話装置102の構成を示すブロック図である。
実施の形態3における複数のサーバ200の各々は、自己のサーバを示す個別のウェイクアップワードは認識するものの、全称的なウェイクアップワードは認識しない。第1サーバ210は、個別のウェイクアップワードとして、「AAA」を認識する。また、第2サーバ220は、個別のウェイクアップワードとして、「BBB」を認識する。また、第3サーバ230は、個別のウェイクアップワードとして、「OK,CCC」を認識する。「AAA」、「BBB」および「CCC」は、例えば、音声認識処理サービスの名称または略称等である。例えば、第2サーバ220は、ユーザが「ねぇ、BBB」と呼びかけた場合、ウェイクアップワードである「BBB」を認識して音声認識処理を開始する。または、第3サーバ230は、ユーザが「OK,CCC」と呼びかけた場合、ウェイクアップワードである「OK,CCC」を認識して音声認識処理を開始する。
音声対話装置102には、全称的なウェイクアップワードに加え、それら複数のサーバ200の各々を示す個別のウェイクアップワードが、予め登録されている。
音声対話装置102は、実施の形態1の音声信号取得部10およびウェイクアップワード分割部20に加えて、ウェイクアップワード付与部50、通信処理部30および応答信号出力部40を含む。また、ウェイクアップワード分割部20は、以下に示す機能において、実施の形態1と異なる。
ウェイクアップワード分割部20は、実施の形態2と同様に、入力音声信号から全称的なウェイクアップワードを削除した主音声信号を生成する。さらに、実施の形態3のウェイクアップワード分割部20は、後述するウェイクアップワード付与部50によって主音声信号に付与された個別のウェイクアップワードによって示される特定のサーバごとに、音声信号を送信する。なお、実施の形態3において、ウェイクアップワード分割部20は、通信処理部30を介して、音声信号を送信する。
ウェイクアップワード付与部50は、全称的なウェイクアップワードが入力音声信号に含まれている場合に、複数のサーバ200の各々を示す個別のウェイクアップワードに対応する個別音声信号を主音声信号に付与する。実施の形態3におけるウェイクアップワード付与部50は、上記の主音声信号の前に個別音声信号を連結して音声信号を生成する。個別音声信号は、例えば、固定値としてメモリ92に記憶されている。
通信処理部30は、ネットワーク130に接続されており、ウェイクアップワード分割部20から出力される音声信号をサーバに送信する。また、通信処理部30は、サーバから送信される応答信号を受信して応答信号出力部40に出力する。
応答信号出力部40は、複数のサーバ200から応答信号を受信する。なお、実施の形態3において、応答信号出力部40は、通信処理部30を介して、応答信号を受信する。また、実施の形態3における応答信号は、応答の有効性を示す有効性信号を含む。応答信号出力部40は、有効性信号に基づいて、応答信号をスピーカ120に出力する。例えば、応答が有効であると判断される場合に、応答信号出力部40は、応答信号をスピーカ120に出力する。スピーカ120は、その応答信号に基づいて音声を出力する。
図10は、実施の形態3における有効性信号を含む応答信号の一例を示す図である。図10は、JSON(JavaScript(登録商標) Object Notation)形式で記載された応答信号を示している。「effective」は、有効性信号を示し、「payload」は再生すべき応答のコンテンツを示す。「effective」の値が、「yes」である場合には、応答信号出力部40は、応答信号をスピーカ120に出力し、スピーカ120から音声が再生される。「effective」の値が、「no」である場合には、応答信号出力部40は、応答信号をスピーカ120に出力しない。つまり、スピーカ120から音声は再生されない。「payload」は、PCM(pulse code modulation)またはmp3等のバイナリの音声信号が、BASE64形式等によりテキスト形式に変換されたデータであってもよい。または、「payload」は、「X社の製品はオンラインストアで購入可能です」等の文字列であっても良い。この場合には、上記のように、応答信号出力部40は、音声合成処理によって、そのテキストに対応する音声信号を生成する。
上記のウェイクアップワード分割部20、ウェイクアップワード付与部50、通信処理部30および応答信号出力部40の機能は、図2または図3に示される処理回路によって実現される。
図11は、実施の形態3における音声対話方法を示すフローチャートである。
ステップS10からS70までは、実施の形態2と同様である。ステップS70に続いてステップS100が実行される。
ステップS100にて、ウェイクアップワード付与部50は、個別のウェイクアップワードに対応する個別音声信号を主音声信号に付与する。例えば、ウェイクアップワード付与部50は、第2サーバ220を示す「ねぇ、BBB」に対応する個別音声信号を、「X社の製品はどこで買える?」の主音声信号の前に連結し「ねぇ、BBB、X社の製品はどこで買える?」に対応する音声信号を生成する。または例えば、ウェイクアップワード付与部50は、第3サーバ230を示す「OK,CCC」に対応する個別音声信号を、「X社の製品はどこで買える?」の主音声信号の前に連結し、「OK,CCC、X社の製品はどこで買える?」に対応する音声信号を生成する。
ステップS110にて、通信処理部30は、ステップS50もしくはS60で選択されたサーバに音声信号を送信する。
ステップS120にて、応答信号再生処理が実行される。図12は、実施の形態3における応答信号再生処理を示すフローチャートである。
ステップS121にて、通信処理部30は、複数のサーバ200から応答信号を受信する。
ステップS122にて、応答信号出力部40は、有効性信号に基づいて、応答信号が有効であるか否かを判定する。有効である場合、ステップS123が実行される。有効でない場合、ステップS124が実行される。
ステップS123にて、応答信号出力部40は、応答信号をスピーカ120に出力する。
ステップS124にて、通信処理部30は、全ての対象サーバから応答信号を受信したか否かを判定する。全ての対象サーバから応答信号を受信していない場合、ステップS121が再び実行される。全ての対象サーバから応答信号を受信した場合、応答信号再生処理は終了する。そして、図11に示される音声対話方法が終了する。
以上をまとめると、実施の形態3における音声対話装置102は、ウェイクアップワード付与部50を含む。ウェイクアップワード付与部50は、全称的なウェイクアップワードが入力音声信号に含まれている場合に、複数のサーバ200の各々を示す個別のウェイクアップワードに対応する個別音声信号を音声信号(実施の形態3においては主音声信号)に付与する。ウェイクアップワード分割部20は、音声信号に付与された個別音声信号に基づいて、個別のウェイクアップワードによって示される特定のサーバごとに、音声信号を送信する。
複数のサーバ200の各々が、全称的なウェイクアップワードを認識できず、自己を示す個別のウェイクアップワードを要求する場合に、音声対話装置102は、サーバごとの個別のウェイクアップワードを付与した音声信号を、各サーバに送信する。そのため、サーバごとの音声対話の正確性が向上する。
また、実施の形態3における音声対話装置102は、応答信号出力部40を含む。応答信号出力部40は、音声信号に対する複数の応答信号を複数のサーバ200から受信し、複数の応答信号の各々に含まれる応答の有効性を示す有効性信号に基づいて、複数の応答信号を音声出力装置に出力する。
このような音声対話装置102は、サーバから受信した応答のうち、有効な回答のみを音声出力装置に再生させることができる。例えば、第1サーバ210および第2サーバ220の応答の内容が「わかりません」であり、かつ、有効性信号の値が「無効」であって、第3サーバ230の応答の内容が「X社の製品はX社のオンラインストアから購入可能です」であり、かつ、有効性信号の値は「有効」である場合、音声対話装置102は、第3サーバ230の応答のみを、音声出力装置に再生させる。
全称的なウェイクアップワードにより問い合わせが行われる場合、ユーザとしては必ずしも全部のサーバからの応答を求めているわけではない。音声対話装置102は、良い回答つまり情報豊かな回答を優先して音声出力装置に再生させることができる。
(実施の形態3の変形例)
実施の形態3の変形例における音声対話装置102および音声対話方法を説明する。なお、実施の形態3と同様の構成および動作については説明を省略する。
実施の形態3の変形例における全称的なウェイクアップワードは、特定のサーバ以外の複数のサーバ200を示すものである。例えば、全称的なウェイクアップワードは、「OK,AAA以外」であり、第1サーバ210以外の第2サーバ220および第3サーバ230を示している。
ウェイクアップワード分割部20は、図11のステップS60にて、特定のサーバ以外の複数のサーバ200として、第2サーバ220および第3サーバ230を送信先として選択する。これ以降のステップは、図11の各ステップと同様であり、ウェイクアップワード分割部20は、第2サーバ220および第3サーバ230に、音声信号を送信する。
<実施の形態4>
以上の各実施の形態に示された音声対話装置は、ナビゲーション装置と、通信端末と、サーバと、これらにインストールされるアプリケーションの機能とを適宜に組み合わせて構築されるシステムにも適用することができる。ここで、ナビゲーション装置とは、例えば、PND(Portable Navigation Device)などを含む。通信端末とは、例えば、携帯電話、スマートフォンおよびタブレットなどの携帯端末を含む。
図13は、実施の形態4における音声対話装置100およびそれに関連して動作する装置の構成を示すブロック図である。
音声対話装置100および通信装置150がウェイクアップワード認識サーバ300に設けられている。音声対話装置100は、車両1に設けられたマイク110から通信装置140および通信装置150を介して入力音声信号を取得する。音声対話装置100は、全称的なウェイクアップワードがその入力音声信号に含まれている場合に、入力音声信号に基づく音声信号を、複数のサーバ200に送信する。音声対話装置100は、複数のサーバ200から応答信号を受信し、車両1に設けられたスピーカ120に、各通信装置を介して出力する。
このように、音声対話装置100がウェイクアップワード認識サーバ300に配置されることにより、車載装置の構成を簡素化することができる。
また、音声対話装置100の機能あるいは構成要素の一部がウェイクアップワード認識サーバ300に設けられ、他の一部が車両1に設けられるなど、分散して配置されてもよい。
なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。
本発明は詳細に説明されたが、上記した説明は、全ての局面において、例示であって、本発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。
10 音声信号取得部、20 ウェイクアップワード分割部、30 通信処理部、40 応答信号出力部、50 ウェイクアップワード付与部、94 プログラム記録媒体、100 音声対話装置、110 マイク、120 スピーカ、200 複数のサーバ。
本発明に係る音声対話装置は、ユーザによって発話された音声に対して音声認識処理を行うサーバに、音声信号を送信する。音声対話装置は、音声信号取得部およびウェイクアップワード分割部を含む。音声信号取得部は、音声に対応する入力音声信号を取得する。ウェイクアップワード分割部は、音声認識処理を行う複数のサーバを示す全称的なウェイクアップワードが入力音声信号に含まれている場合に、入力音声信号に基づく音声信号を、複数のサーバに送信する。ウェイクアップワード分割部は、入力音声信号から全称的なウェイクアップワードを削除して主音声信号を生成し、主音声信号を音声信号として、複数のサーバに送信する。

Claims (7)

  1. ユーザによって発話された音声に対して音声認識処理を行うサーバに、音声信号を送信する音声対話装置であって、
    前記音声に対応する入力音声信号を取得する音声信号取得部と、
    前記音声認識処理を行う複数のサーバを示す全称的なウェイクアップワードが前記入力音声信号に含まれている場合に、前記入力音声信号に基づく前記音声信号を、前記複数のサーバに送信するウェイクアップワード分割部と、を備える音声対話装置。
  2. 前記ウェイクアップワード分割部は、
    前記入力音声信号から前記全称的なウェイクアップワードを削除して主音声信号を生成し、前記主音声信号を前記音声信号として、前記複数のサーバに送信する、請求項1に記載の音声対話装置。
  3. 前記全称的なウェイクアップワードが前記入力音声信号に含まれている場合に、前記複数のサーバの各々を示す個別のウェイクアップワードに対応する個別音声信号を前記音声信号に付与するウェイクアップワード付与部をさらに備え、
    前記ウェイクアップワード分割部は、
    前記音声信号に付与された前記個別音声信号に基づいて、前記個別のウェイクアップワードによって示される特定のサーバごとに、前記音声信号を送信する、請求項2に記載の音声対話装置。
  4. 前記全称的なウェイクアップワードは、特定のサーバ以外の前記複数のサーバを示すものであり、
    前記ウェイクアップワード分割部は、
    前記入力音声信号に基づく前記音声信号を、前記特定のサーバ以外の前記複数のサーバに送信する、請求項1に記載の音声対話装置。
  5. 前記音声信号に対する複数の応答信号を前記複数のサーバから受信し、前記複数の応答信号の各々に含まれる応答の有効性を示す有効性信号に基づいて、前記複数の応答信号を音声出力装置に出力する応答信号出力部をさらに備える、請求項1に記載の音声対話装置。
  6. ユーザによって発話された音声に対して音声認識処理を行うサーバに、音声信号を送信する音声対話方法であって、
    前記音声に対応する入力音声信号を取得し、
    前記音声認識処理を行う複数のサーバを示す全称的なウェイクアップワードが前記入力音声信号に含まれている場合に、前記入力音声信号に基づく前記音声信号を、前記複数のサーバに送信する、音声対話方法。
  7. ユーザによって発話された音声に対して音声認識処理を行うサーバに、音声信号を送信する音声対話装置として機能させるための音声対話プログラムが記録され、かつ、コンピュータによって読取可能なプログラム記録媒体であって、
    前記音声対話プログラムは、前記コンピュータを、
    前記音声に対応する入力音声信号を取得する音声信号取得部と、
    前記音声認識処理を行う複数のサーバを示す全称的なウェイクアップワードが前記入力音声信号に含まれている場合に、前記入力音声信号に基づく前記音声信号を、前記複数のサーバに送信するウェイクアップワード分割部と、として機能させるためのプログラムである、プログラム記録媒体。
JP2021537527A 2019-08-08 2019-08-08 音声対話装置、音声対話方法およびプログラム記録媒体 Active JP7224470B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/031423 WO2021024466A1 (ja) 2019-08-08 2019-08-08 音声対話装置、音声対話方法およびプログラム記録媒体

Publications (2)

Publication Number Publication Date
JPWO2021024466A1 true JPWO2021024466A1 (ja) 2021-12-09
JP7224470B2 JP7224470B2 (ja) 2023-02-17

Family

ID=74503399

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021537527A Active JP7224470B2 (ja) 2019-08-08 2019-08-08 音声対話装置、音声対話方法およびプログラム記録媒体

Country Status (2)

Country Link
JP (1) JP7224470B2 (ja)
WO (1) WO2021024466A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115665894A (zh) * 2022-10-20 2023-01-31 四川启睿克科技有限公司 全屋分布式语音网关系统及语音控制方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180040324A1 (en) * 2016-08-05 2018-02-08 Sonos, Inc. Multiple Voice Services

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11164570B2 (en) * 2017-01-17 2021-11-02 Ford Global Technologies, Llc Voice assistant tracking and activation
JP6543676B2 (ja) * 2017-11-01 2019-07-10 ソフトバンク株式会社 送信制御装置及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180040324A1 (en) * 2016-08-05 2018-02-08 Sonos, Inc. Multiple Voice Services

Also Published As

Publication number Publication date
WO2021024466A1 (ja) 2021-02-11
JP7224470B2 (ja) 2023-02-17

Similar Documents

Publication Publication Date Title
KR102660922B1 (ko) 복수의 지능형 개인 비서 서비스를 위한 관리 계층
KR102478951B1 (ko) 비선형 특성을 갖는 오디오 필터를 이용하여 오디오 신호를 처리하는 방법 및 장치
US11188289B2 (en) Identification of preferred communication devices according to a preference rule dependent on a trigger phrase spoken within a selected time from other command data
US10827065B2 (en) Systems and methods for providing integrated computerized personal assistant services in telephony communications
US11200891B2 (en) Communications utilizing multiple virtual assistant services
JP2019534522A (ja) 単一の装置から複数の仮想パーソナルアシスタント(vpa)へのアクセス
JP6236805B2 (ja) 発話コマンド認識システム
JP6934076B2 (ja) スマートサービス方法、装置及び機器
CN111341315B (zh) 语音控制方法、装置、计算机设备和存储介质
CN112687286A (zh) 音频设备的降噪模型的调整方法和装置
CN111309857A (zh) 一种处理方法及处理装置
EP3769303A1 (en) Modifying spoken commands
CN110659361B (zh) 一种对话方法、装置、设备及介质
JP6255274B2 (ja) 情報処理装置、音声対話装置、および制御プログラム
WO2021024466A1 (ja) 音声対話装置、音声対話方法およびプログラム記録媒体
CN112396511B (zh) 分布式风控变量数据处理方法、装置及系统
CN114333815A (zh) 语音命令执行
CN110750295B (zh) 一种信息处理方法,装置,电子设备和存储介质
KR102204488B1 (ko) 통신 장치
KR102485339B1 (ko) 차량의 음성 명령 처리 장치 및 방법
CN111797270A (zh) 音频播放方法、装置、电子设备及计算机可读存储介质
CN112702306A (zh) 智能服务共享的方法、装置、设备和存储介质
JP6468069B2 (ja) 電子機器制御システム、サーバー、及び、端末装置
CN114726830A (zh) 语音服务访问方法、系统和车辆
JP2024510633A (ja) 放射音声の高周波数コピーの重畳

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210802

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230207

R150 Certificate of patent or registration of utility model

Ref document number: 7224470

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150