JPWO2021024466A1

JPWO2021024466A1 - 音声対話装置、音声対話方法およびプログラム記録媒体

Info

Publication number: JPWO2021024466A1
Application number: JP2021537527A
Authority: JP
Inventors: 亮小谷
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2021-12-09
Anticipated expiration: 2039-08-08
Also published as: WO2021024466A1; JP7224470B2

Abstract

ユーザによる複数のサーバへの問い合わせを一度で済ますことができる音声対話装置の提供を目的とする。音声対話装置は、音声信号取得部およびウェイクアップワード分割部を含む。音声信号取得部は、音声に対応する入力音声信号を取得する。ウェイクアップワード分割部は、音声認識処理を行う複数のサーバを示す全称的なウェイクアップワードが入力音声信号に含まれている場合に、入力音声信号に基づく音声信号を、複数のサーバに送信する。

Description

本発明は、音声対話装置、音声対話方法およびプログラム記録媒体に関する。

音声認識技術の精度が高まるにつれ、人間との音声による対話が可能な音声対話システムが脚光を浴びている。音声対話システムは、ネットワーク経由で音声データをサーバに送信し、サーバで音声認識処理および音声合成処理を行う。このようなシステムは、パーソナルアシスタント、ＡＩ（Artificial Intelligence）アシスタントまたはバーチャルアシスタントと言われるサービスの提供を可能とし、例えば、そのようなシステムまたはサービスとして、Amazon（登録商標）社のEcho（登録商標）、Google（登録商標）社のGoogle Home（登録商標）等が知られている。また、スマートフォンに搭載されたシステムやサービスとしては、Apple（登録商標）社のSiri（登録商標）やGoogle社のGoogle Assistant、Amazon社のAlexa（登録商標）等が知られている。

これらの音声対話システムのサーバは、入力される音声に含まれるウェイクアップワードに基づいて音声認識処理を開始する。ウェイクアップワードとは、予め登録されているフレーズであって、音声認識処理を開始する際のトリガーとなるフレーズである。そのウェイクアップワードは、通常、システムごとに異なる。例えば、上記のAmazon社のEchoでは「Alexa」が、Apple社のSiriでは「Siri」が、Google社のGoogle Homeでは「OK, Google」がウェイクアップワードとして知られている。

特開２０１８−１８１３３０号公報

上記のように多数の音声対話システムによるサービスが提供されているため、ユーザが、複数のサービスを利用できる環境、つまり音声認識処理が可能な複数のサーバに接続可能な環境にいることも多い。そのような環境において、一のサーバがユーザからの問い合わせに対して適当に回答できない場合、ユーザは他のサーバに問い合わせるため、異なるウェイクアップワードとともに再度発話する必要がある。

本発明は、以上のような課題を解決するためになされたものであり、ユーザによる複数のサーバへの問い合わせを一度で済ますことができる音声対話装置の提供を目的とする。

本発明に係る音声対話装置は、ユーザによって発話された音声に対して音声認識処理を行うサーバに、音声信号を送信する。音声対話装置は、音声信号取得部およびウェイクアップワード分割部を含む。音声信号取得部は、音声に対応する入力音声信号を取得する。ウェイクアップワード分割部は、音声認識処理を行う複数のサーバを示す全称的なウェイクアップワードが入力音声信号に含まれている場合に、入力音声信号に基づく音声信号を、複数のサーバに送信する。

本発明によれば、ユーザによる複数のサーバへの問い合わせを一度で済ますことができる音声対話装置の提供が可能である。

本発明の目的、特徴、局面、および利点は、以下の詳細な説明と添付図面とによって、より明白になる。

実施の形態１における音声対話装置の構成を示すブロック図である。音声対話装置が含む処理回路の構成の一例を示す図である。音声対話装置が含む処理回路の構成の別の一例を示す図である。実施の形態１における音声対話方法を示すフローチャートである。実施の形態２における音声対話装置の構成を示すブロック図である。実施の形態２における音声対話装置のハードウェア構成を示す図である。実施の形態２における音声対話方法を示すフローチャートである。実施の形態２における応答信号再生処理を示すフローチャートである。実施の形態３における音声対話装置の構成を示すブロック図である。実施の形態３における有効性信号を含む応答信号の一例を示す図である。実施の形態３における音声対話方法を示すフローチャートである。実施の形態３における応答信号再生処理を示すフローチャートである。実施の形態４における音声対話装置およびそれに関連して動作する装置の構成を示すブロック図である。

＜実施の形態１＞
図１は、実施の形態１における音声対話装置１００の構成を示すブロック図である。

音声対話装置１００は、ネットワークを介して複数のサーバ２００に接続されている。複数のサーバ２００の各々は、入力される音声に対して音声認識処理を行う機能を有する。実施の形態１における音声対話装置１００は、複数のサーバ２００として、第１サーバ２１０から第３サーバ２３０に接続されている。第１サーバ２１０から第３サーバ２３０は、それぞれ個別の音声認識処理機能を有している。例えば、第１サーバ２１０から第３サーバ２３０は、異なる音声認識処理のサービスを提供する事業者によって運用されている。なお、音声対話装置１００に接続されるサーバの数は、これに限定されるものではない。

複数のサーバ２００の各々は、自己に入力される音声信号に含まれるウェイクアップワードに基づいて音声認識処理を開始する機能を有する。ウェイクアップワードとは、複数のサーバ２００の各々が音声認識処理を開始する際のトリガーとなるワードである。

音声対話装置１００は、音声信号取得部１０およびウェイクアップワード分割部２０を含む。

音声信号取得部１０は、ユーザによって発話された音声に対応する入力音声信号を取得する。音声は、例えば、マイク１１０によって取得される。

ウェイクアップワード分割部２０は、全称的なウェイクアップワードが、入力音声信号に含まれているか否かを検出する。全称的なウェイクアップワードとは、複数のサーバ２００を総括的に示すワードである。例えば、全称的なウェイクアップワードとは、「ＯＫ，エニバデ（OK, anybody）」、「ＯＫ，エビバデ（OK, everybody）」等である。または例えば、全称的なウェイクアップワードは、世界的に使用実績の少ないフレーズ、使用実績のない新しいフレーズ、造語等であってもよい。これら全称的なウェイクアップワードは、音声対話装置１００に、予め登録されている。

ウェイクアップワード分割部２０は、全称的なウェイクアップワードが入力音声信号に含まれている場合、入力音声信号に基づく音声信号を、複数のサーバ２００に送信する。

図２は、音声対話装置１００が含む処理回路９０の構成の一例を示す図である。音声信号取得部１０およびウェイクアップワード分割部２０の各機能は、処理回路９０により実現される。すなわち、処理回路９０は、音声信号取得部１０およびウェイクアップワード分割部２０を有する。

処理回路９０が専用のハードウェアである場合、処理回路９０は、例えば、単一回路、複合回路、プログラム化されたプロセッサ、並列プログラム化されたプロセッサ、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、またはこれらを組み合わせた回路等である。音声信号取得部１０およびウェイクアップワード分割部２０の各機能は、複数の処理回路により個別に実現されてもよいし、１つの処理回路によりまとめて実現されてもよい。

図３は、音声対話装置１００が含む処理回路の構成の別の一例を示す図である。処理回路は、プロセッサ９１とメモリ９２とを有する。プロセッサ９１がメモリ９２に格納される音声対話プログラムを実行することにより、音声信号取得部１０およびウェイクアップワード分割部２０の各機能が実現される。例えば、音声対話プログラムとして記述されたソフトウェアまたはファームウェアが、プロセッサ９１によって実行されることにより各機能が実現される。このように、音声対話装置１００は、音声対話プログラムを格納するメモリ９２と、その音声対話プログラムを実行するプロセッサ９１とを有する。言い換えると、メモリ９２は、プログラム記録媒体である。

音声対話プログラムには、音声対話装置１００が、ユーザによって発話された音声に対応する入力音声信号を取得し、音声認識処理を行う複数のサーバ２００を示す全称的なウェイクアップワードがその入力音声信号に含まれている場合に、入力音声信号に基づく音声信号を、複数のサーバ２００に送信する機能が記述されている。また、音声対話プログラムは、音声信号取得部１０およびウェイクアップワード分割部２０の手順または方法をコンピュータに実行させるものである。

プロセッサ９１は、例えば、ＣＰＵ（Central Processing Unit）、演算装置、マイクロプロセッサ、マイクロコンピュータ、ＤＳＰ（Digital Signal Processor）等である。メモリ９２は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）等の、不揮発性または揮発性の半導体メモリである。または、メモリ９２は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ等、今後使用されるあらゆる記憶媒体であってもよい。

上述した音声信号取得部１０およびウェイクアップワード分割部２０の各機能は、一部が専用のハードウェアによって実現され、他の一部がソフトウェアまたはファームウェアにより実現されてもよい。このように、処理回路は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって、上述の各機能を実現する。

図４は、実施の形態１における音声対話方法を示すフローチャートである。

ステップＳ１にて、音声信号取得部１０は、ユーザによって発話された音声に対応する入力音声信号を受信する。ここでは、一例として、ユーザが「ＯＫ，エニバデ（OK, anybody）。Ｘ社の製品はどこで買える？」と発話し、マイク１１０がその音声を取得する。音声信号取得部１０は、そのマイク１１０から入力音声信号を取得する。

ステップＳ２にて、ウェイクアップワード分割部２０は、その入力音声信号に全称的なウェイクアップワードが含まれているか解析する。解析対象の全称的なウェイクアップワードは、予め音声対話装置１００に登録されている。ここでは、音声対話装置１００には、全称的なウェイクアップワードとして、「ＯＫ，エニバデ（OK, anybody）」および「ＯＫ，エビバデ（OK, everybody）」が予め登録されている。

ステップＳ３にて、ウェイクアップワード分割部２０は、全称的なウェイクアップワードが検出されたか否かを判定する。全称的なウェイクアップワードが検出された場合、ステップＳ４が実行される。全称的なウェイクアップワードが検出されなかった場合、音声対話方法は終了する。

ステップＳ４にて、ウェイクアップワード分割部２０は、複数のサーバ２００に、入力音声信号に基づく音声信号を送信する。実施の形態１においては、「ＯＫ，エニバデ（OK, anybody）。Ｘ社の製品はどこで買える？」に対応する入力音声信号、つまり、音声信号取得部１０にて取得された入力音声信号が複数のサーバ２００に送信される。

複数のサーバ２００の各々は、音声対話装置１００から受信した音声信号に含まれる全称的なウェイクアップワードに基づいて音声認識処理を開始する。そして、複数のサーバ２００の各々は、その音声認識処理の結果に基づく応答信号を音声対話装置１００に送信する。音声対話装置１００は、複数のサーバ２００から応答信号を受信する。その応答信号が音声出力装置（図示せず）にて再生されることで、ユーザとの対話が成立する。

以上をまとめると、実施の形態１における音声対話装置１００は、ユーザによって発話された音声に対して音声認識処理を行うサーバに、音声信号を送信する。音声対話装置１００は、音声信号取得部１０およびウェイクアップワード分割部２０を含む。音声信号取得部１０は、音声に対応する入力音声信号を取得する。ウェイクアップワード分割部２０は、音声認識処理を行う複数のサーバ２００を示す全称的なウェイクアップワードが入力音声信号に含まれている場合に、入力音声信号に基づく音声信号を、複数のサーバ２００に送信する。

このような音声対話装置１００は、ユーザによる複数のサーバ２００への問い合わせを一度で完了させる。ユーザは、複数のサーバ２００に対して一括に問い合わせを行うことができ、一のサーバが回答できない場合であっても、他のサーバに対しての２度目の発話をする必要がなくなる。音声対話装置１００は、音声認識処理機能を有する音声認識処理システムに適用でき、その音声対話の効率性を向上させる。

また、実施の形態１における音声対話方法は、ユーザによって発話された音声に対して音声認識処理を行うサーバに、音声信号を送信する。音声対話方法は、音声に対応する入力音声信号を取得し、音声認識処理を行う複数のサーバ２００を示す全称的なウェイクアップワードが入力音声信号に含まれている場合に、入力音声信号に基づく音声信号を、複数のサーバ２００に送信する。

このような音声対話方法は、ユーザによる複数のサーバ２００への問い合わせを一度で完了させる。音声対話方法は、音声認識処理機能を有する音声認識処理システムに適用でき、音声対話の効率性を向上させる。

＜実施の形態２＞
実施の形態２における音声対話装置および音声対話方法を説明する。実施の形態２は実施の形態１の下位概念であり、実施の形態２における音声対話装置は、実施の形態１における音声対話装置１００の各構成を含む。なお、実施の形態１と同様の構成および動作については説明を省略する。

図５は、実施の形態２における音声対話装置１０１の構成を示すブロック図である。

実施の形態２における複数のサーバ２００の各々は、自己のサーバを示す個別のウェイクアップワードを認識することはできるが、全称的なウェイクアップワードは認識できない。例えば、ユーザが「ＯＫ，エニバデ（OK, anybody）。Ｘ社の製品はどこで買える？」と発話した場合、複数のサーバ２００の各々は、「ＯＫ，エニバデ（OK, anybody）」の部分をウェイクアップワードとして認識できない。

音声対話装置１０１には、全称的なウェイクアップワードに加え、音声対話装置１０１に接続されている複数のサーバ２００の各々を示す個別のウェイクアップワードが、予め登録されている。

音声対話装置１０１は、実施の形態１の音声信号取得部１０およびウェイクアップワード分割部２０に加えて、通信処理部３０および応答信号出力部４０を含む。また、ウェイクアップワード分割部２０は、以下に示す機能において、実施の形態１と異なる。

ウェイクアップワード分割部２０は、全称的なウェイクアップワードが入力音声信号に含まれている場合、入力音声信号から全称的なウェイクアップワードを削除して主音声信号を生成する。そして、ウェイクアップワード分割部２０は、その主音声信号を複数のサーバ２００に送信する。なお、実施の形態２におけるウェイクアップワード分割部２０は、通信処理部３０を介して、主音声信号を送信する。

通信処理部３０は、ネットワーク１３０に接続されており、ウェイクアップワード分割部２０から出力される主音声信号を複数のサーバ２００の各々に送信する。また、通信処理部３０は、複数のサーバ２００の各々から送信される応答信号を受信して応答信号出力部４０に出力する。

応答信号出力部４０は、応答信号を受信する。実施の形態２における応答信号出力部４０は、複数のサーバ２００から応答信号を受信した順にその応答信号を出力する。

サーバから受信する応答信号は、音声信号、テキスト信号等である。応答信号としての音声信号は、ＰＣＭ（pulse code modulation）による信号またはｍｐ３のファイルフォーマットで圧縮された信号等であり、応答信号出力部４０は、その音声信号をスピーカ１２０に出力する。応答信号がテキスト信号である場合、応答信号出力部４０は、そのテキスト信号に基づいてスピーカ１２０が音声出力可能な音声信号を、音声合成処理によって生成し、スピーカ１２０に出力する。

スピーカ１２０は、その応答信号に基づいて音声を出力する。

図６は、実施の形態２における音声対話装置１０１のハードウェア構成を示す図である。

音声対話装置１０１はメイン処理部９３およびプログラム記録媒体９４を含む。メイン処理部９３は、図２および図３に示された処理回路に対応する。プログラム記録媒体９４は、図３に示されたメモリ９２に対応する。

実施の形態２における音声信号取得部１０、ウェイクアップワード分割部２０、通信処理部３０および応答信号出力部４０の機能は、メイン処理部９３によって実現される。また、プログラム記録媒体９４には、音声信号取得部１０、ウェイクアップワード分割部２０、通信処理部３０および応答信号出力部４０の機能が記載された音声対話プログラムが記憶されている。音声対話プログラムがメイン処理部９３で実行されることにより、上記の各機能が実現される。

図７は、実施の形態２における音声対話方法を示すフローチャートである。

ステップＳ１０にて、音声信号取得部１０は、ユーザによって発話された音声に対応する入力音声信号を受信する。実施の形態１と同様に、ここでは、ユーザが「ＯＫ，エニバデ（OK, anybody）。Ｘ社の製品はどこで買える？」と発話し、音声信号取得部１０は、その音声に対応する入力音声信号を取得する。

ステップＳ２０にて、ウェイクアップワード分割部２０は、入力音声信号にウェイクアップワードが含まれているか解析する。解析対象のウェイクアップワードは、予め音声対話装置１０１に登録されている。ここでは、音声対話装置１０１には、特定のサーバを示す個別のウェイクアップワード、および、全称的なウェイクアップワードが、解析対象のウェイクアップワードとして予め登録されている。

ステップＳ３０にて、ウェイクアップワード分割部２０は、ウェイクアップワードが検出されたか否かを判定する。ウェイクアップワードが検出された場合、ステップＳ４０が実行される。ウェイクアップワードが検出されなかった場合、音声対話方法は終了する。

ステップＳ４０にて、ウェイクアップワード分割部２０は、検出されたウェイクアップワードが全称的なウェイクアップワードであるか否かを判定する。全称的なウェイクアップワードでない場合、つまり、検出されたウェイクアップワードが特定のサーバを示す個別のウェイクアップワードである場合、ステップＳ５０が実行される。全称的なウェイクアップワードである場合、ステップＳ６０が実行される。

ステップＳ５０にて、ウェイクアップワード分割部２０は、特定のサーバを送信先として選択する。

ステップＳ６０にて、ウェイクアップワード分割部２０は、複数のサーバ２００を送信先として選択する。

ステップＳ７０にて、ウェイクアップワード分割部２０は、入力音声信号から全称的なウェイクアップワードを削除して主音声信号を生成する。ここでは、ウェイクアップワード分割部２０は、入力音声信号から、全称的なウェイクアップワードである「ＯＫ，エニバデ（OK, anybody）」に対応する音声信号を削除し、「Ｘ社の製品はどこで買える？」に対応する主音声信号を生成する。

ステップＳ８０にて、通信処理部３０は、ステップＳ５０もしくはＳ６０で選択されたサーバに音声信号を送信する。すなわち、音声対話処理がステップＳ５０を経た場合には、通信処理部３０は入力音声信号を特定のサーバに送信する。音声対話処理がステップＳ６０およびＳ７０を経た場合には、通信処理部３０は主音声信号を複数のサーバ２００に送信する。

ステップＳ９０にて、応答信号再生処理が実行される。図８は、実施の形態２における応答信号再生処理を示すフローチャートである。

ステップＳ９１にて、通信処理部３０は、複数のサーバ２００から応答信号を受信する。

ステップＳ９２にて、応答信号出力部４０は、応答信号をスピーカ１２０に出力する。なお、いずれかのサーバから受信した応答信号がテキスト信号である場合、応答信号出力部４０は、音声合成処理によってそのテキスト信号に基づく音声信号を生成し、スピーカ１２０に出力する。このような処理により、スピーカ１２０は、複数のサーバ２００から応答信号を受信した順に、応答音声を再生することができる。

ステップＳ９３にて、通信処理部３０は、全ての対象サーバから応答信号を受信したか否かを判定する。対象サーバとは、ステップＳ８０において、音声信号が送信されたサーバのことであり、特定のサーバもしくは複数のサーバ２００のことである。全ての対象サーバから応答信号を受信していない場合、ステップＳ９１が再び実行される。全ての対象サーバから応答信号を受信した場合、応答信号再生処理は終了する。そして、図７に示される音声対話方法が終了する。

以上をまとめると、実施の形態２におけるウェイクアップワード分割部２０は、入力音声信号から全称的なウェイクアップワードを削除して主音声信号を生成する。そして、ウェイクアップワード分割部２０は、その主音声信号を複数のサーバ２００に送信する。

複数のサーバ２００が全称的なウェイクアップワードを認識できない場合であっても、実施の形態２における音声対話装置１０１は、具体的な問い合わせ内容に対応する主音声信号だけをサーバに送信する。そのため、音声対話の正確性が向上する。

また、実施の形態２における音声対話装置１０１は、すでに運用されている複数のサーバ２００に接続するだけで、ユーザによる複数のサーバ２００への問い合わせを一度で完了させるという効果を奏する。

また、実施の形態２における応答信号出力部４０は、複数のサーバ２００から応答信号を受信した順に、その応答信号をスピーカ１２０に出力する。よって、先に応答信号が返却された順に、応答音声を再生することが可能である。

＜実施の形態３＞
実施の形態３における音声対話装置および音声対話方法を説明する。実施の形態３は実施の形態１の下位概念であり、実施の形態３における音声対話装置は、実施の形態１における音声対話装置１００の各構成を含む。なお、実施の形態１または２と同様の構成および動作については説明を省略する。

図９は、実施の形態３における音声対話装置１０２の構成を示すブロック図である。

実施の形態３における複数のサーバ２００の各々は、自己のサーバを示す個別のウェイクアップワードは認識するものの、全称的なウェイクアップワードは認識しない。第１サーバ２１０は、個別のウェイクアップワードとして、「ＡＡＡ」を認識する。また、第２サーバ２２０は、個別のウェイクアップワードとして、「ＢＢＢ」を認識する。また、第３サーバ２３０は、個別のウェイクアップワードとして、「ＯＫ，ＣＣＣ」を認識する。「ＡＡＡ」、「ＢＢＢ」および「ＣＣＣ」は、例えば、音声認識処理サービスの名称または略称等である。例えば、第２サーバ２２０は、ユーザが「ねぇ、ＢＢＢ」と呼びかけた場合、ウェイクアップワードである「ＢＢＢ」を認識して音声認識処理を開始する。または、第３サーバ２３０は、ユーザが「ＯＫ，ＣＣＣ」と呼びかけた場合、ウェイクアップワードである「ＯＫ，ＣＣＣ」を認識して音声認識処理を開始する。

音声対話装置１０２には、全称的なウェイクアップワードに加え、それら複数のサーバ２００の各々を示す個別のウェイクアップワードが、予め登録されている。

音声対話装置１０２は、実施の形態１の音声信号取得部１０およびウェイクアップワード分割部２０に加えて、ウェイクアップワード付与部５０、通信処理部３０および応答信号出力部４０を含む。また、ウェイクアップワード分割部２０は、以下に示す機能において、実施の形態１と異なる。

ウェイクアップワード分割部２０は、実施の形態２と同様に、入力音声信号から全称的なウェイクアップワードを削除した主音声信号を生成する。さらに、実施の形態３のウェイクアップワード分割部２０は、後述するウェイクアップワード付与部５０によって主音声信号に付与された個別のウェイクアップワードによって示される特定のサーバごとに、音声信号を送信する。なお、実施の形態３において、ウェイクアップワード分割部２０は、通信処理部３０を介して、音声信号を送信する。

ウェイクアップワード付与部５０は、全称的なウェイクアップワードが入力音声信号に含まれている場合に、複数のサーバ２００の各々を示す個別のウェイクアップワードに対応する個別音声信号を主音声信号に付与する。実施の形態３におけるウェイクアップワード付与部５０は、上記の主音声信号の前に個別音声信号を連結して音声信号を生成する。個別音声信号は、例えば、固定値としてメモリ９２に記憶されている。

通信処理部３０は、ネットワーク１３０に接続されており、ウェイクアップワード分割部２０から出力される音声信号をサーバに送信する。また、通信処理部３０は、サーバから送信される応答信号を受信して応答信号出力部４０に出力する。

応答信号出力部４０は、複数のサーバ２００から応答信号を受信する。なお、実施の形態３において、応答信号出力部４０は、通信処理部３０を介して、応答信号を受信する。また、実施の形態３における応答信号は、応答の有効性を示す有効性信号を含む。応答信号出力部４０は、有効性信号に基づいて、応答信号をスピーカ１２０に出力する。例えば、応答が有効であると判断される場合に、応答信号出力部４０は、応答信号をスピーカ１２０に出力する。スピーカ１２０は、その応答信号に基づいて音声を出力する。

図１０は、実施の形態３における有効性信号を含む応答信号の一例を示す図である。図１０は、ＪＳＯＮ(JavaScript（登録商標） Object Notation)形式で記載された応答信号を示している。「effective」は、有効性信号を示し、「payload」は再生すべき応答のコンテンツを示す。「effective」の値が、「yes」である場合には、応答信号出力部４０は、応答信号をスピーカ１２０に出力し、スピーカ１２０から音声が再生される。「effective」の値が、「no」である場合には、応答信号出力部４０は、応答信号をスピーカ１２０に出力しない。つまり、スピーカ１２０から音声は再生されない。「payload」は、ＰＣＭ（pulse code modulation）またはｍｐ３等のバイナリの音声信号が、ＢＡＳＥ６４形式等によりテキスト形式に変換されたデータであってもよい。または、「payload」は、「Ｘ社の製品はオンラインストアで購入可能です」等の文字列であっても良い。この場合には、上記のように、応答信号出力部４０は、音声合成処理によって、そのテキストに対応する音声信号を生成する。

上記のウェイクアップワード分割部２０、ウェイクアップワード付与部５０、通信処理部３０および応答信号出力部４０の機能は、図２または図３に示される処理回路によって実現される。

図１１は、実施の形態３における音声対話方法を示すフローチャートである。

ステップＳ１０からＳ７０までは、実施の形態２と同様である。ステップＳ７０に続いてステップＳ１００が実行される。

ステップＳ１００にて、ウェイクアップワード付与部５０は、個別のウェイクアップワードに対応する個別音声信号を主音声信号に付与する。例えば、ウェイクアップワード付与部５０は、第２サーバ２２０を示す「ねぇ、ＢＢＢ」に対応する個別音声信号を、「Ｘ社の製品はどこで買える？」の主音声信号の前に連結し「ねぇ、ＢＢＢ、Ｘ社の製品はどこで買える？」に対応する音声信号を生成する。または例えば、ウェイクアップワード付与部５０は、第３サーバ２３０を示す「ＯＫ，ＣＣＣ」に対応する個別音声信号を、「Ｘ社の製品はどこで買える？」の主音声信号の前に連結し、「ＯＫ，ＣＣＣ、Ｘ社の製品はどこで買える？」に対応する音声信号を生成する。

ステップＳ１１０にて、通信処理部３０は、ステップＳ５０もしくはＳ６０で選択されたサーバに音声信号を送信する。

ステップＳ１２０にて、応答信号再生処理が実行される。図１２は、実施の形態３における応答信号再生処理を示すフローチャートである。

ステップＳ１２１にて、通信処理部３０は、複数のサーバ２００から応答信号を受信する。

ステップＳ１２２にて、応答信号出力部４０は、有効性信号に基づいて、応答信号が有効であるか否かを判定する。有効である場合、ステップＳ１２３が実行される。有効でない場合、ステップＳ１２４が実行される。

ステップＳ１２３にて、応答信号出力部４０は、応答信号をスピーカ１２０に出力する。

ステップＳ１２４にて、通信処理部３０は、全ての対象サーバから応答信号を受信したか否かを判定する。全ての対象サーバから応答信号を受信していない場合、ステップＳ１２１が再び実行される。全ての対象サーバから応答信号を受信した場合、応答信号再生処理は終了する。そして、図１１に示される音声対話方法が終了する。

以上をまとめると、実施の形態３における音声対話装置１０２は、ウェイクアップワード付与部５０を含む。ウェイクアップワード付与部５０は、全称的なウェイクアップワードが入力音声信号に含まれている場合に、複数のサーバ２００の各々を示す個別のウェイクアップワードに対応する個別音声信号を音声信号（実施の形態３においては主音声信号）に付与する。ウェイクアップワード分割部２０は、音声信号に付与された個別音声信号に基づいて、個別のウェイクアップワードによって示される特定のサーバごとに、音声信号を送信する。

複数のサーバ２００の各々が、全称的なウェイクアップワードを認識できず、自己を示す個別のウェイクアップワードを要求する場合に、音声対話装置１０２は、サーバごとの個別のウェイクアップワードを付与した音声信号を、各サーバに送信する。そのため、サーバごとの音声対話の正確性が向上する。

また、実施の形態３における音声対話装置１０２は、応答信号出力部４０を含む。応答信号出力部４０は、音声信号に対する複数の応答信号を複数のサーバ２００から受信し、複数の応答信号の各々に含まれる応答の有効性を示す有効性信号に基づいて、複数の応答信号を音声出力装置に出力する。

このような音声対話装置１０２は、サーバから受信した応答のうち、有効な回答のみを音声出力装置に再生させることができる。例えば、第１サーバ２１０および第２サーバ２２０の応答の内容が「わかりません」であり、かつ、有効性信号の値が「無効」であって、第３サーバ２３０の応答の内容が「Ｘ社の製品はＸ社のオンラインストアから購入可能です」であり、かつ、有効性信号の値は「有効」である場合、音声対話装置１０２は、第３サーバ２３０の応答のみを、音声出力装置に再生させる。

全称的なウェイクアップワードにより問い合わせが行われる場合、ユーザとしては必ずしも全部のサーバからの応答を求めているわけではない。音声対話装置１０２は、良い回答つまり情報豊かな回答を優先して音声出力装置に再生させることができる。

（実施の形態３の変形例）
実施の形態３の変形例における音声対話装置１０２および音声対話方法を説明する。なお、実施の形態３と同様の構成および動作については説明を省略する。

実施の形態３の変形例における全称的なウェイクアップワードは、特定のサーバ以外の複数のサーバ２００を示すものである。例えば、全称的なウェイクアップワードは、「ＯＫ，ＡＡＡ以外」であり、第１サーバ２１０以外の第２サーバ２２０および第３サーバ２３０を示している。

ウェイクアップワード分割部２０は、図１１のステップＳ６０にて、特定のサーバ以外の複数のサーバ２００として、第２サーバ２２０および第３サーバ２３０を送信先として選択する。これ以降のステップは、図１１の各ステップと同様であり、ウェイクアップワード分割部２０は、第２サーバ２２０および第３サーバ２３０に、音声信号を送信する。

＜実施の形態４＞
以上の各実施の形態に示された音声対話装置は、ナビゲーション装置と、通信端末と、サーバと、これらにインストールされるアプリケーションの機能とを適宜に組み合わせて構築されるシステムにも適用することができる。ここで、ナビゲーション装置とは、例えば、ＰＮＤ（Portable Navigation Device）などを含む。通信端末とは、例えば、携帯電話、スマートフォンおよびタブレットなどの携帯端末を含む。

図１３は、実施の形態４における音声対話装置１００およびそれに関連して動作する装置の構成を示すブロック図である。

音声対話装置１００および通信装置１５０がウェイクアップワード認識サーバ３００に設けられている。音声対話装置１００は、車両１に設けられたマイク１１０から通信装置１４０および通信装置１５０を介して入力音声信号を取得する。音声対話装置１００は、全称的なウェイクアップワードがその入力音声信号に含まれている場合に、入力音声信号に基づく音声信号を、複数のサーバ２００に送信する。音声対話装置１００は、複数のサーバ２００から応答信号を受信し、車両１に設けられたスピーカ１２０に、各通信装置を介して出力する。

このように、音声対話装置１００がウェイクアップワード認識サーバ３００に配置されることにより、車載装置の構成を簡素化することができる。

また、音声対話装置１００の機能あるいは構成要素の一部がウェイクアップワード認識サーバ３００に設けられ、他の一部が車両１に設けられるなど、分散して配置されてもよい。

なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。

本発明は詳細に説明されたが、上記した説明は、全ての局面において、例示であって、本発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。

１０音声信号取得部、２０ウェイクアップワード分割部、３０通信処理部、４０応答信号出力部、５０ウェイクアップワード付与部、９４プログラム記録媒体、１００音声対話装置、１１０マイク、１２０スピーカ、２００複数のサーバ。

本発明に係る音声対話装置は、ユーザによって発話された音声に対して音声認識処理を行うサーバに、音声信号を送信する。音声対話装置は、音声信号取得部およびウェイクアップワード分割部を含む。音声信号取得部は、音声に対応する入力音声信号を取得する。ウェイクアップワード分割部は、音声認識処理を行う複数のサーバを示す全称的なウェイクアップワードが入力音声信号に含まれている場合に、入力音声信号に基づく音声信号を、複数のサーバに送信する。ウェイクアップワード分割部は、入力音声信号から全称的なウェイクアップワードを削除して主音声信号を生成し、主音声信号を音声信号として、複数のサーバに送信する。

Claims

ユーザによって発話された音声に対して音声認識処理を行うサーバに、音声信号を送信する音声対話装置であって、
前記音声に対応する入力音声信号を取得する音声信号取得部と、
前記音声認識処理を行う複数のサーバを示す全称的なウェイクアップワードが前記入力音声信号に含まれている場合に、前記入力音声信号に基づく前記音声信号を、前記複数のサーバに送信するウェイクアップワード分割部と、を備える音声対話装置。
前記ウェイクアップワード分割部は、
前記入力音声信号から前記全称的なウェイクアップワードを削除して主音声信号を生成し、前記主音声信号を前記音声信号として、前記複数のサーバに送信する、請求項１に記載の音声対話装置。
前記全称的なウェイクアップワードが前記入力音声信号に含まれている場合に、前記複数のサーバの各々を示す個別のウェイクアップワードに対応する個別音声信号を前記音声信号に付与するウェイクアップワード付与部をさらに備え、
前記ウェイクアップワード分割部は、
前記音声信号に付与された前記個別音声信号に基づいて、前記個別のウェイクアップワードによって示される特定のサーバごとに、前記音声信号を送信する、請求項２に記載の音声対話装置。
前記全称的なウェイクアップワードは、特定のサーバ以外の前記複数のサーバを示すものであり、
前記ウェイクアップワード分割部は、
前記入力音声信号に基づく前記音声信号を、前記特定のサーバ以外の前記複数のサーバに送信する、請求項１に記載の音声対話装置。
前記音声信号に対する複数の応答信号を前記複数のサーバから受信し、前記複数の応答信号の各々に含まれる応答の有効性を示す有効性信号に基づいて、前記複数の応答信号を音声出力装置に出力する応答信号出力部をさらに備える、請求項１に記載の音声対話装置。
ユーザによって発話された音声に対して音声認識処理を行うサーバに、音声信号を送信する音声対話方法であって、
前記音声に対応する入力音声信号を取得し、
前記音声認識処理を行う複数のサーバを示す全称的なウェイクアップワードが前記入力音声信号に含まれている場合に、前記入力音声信号に基づく前記音声信号を、前記複数のサーバに送信する、音声対話方法。
ユーザによって発話された音声に対して音声認識処理を行うサーバに、音声信号を送信する音声対話装置として機能させるための音声対話プログラムが記録され、かつ、コンピュータによって読取可能なプログラム記録媒体であって、
前記音声対話プログラムは、前記コンピュータを、
前記音声に対応する入力音声信号を取得する音声信号取得部と、
前記音声認識処理を行う複数のサーバを示す全称的なウェイクアップワードが前記入力音声信号に含まれている場合に、前記入力音声信号に基づく前記音声信号を、前記複数のサーバに送信するウェイクアップワード分割部と、として機能させるためのプログラムである、プログラム記録媒体。