WO2022180882A1

WO2022180882A1 - 音声制御方法、サーバ装置、及び、発話体

Info

Publication number: WO2022180882A1
Application number: PCT/JP2021/026612
Authority: WO
Inventors: 由暉大橋; 悟松永; 将史鳥飼; 和宏黒山
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2021-02-25
Filing date: 2021-07-15
Publication date: 2022-09-01
Also published as: JPWO2022180882A1; CN115244615A; US20230117212A1; EP4328902A1; JP2023089039A

Abstract

本開示に係る音声制御方法は、音声を出力可能な複数の発話体のそれぞれが音声を出力しているか否かを判定する判定ステップ（Ｓ１０４）と、判定ステップでの判定結果に基づいて、当該複数の発話体のうち、少なくとも１つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で当該少なくとも１つの発話体に音声を出力させるかのタイミングで、当該少なくとも１つの発話体に音声を出力させる出力ステップ（Ｓ１０６）と、を含む。

Description

音声制御方法、サーバ装置、及び、発話体

　本開示は、音声制御方法、サーバ装置、及び、発話体に関する。

　従来、家電等の電子機器において、音声を出力（発話）する装置がある（例えば、特許文献１参照）。

　特許文献１には、電子機器のユーザの属性情報と当該電子機器の属性情報との少なくとも一方に基づいて設定された特性情報に基づいて、当該電子機器が発話するための音声データを作成するサーバ装置が開示されている。

特開２０１５－１６４２５１号公報

　特許文献１に開示されているサーバ装置を備えるシステムのように、例えば、電化製品等の情報を音声でユーザに通知するシステムがある。この種のシステムには、ユーザにとって情報が聞き取りやすいことが要求される。そのためには、情報を音声でユーザに通知する発話体が、適切なタイミングで情報を音声でユーザに通知する必要がある。

　本開示は、発話体が適切なタイミングで情報を音声で通知できる音声制御方法等を提供する。

　本開示の一態様に係る音声制御方法は、音声を出力可能な複数の発話体のそれぞれが音声を出力しているか否かを判定する判定ステップと、前記判定ステップでの判定結果に基づいて、前記複数の発話体のうち、少なくとも１つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で前記少なくとも１つの発話体に音声を出力させるかのタイミングで、前記少なくとも１つの発話体に音声を出力させる出力ステップと、を含む。

　また、本開示の一態様に係るサーバ装置は、音声を出力可能な複数の発話体のそれぞれが音声を出力しているか否かを判定する判定部と、前記判定部の判定結果に基づいて、前記複数の発話体のうち、少なくとも１つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で前記少なくとも１つの発話体に音声を出力させるかのタイミングで、前記少なくとも１つの発話体に音声を出力させる出力部と、を備える。

　また、本開示の一態様に係る発話体は、音声を出力する音声出力部と、サーバ装置と通信するための通信部と、前記通信部を介して前記サーバ装置から受信した音声情報に基づいて、前記音声出力部から音声を出力させる音声制御部と、を備え、前記音声制御部は、前記音声出力部から音声を出力させているか否かを示す音声出力情報を、前記通信部を介して前記サーバ装置に送信し、前記サーバ装置から前記音声情報と、音声を出力させるタイミングを示すタイミング情報とを、前記通信部を介して受信し、受信した前記タイミング情報に基づくタイミングで、前記音声情報に基づく音声を前記音声出力部に出力させる。

　なお、これらの包括的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭ等の記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　本開示によれば、発話体が適切なタイミングで情報を音声で通知できる音声制御方法等を提供できる。

図１は、実施の形態に係る音声発話システムの具体的な構成を示す模式図である。図２は、実施の形態に係るサーバ装置の構成を示すブロック図である。図３は、実施の形態に係るサーバ装置が発話体に発話文を音声で出力させるタイミングを決定する処理方法の第１例を説明するための図である。図４は、実施の形態に係るサーバ装置が発話体に発話文を音声で出力させるタイミングを決定する処理方法の第２例を説明するための図である。図５は、実施の形態に係るサーバ装置が発話体に発話文を音声で出力させるタイミングを決定する処理方法の第３例を説明するための図である。図６は、実施の形態に係るサーバ装置が発話体に発話文を音声で出力させるタイミングを決定する処理方法の第４例を説明するための図である。図７は、実施の形態に係るサーバ装置が発話体に発話文を音声で出力させるタイミングを決定する処理方法の第５例を説明するための図である。図８は、実施の形態に係るサーバ装置の処理手順を示すフローチャートである。図９は、実施の形態に係る発話体の処理手順を示すフローチャートである。

　以下では、本開示の実施の形態について、図面を用いて詳細に説明する。なお、以下に説明する実施の形態は、いずれも本開示の一具体例を示すものである。したがって、以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置及び接続形態、ステップ及びステップの順序等は、一例であり、本開示を限定する趣旨ではない。よって、以下の実施の形態における構成要素のうち、本開示の最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、同じ構成部材については同じ符号を付している。

　（実施の形態）
　［構成］
　図１は、実施の形態に係る音声発話システム５００の具体的な構成を示す模式図である。

　音声発話システム５００は、機器６００において、処理の状態が変わったことを示す情報、故障を通知する情報、フィルタ等の部品の交換をユーザに促すための情報、機器６００が有する機能をユーザに通知（おすすめ通知）するための情報等の情報が出力された場合に、当該情報を音声でユーザに通知（出力）する（言い換えると、当該情報を発話する）装置である。例えば、機器６００が洗濯機であり、洗濯が終了したとする。この場合、例えば、機器６００は、洗濯が終了したことを示す動作情報をサーバ装置１００に送信する。サーバ装置１００は、当該動作情報を受信した場合、音声を出力可能な機器である発話体２００に、例えば、「洗濯が終わりましたよ」等の発話文を音声で出力するための音声ファイル（音声データ）を送信する。発話体２００は、例えば、音声を出力するためのスピーカ等の機器を有し、受信した音声ファイルに基づいて、「洗濯が終わりましたよ」等の発話文を音声で出力する（つまり、発話する）。

　音声発話システム５００は、１以上の機器６００と、サーバ装置１００と、１以上の発話体２００と、を備える。

　機器６００は、例えば、冷蔵庫、洗濯機、電子レンジ、照明装置、ドアホン等の電化製品等であって、機器６００の情報を出力可能な機器（情報元機器）である。より具体的に例えば、機器６００は、ユーザの宅内にある通信可能な電化製品（家電）である。機器６００は、例えば、機器６００を示す固有の識別子である識別情報、機器６００の性能（スペック）等を示す機器情報、及び、処理（動作）した内容を示す動作情報、故障等の機器６００の状態を示す状態情報等をサーバ装置１００に送信する。なお、動作情報には、当該動作情報が示す動作内容を実行した機器６００を示す機器情報が含まれていてもよい。

　また、機器６００は、例えば、機器６００のユーザを示す情報をサーバ装置１００に送信する。当該ユーザを示す情報は、例えば、機器６００が有する図示しないタッチパネル等のユーザからの入力を受け付ける受付部を介してユーザから受け付ける。

　なお、機器６００は、例えば、スマートホン等の携帯端末とは異なる機器である。具体的には、機器６００は、例えば、携帯端末とは異なり、複数のユーザに利用され得る（例えば、複数のユーザが利用することが想定された）機器である。

　スマートホン等の携帯端末は、利用するユーザが特定されている。そのため、携帯端末によってユーザに情報を通知する際に、携帯端末が別の情報をユーザに通知していたとしても、携帯端末のユーザが当該通知の対象者であるユーザだけである、つまり、携帯端末をユーザが占有していることが想定されるため、携帯端末は、ユーザに複数の通知をする場合においても、当該複数の通知を順番に行えばよい。

　一方、家電機器は、家族で共有されている等、通知の対象者であるユーザが占有しているとは限らず、他のユーザに占有されている可能性がある。そのため、このような家電機器である機器６００に関する情報を特定のユーザに通知を行うためには、ユーザ以外に占有されている場合に通知を保留させる必要がある等の課題がある。

　そこで、音声発話システム５００では、機器６００のユーザに対して、適切に機器６００に関する情報を通知できるように、例えば、機器６００は、機器６００の機器情報及び動作情報等とともに、機器６００のユーザを示す情報をサーバ装置１００に送信する。

　機器６００は、例えば、サーバ装置１００と通信するための通信インターフェースと、冷蔵、洗濯、加熱等の処理を実行する実行部と、機器６００の状態を検出するためのセンサ等により実現される検出部と、機器６００の各種処理を制御するプロセッサ及びメモリ等により実現される制御部と、を備える。

　サーバ装置１００は、機器６００から受信した情報に基づいて、発話体２００に出力させる発話文（シナリオ）を決定し、作成した発話文を発話体２００に音声で出力させる。例えば、サーバ装置１００は、機器６００から動作情報を受信した場合に、動作情報に応じた音声ファイル（音声データ）を選択して、選択した音声ファイルを通知情報（音声情報ともいう）として発話体２００に送信することで、発話体２００から当該音声ファイルに基づく音声を出力させる。

　発話文としては、機器６００が動作を開始したことを示す文章、機器６００が動作を終了したことを示す文章、他の機器６００と連係して動作したことを示す文章、バージョンアップをユーザに促すための文章、機器６００が有する機能の利用をユーザにおすすめするための文章、故障したことを示す文章等が例示される。

　サーバ装置１００は、例えば、機器６００、発話体２００等の装置と通信するための通信インターフェース、プログラムが格納された不揮発性メモリ、プログラムを実行するための一時的な記憶領域である揮発性メモリ、信号の送受信をするための入出力ポート、プログラムを実行するプロセッサ等を備えるコンピュータにより実現される。

　発話体２００は、エアコン（エアコンディショナ）、テレビ（テレビジョン）、自律走行型掃除機（いわゆる、ロボット掃除機）等の電化製品等であって、スピーカ等の音声を出力可能な部品を備える機器（スピーカ搭載家電）である。

　発話体２００は、例えば、サーバ装置１００から音声ファイル等の音声情報を受信した場合に、受信した音声情報に基づく音声を出力する。

　なお、図１には、機器６００を３つ図示しているが、音声発話システム５００が備える機器６００の数は、１つでもよいし、複数でもよく、特に限定されない。

　また、図１には、発話体２００を３つ図示しているが、音声発話システム５００が備える発話体２００の数は、１つでもよいし、複数でもよく、特に限定されない。

　サーバ装置１００は、３つの機器６００及び３つの発話体２００のそれぞれと、インターネット等のネットワークを介して通信可能に接続されている。

　サーバ装置１００と、３つの機器６００及び３つの発話体２００のそれぞれとは、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）等を介して通信可能に接続されていてもよいし、無線通信可能に接続されていてもよい。

　また、サーバ装置１００と、３つの機器６００及び３つの発話体２００のそれぞれとの通信に用いられる通信規格は、特に限定されない。通信規格としては、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又は、ＺｉｇＢｅｅ（登録商標）等が例示される。

　３つの機器６００及び３つの発話体２００のそれぞれは、例えば、ユーザが居住する家屋内に配置されている。また、サーバ装置１００は、例えば、家屋の外部に配置されている。

　図２は、実施の形態に係るサーバ装置１００を示すブロック図である。なお、図２には、機器６００を１つのみ代表して示しまた、図２には、発話体２００を３つ示しているが、３つの発話体２００を区別するために、発話体２０１、発話体２０２、発話体２０３と符号を付している。

　サーバ装置１００は、取得部１１０と、シナリオ決定部１２０と、発話体決定部１３０と、判定部１４０と、タイミング決定部１５０と、出力部１６０と、記憶部１７０と、を備える。

　取得部１１０は、機器６００の性能、種類、型番等の機器情報、及び、機器６００の動作履歴（動作した内容）を示す動作情報等の機器６００に関する情報を取得する処理部である。取得部１１０は、例えば、サーバ装置１００が備える図示しない通信インターフェース等の通信部を介して機器６００と通信することで、機器情報及び／又は動作情報を取得する。当該通信部は、例えば、機器６００及び発話体２００と通信するための通信インターフェースである。当該通信部は、例えば、発話体２００及び機器６００と有線通信する場合、通信線が接続されるコネクタ等により実現され、無線通信する場合、アンテナ及び無線通信回路等により実現される。

　なお、サーバ装置１００がユーザからの入力を受け付けるマウス、キーボード等の受付装置を備える場合、当該受付装置を介して機器情報及び／又は動作情報を取得してもよい。

　取得部１１０は、取得した機器情報及び動作情報を記憶部１７０に記憶させたり、シナリオ決定部１２０に出力したりする。

　シナリオ決定部１２０は、取得部１１０が取得した動作情報が所定の条件を満たすか否かを判定し、発話体２００に発話させる発話文を決定する処理部である。具体的には、シナリオ決定部１２０は、取得部１１０が取得した動作情報に基づいて、発話体２００に音声を出力させるイベントが発生したか否かを判定する。例えば、記憶部１７０には、イベントが発生した（つまり、所定の条件を満たす）と判定する機器６００の種類に応じた動作内容が記憶されている。例えば、シナリオ決定部１２０は、取得部１１０が取得した動作情報が示す動作内容と、記憶部１７０に記憶されているイベントが発生したと判定する機器６００の種類に応じた動作内容とが一致するか否かを判定することで、発話体２００に音声を出力させるイベントが発生したか否かを判定する。

　所定の条件は、機器６００が動作を開始した、機器６００が動作を終了した、他の機器６００と連係して動作した、バージョンアップが可能となった、故障した等が例示される。

　なお、所定の条件は、予め任意に定められてよい。

　シナリオ決定部１２０は、例えば、取得部１１０が取得した動作情報が示す動作内容が所定の条件を満たすと判定した場合、当該動作情報に応じた発話文を決定する。例えば記憶部１７０には、動作内容と紐付けられた発話文が記憶されており、動作情報が示す動作内容が紐付けられた発話文を選択することで、発話体２００に音声で出力させる発話文を決定する。

　発話体決定部１３０は、シナリオ決定部１２０が決定した発話文を複数の発話体２００のうちのどの発話体２００に音声で出力させるかを決定する処理部である。例えば、記憶部１７０には、機器６００を示す機器情報と、発話体２００を示す発話体情報とは、予め紐付けられて記憶されている。例えば、機器６００の一例である第１機器の機器情報と、発話体２０１、２０２の発話体情報とが紐付けられている場合、第１機器の動作情報を取得部１１０が取得したとき、発話体２０１と発話体２０２とが当該動作情報に応じた発話文を音声で出力する。また、例えば、機器６００の別の一例である第２機器の機器情報と、発話体２０１の発話体情報とが紐付けられている場合、第２機器の動作情報を取得部１１０が取得したとき、発話体２０１が当該動作情報に応じた発話文を音声で出力する。

　また、例えば、記憶部１７０には、機器６００及び発話体２００の所有者を示す所有者情報が機器情報及び発話体情報に紐付けられて記憶されている。この場合、例えば、発話体決定部１３０は、機器６００の動作情報を取得部１１０が取得したと、機器６００と所有者が同じ発話体２００に当該動作情報に応じた発話文を音声で出力させるように、発話体２００を決定する。このように、例えば、発話体決定部１３０は、機器情報、発話体情報、及び、所有者情報に基づいて、シナリオ決定部１２０が決定した発話文を、音声発話システム５００が備える複数の発話体２００のうちのどの発話体２００に音声で出力させるかを決定する。

　なお、所有者情報は、予め記憶部１７０に記憶されていてもよい。或いは、例えば、取得部１１０は、ユーザから図示しないスマートホン等の受付装置で受け付けた所有者情報を上記した図示しない通信部を介して取得し、取得した所有者情報を記憶部１７０に記憶させてもよい。

　判定部１４０は、複数の発話体２００のそれぞれが音声を出力しているか否かを判定する処理部である。例えば、判定部１４０は、発話体２０１、発話体２０２、及び、発話体２０３のそれぞれが、音声を出力しているか否かを判定する。

　なお、ここでいう複数の発話体２００が音声を出力しているか否かとは、例えば、サーバ装置１００が発話文を発話体２００に音声で出力されているか否かを示す。例えば、発話体２００によっては、自装置の情報を通知するために音声を出力していたり、発話体２００がテレビである場合には、映像にあわせて音声を出力している場合がある。このように、判定部１４０が判定する発話体２００が出力している音声は、サーバ装置１００が発話体２００に出力させている音声（発話文に基づく音声）以外の音声については、含まれていてもよいし、含まれていなくてもよい。

　例えば、判定部１４０は、発話体２０１、発話体２０２、及び、発話体２０３のそれぞれに、シナリオ決定部１２０が決定した発話文を音声で出力させているか否かを判定する。例えば、判定部１４０は、後述するタイミング決定部１５０が決定したタイミングと、シナリオ決定部１２０が決定した発話文の長さとから、発話体２０１、発話体２０２、及び、発話体２０３のそれぞれが、音声を出力しているか否かを判定する。発話文の長さに応じた音声の出力時間は、例えば、予め記憶部１７０に記憶されていてもよいし、一音を出力するために係る時間等を示す情報が予め記憶部１７０に記憶されていて、当該情報と発話文とから発話文を音声で出力するために係る時間を算出してもよい。或いは、判定部１４０は、上記したサーバ装置１００が備える上記した図示しない通信部を介して発話体２０１、発話体２０２、及び、発話体２０３のそれぞれと通信することで、発話体２０１、発話体２０２、及び、発話体２０３のそれぞれが発話しているか否かを示す情報（音声出力情報）を取得してもよい。

　タイミング決定部１５０は、判定部１４０の判定結果に基づいて、複数の発話体２００のうち、少なくとも１つの発話体２００に音声をすぐに出力させるか、又は、音声を出力している発話体２００が当該音声の出力を終了するまで待機した後で少なくとも１つの発話体２００に音声を出力させるかのタイミングを決定する処理部である。

　例えば、タイミング決定部１５０は、発話体決定部１３０が複数の発話体２００に発話文（より具体的には、同じ発話文）を音声で出力させると決定した場合、当該複数の発話体２００のうち、音声を出力していない第１発話体については、当該第１発話体にすぐに音声を出力させるタイミングを決定し、当該複数の発話体２００のうち、音声を出力している第２発話体については、当該音声の出力を終了するまで待機した後で当該第２発話体に音声を出力させるタイミングを決定する。

　或いは、例えば、タイミング決定部１５０は、発話体決定部１３０が複数の発話体２００に発話文（より具体的には、同じ発話文）を音声で出力させると決定した場合、当該複数の発話体２００のうち、少なくともいずれかの発話体２００が音声を出力しているとき、当該少なくともいずれかの発話体２００が音声の出力を終了してから当該少なくとも１つの発話体２００に音声を出力させるタイミングを決定する。

　或いは、例えば、タイミング決定部１５０は、複数の発話体２００のそれぞれの所有者を示す所有者情報を取得し、複数の発話体２００のうち、音声を出力させる少なくとも１つの発話体２００と同じ所有者が所有する発話体２００が音声を出力している場合、当該発話体２００が音声の出力を終了してから当該少なくとも１つの発話体２００に音声を出力させるタイミングを決定する。

　この場合、例えば、タイミング決定部１５０は、複数の発話体２００のうち、音声で出力させる発話文の対象となるユーザが所有する、当該発話文を音声で出力させる少なくとも１つの発話体２００と同じ所有者が所有する発話体２００が音声を出力している場合、当該発話体が音声の出力を終了してから当該少なくとも１つの発話体２００に音声を出力させるタイミングを決定する。サーバ装置１００は、例えば、機器６００から動作情報を取得した場合、当該動作情報に基づく発話文を、機器６００の所有者であるユーザに当該発話文を通知するために、当該発話文の対象（通知対象）となるユーザが所有する発話体２００、つまり、機器６００の所有者と同じ所有者の発話体２００に音声で出力させる。例えば、このようなときに、タイミング決定部１５０は、発話文を音声で出力させる少なくとも１つの発話体２００（例えば、発話体２０１）と所有者が同じユーザである発話体２００（例えば、発話体２０２）が音声を出力しているか否かに基づいて、当該少なくとも１つの発話体２００（例えば、発話体２０１）に音声を出力させるタイミングを決定する。

　或いは、例えば、タイミング決定部１５０は、複数の発話体２００のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも１つの発話体２００の所有者が第１ユーザ及び第２ユーザである場合、複数の発話体２００のうち、第１ユーザ及び第２ユーザの少なくとも一方が所有者である発話体２００が音声を出力しているとき、当該少なくとも一方が所有者である発話体２００が音声の出力を終了してから、少なくとも一方が所有者である少なくとも１つの発話体２００に音声を出力させるタイミングを決定する。

　或いは、例えば、タイミング決定部１５０は、複数の発話体２００のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも１つの発話体２００が、第１ユーザ及び第２ユーザのうち第１ユーザが所有者であって、複数の発話体２００において、第１ユーザが所有する１以上の発話体２００のうち、少なくともいずれかの発話体２００を第２ユーザが所有する場合、第２ユーザが所有する発話体２００が音声を出力しているとき、当該第２ユーザが所有する発話体２００が音声の出力を終了してから音声を出力させる少なくとも１つの発話体２００に音声を出力させるタイミングを決定する。

　なお、タイミング決定部１５０は、音声をすぐに出力させることを示す情報、又は、発話体２００が音声の出力を終了するまで待機した後で音声を出力させる指示を示す情報をタイミング情報として音声情報とともに後述する出力部１６０に出力させてもよい。或いは、例えば、タイミング決定部１５０は、音声を出力させる時刻を示す情報、又は、音声情報を受信してからの音声を出力させるまでの時間を示す情報等をタイミング情報として音声情報とともに出力部１６０に出力させてもよい。

　タイミング決定部１５０が発話体２００に発話文を音声で出力させるタイミングを決定する処理方法の具体例については、後述する。

　出力部１６０は、発話体２００の音声の出力を制御する処理部である。具体的には、出力部１６０は、判定部１４０の判定結果に基づいて、複数の発話体２００のうち、少なくとも１つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体２００が当該音声の出力を終了するまで待機した後で当該少なくとも１つの発話体２００に音声を出力させるかのタイミングで、当該少なくとも１つの発話体２００に音声を出力させる。より具体的には、出力部１６０は、シナリオ決定部１２０が決定した発話文を、発話体決定部１３０が決定した少なくとも１つの発話体２００に、タイミング決定部１５０が決定したタイミングで、音声で出力させる。例えば、出力部１６０は、当該発話文を音声で１以上の発話体２００に出力させるための情報である音声情報と、タイミング決定部１５０が決定したタイミングを示すタイミング情報とを、サーバ装置１００が備える上記した図示しない通信部を介して、発話体決定部１３０が決定した１以上の発話体２００に送信する。

　音声情報は、機器６００の動作情報に応じた発話文を発話体２００に音声で出力させるための情報である。例えば、音声情報は、機器６００の動作情報に応じた音声ファイル（音声データ）である。音声ファイルは、例えば、動作内容と紐付けられて記憶部１７０に記憶されている。

　例えば、出力部１６０は、取得部１１０が取得した動作情報に基づいてシナリオ決定部１２０が決定した発話文に応じた音声ファイルを記憶部１７０から取得し、取得した音声ファイルを音声情報として発話体２００に出力（送信）する。

　これにより、ユーザによって設定（選択）された発話文は、所定の条件（例えば、機器６００が所定の動作を実行した、所定の状態になった等）を満たす場合に、発話体決定部１３０が決定した１以上の発話体２００から当該発話文が音声としてタイミング決定部１５０が決定したタイミングで出力される。

　なお、サーバ装置１００は、上記した音声情報をサーバ装置１００とは異なる他のサーバ装置等のコンピュータから音声情報を受信してもよい。例えば、記憶部１７０は、音声ファイルに対応したＵＲＬ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｌｏｃａｔｏｒ）を示す情報を記憶していてもよい。例えば、シナリオ決定部１２０は、発話文を決定した後に、決定した発話文に応じた音声情報に対応するＵＲＬを示す情報を当該他のサーバ装置に送信することで、当該音声情報を取得してもよい。

　取得部１１０と、シナリオ決定部１２０と、発話体決定部１３０と、判定部１４０と、タイミング決定部１５０と、出力部１６０との各処理部は、メモリと、当該メモリに記憶された制御プログラムと、当該制御プログラムを実行するＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等のプロセッサとから実現される。また、これらの処理部は、１つのメモリ及び１つのプロセッサから実現されてもよいし、互いに異なる又は任意の組み合わせで複数のメモリ及び複数のプロセッサによって実現されてもよい。また、これらの処理部は、例えば、専用の電子回路等により実現されてもよい。

　記憶部１７０は、機器６００を示す機器情報と、発話体２００を示す発話体情報と、機器６００及び発話体２００の所有者を示す所有者情報と、複数の発話文を示す情報（シナリオ情報）と、を記憶する記憶装置である。また、記憶部１７０は、発話文に応じた音声ファイルを記憶していてもよい。

　記憶部１７０は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、又は、フラッシュメモリ等により実現される。

　なお、例えば、記憶部１７０には、音声で出力させる発話文を示す設定情報が記憶されていてもよい。設定情報は、記憶部１７０に記憶されている１以上の発話文（より具体的には、発話文を示す情報）のうち、ユーザによって音声で出力させると設定された発話文を示す情報である。ユーザによっては、音声で通知されたい情報と音声で通知される必要がない情報とがある場合がある。そこで、例えば、取得部１１０は、ユーザから図示しないスマートホン等の受付装置で受け付けた発話文を音声で出力するか否かを示す情報を設定情報として上記した図示しない通信部を介して取得し、取得した設定情報を記憶部１７０に記憶させる。例えば、シナリオ決定部１２０は、取得部１１０が動作情報を取得した場合、記憶部１７０に記憶されている設定情報に基づいて、当該動作情報に関する発話文を発話体２００に音声で出力させるか否かを判定してもよい。設定情報は、ユーザごとに設定されていてもよい。

　発話体２００は、上記した通り、例えば、エアコン、テレビ、自律走行型掃除機等の電化製品等であって、スピーカ等の音声を出力可能な部品を備える機器である。発話体２００は、例えば、サーバ装置１００から受信した音声ファイル等の音声情報に基づく音声を出力する。

　なお、発話文及び当該発話文に応じた音声ファイルは、ＨＤＤ等の図示しない記憶部に記憶され、当該記憶部を発話体２００が備えてもよい。この場合、例えば、出力部１６０は、発話体２００に音声で出力させる発話文を示す情報、又は、当該発話文と紐付く音声ファイルを示す情報を音声情報として発話体２００に送信してもよい。この場合、例えば、発話体２００は、当該記憶部に記憶している１以上の音声ファイルの中から、音声を出力するための音声ファイルを受信した音声情報に基づいて選択し、選択した音声ファイルに基づく音声を出力する。

　発話体２００は、例えば、スピーカ、アンプ、サーバ装置１００から受信した音声情報に基づく音声を当該スピーカから出力させるための制御プログラムが記憶されたメモリ、当該制御プログラムを実行するプロセッサ、サーバ装置１００と通信するための通信インターフェースを備える。当該通信インターフェースは、例えば、発話体２００がサーバ装置１００と有線通信する場合、通信線が接続されるコネクタ等により実現され、無線通信する場合、アンテナ及び無線通信回路等により実現される。

　発話体２００は、例えば、通信部２１０と、音声制御部２２０と、音声出力部２３０と、を備える。

　通信部２１０は、サーバ装置１００と通信するための通信インターフェースである。

　音声制御部２２０は、通信部２１０を介してサーバ装置１００（より具体的には、出力部１６０）から受信（取得）した音声情報に基づいて、音声出力部２３０から音声を出力させる処理部である。具体的には、音声制御部２２０は、音声出力部２３０から音声を出力させているか否かを示す音声出力情報を、通信部２１０を介してサーバ装置１００に送信し、サーバ装置１００から音声情報と、音声を出力させるタイミングを示すタイミング情報とを、通信部２１０を介して受信し、受信したタイミング情報に基づくタイミングで、音声情報に基づく音声を音声出力部２３０に出力させる。

　音声制御部２２０は、メモリと、当該メモリに記憶された制御プログラムと、当該制御プログラムを実行するＣＰＵ等のプロセッサとから実現される。また、音声制御部２２０は、例えば、専用の電子回路等により実現されてもよい。

　音声出力部２３０は、音声制御部２２０によって制御されて音声を出力する装置である。音声出力部２３０は、例えば、スピーカ等により実現される。

　［具体例］
　続いて、タイミング決定部１５０が発話体２００に発話文を音声で出力させるタイミングを決定する処理方法の具体例について説明する。なお、以下で説明する第１例～第５例では、発話体２０１と発話体２０２とは、ユーザＡが所有者であるとして説明する。また、以下で説明する第１例～第５例では、発話体２０２と発話体２０３とは、ユーザＢが所有者であるとして説明する。つまり、発話体２０２は、ユーザＡとユーザＢとに共有されている。また、以下で説明する第１例～第５例では、ユーザＢに対して情報を音声で出力させる場合を示す。

　＜第１例＞
　図３は、実施の形態に係るサーバ装置１００が発話体２００に発話文を音声で出力させるタイミングを決定する処理方法の第１例を説明するための図である。

　本例では、発話体２０２及び発話体２０３に発話文を音声でこれから出力させ、且つ、発話体２０２が音声を出力しているとする。つまり、本例では、発話体２０２及び発話体２０３が発話候補であり、且つ、発話体２０２が発話中である。

　この場合、タイミング決定部１５０は、発話中の発話体２０２には、発話が終了するまで待機した後に音声を出力させるようにタイミングを決定する。一方、タイミング決定部１５０は、発話していない発話体２０３には、発話文をすぐに発話させるようにタイミングを決定する。そのため、本例では、同じ発話文を発話する発話体２０２と発話体２０３とは、異なるタイミングで発話文を発話する。

　このように、第１例では、タイミング決定部１５０は、２以上の発話体２００のうち、音声を出力していない第１発話体については、当該第１発話体にすぐに音声を出力させるようにタイミングを決定し、当該２以上の発話体２００のうち、音声を出力している第２発話体については、当該音声の出力を終了するまで待機した後で当該第２発話体に音声を出力させるようにタイミングを決定する。

　なお、発話候補となる発話体２００は、所有者がユーザＡでもユーザＢでもよく、所有者が特に限定されない。例えば、ユーザＢに対しての情報を音声で出力させる場合、発話体２００は、ユーザＢが所有する発話体２０２及び発話体２０３の少なくとも一方であるとよい。

　＜第２例＞
　図４は、実施の形態に係るサーバ装置１００が発話体２００に発話文を音声で出力させるタイミングを決定する処理方法の第２例を説明するための図である。

　この場合、タイミング決定部１５０は、発話中の発話体２０２には、発話が終了するまで待機した後に発話させるようにタイミングを決定する。また、タイミング決定部１５０は、発話していない発話体２０３についても、発話体２０２の発話が終了するまで待機した後に発話させるようにタイミングを決定する。そのため、本例では、同じ発話文を発話する発話体２０２と発話体２０３とは、同じタイミングで発話文を発話する。

　このように、第２例では、タイミング決定部１５０は、いずれも発話候補である２以上の発話体２００のうち、少なくともいずれかの発話体２００が音声を出力している場合、当該少なくともいずれかの発話体２００が音声の出力を終了してから２以上の発話体２００に音声を出力させるように（例えば、同じ発話文が音声で出力されるタイミングが同時になるように）タイミングを決定する。

　＜第３例＞
　図５は、実施の形態に係るサーバ装置１００が発話体２００に発話文を音声で出力させるタイミングを決定する処理方法の第３例を説明するための図である。

　本例では、発話体２０３に発話文を音声でこれから出力させ、且つ、発話体２０２が音声を出力しているとする。つまり、本例では、発話体２０３が発話候補であり、且つ、発話体２０２が発話中である。

　本例では、タイミング決定部１５０は、発話体２０１、発話体２０２、及び、発話体２０３のそれぞれの所有者情報を取得することで、発話体２０３と所有者が同じユーザＢである発話体２００を特定する。本例では、タイミング決定部１５０は、発話体２０３と所有者が同じユーザＢである発話体２０２を特定する。また、例えば、タイミング決定部１５０は、発話候補の発話体２０３と所有者が同じ発話体２０２が発話している場合、発話体２０２が発話を終了してから発話体２０３に発話させるようにタイミングを決定する。一方、例えば、タイミング決定部１５０は、発話候補の発話体２０３と所有者が同じ発話体２０２が発話しておらず、且つ、発話候補の発話体２０３と所有者が異なる発話体２０１が発話しているとしても、すぐに発話体２０３に発話させるようにタイミングを決定する。

　このように、第３例では、タイミング決定部１５０は、複数の発話体２００のそれぞれの所有者を示す所有者情報を取得し、複数の発話体２００のうち、音声を出力させる少なくとも１つの発話体２００と同じ所有者が所有する発話体２００が音声を出力している場合、当該発話体２００が音声の出力を終了してから当該少なくとも１つの発話体２００に音声を出力させるようにタイミングを決定する。

　なお、例えば、判定部１４０は、発話体２０１、発話体２０２、及び、発話体２０３のそれぞれの所有者情報を取得し、発話体２０３と、発話体２０３と所有者が同じユーザＢである発話体２０２とのそれぞれが発話中であるか否かを判定してもよいし、音声発話システム５００が備える全ての発話体である発話体２０１、発話体２０２、及び、発話体２０３のそれぞれについて発話中であるか否かを判定してもよい。

　＜第４例＞
　図６は、実施の形態に係るサーバ装置１００が発話体２００に発話文を音声で出力させるタイミングを決定する処理方法の第４例を説明するための図である。

　本例では、発話体２０２に発話文を音声でこれから出力させ、且つ、発話体２０１が音声を出力しているとする。つまり、本例では、発話体２０２が発話候補であり、且つ、発話体２０１が発話中である。

　本例では、タイミング決定部１５０は、発話体２０１、発話体２０２、及び、発話体２０３のそれぞれの所有者情報を取得することで、発話体２０２と所有者が同じユーザＡ及びユーザＢの少なくとも一方である発話体２００を特定する。本例では、タイミング決定部１５０は、発話体２０２と所有者が同じユーザＡである発話体２０１と、発話体２０２と所有者が同じユーザＢである発話体２０３と、を特定する。また、例えば、タイミング決定部１５０は、発話候補の発話体２０２と所有者が少なくとも１人は同じ発話体２０１及び発話体２０３の少なくとも一方が発話している場合、発話体２０１及び発話体２０３の両方が発話を終了してから発話体２０２に発話させるようにタイミングを決定する。本例では、タイミング決定部１５０は、発話候補の発話体２０２と所有者が少なくとも１人は同じ発話体２０１が発話しているため、発話体２０１が発話を終了してから発話体２０２に発話させるようにタイミングを決定する。そのため、本例では、例えば、タイミング決定部１５０は、発話候補の発話体２０２と所有者が少なくとも１人は同じ発話体２０１が発話しておらず、且つ、発話候補の発話体２０２と所有者が少なくとも１人は同じ発話体２０３が発話している場合には、発話体２０３が発話を終了してから発話体２０２に発話させるようにタイミングを決定する。

　このように、第４例では、タイミング決定部１５０は、複数の発話体２００のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも１つの発話体２００の所有者が第１ユーザ及び第２ユーザである場合、複数の発話体２００のうち、第１ユーザ及び第２ユーザの少なくとも一方が所有者である発話体２００が音声を出力しているとき、当該少なくとも一方が所有者である発話体２００が音声の出力を終了してから、少なくとも一方が所有者である少なくとも１つの発話体２００に音声を出力させるようにタイミングを決定する。

　＜第５例＞
　図７は、実施の形態に係るサーバ装置１００が発話体２００に発話文を音声で出力させるタイミングを決定する処理方法の第５例を説明するための図である。

　本例では、発話体２０３に発話文を音声でこれから出力させ、且つ、発話体２０１が音声を出力しているとする。つまり、本例では、発話体２０３が発話候補であり、且つ、発話体２０１が発話中である。

　本例では、タイミング決定部１５０は、発話体２０１、発話体２０２、及び、発話体２０３のそれぞれの所有者情報を取得することで、発話体２０３と所有者が同じユーザＢが所有する発話体２０２及び発話体２０３について、ユーザＢ以外の所有者がいるか否かを判定する。本例では、ユーザＢが所有する発話体２０２は、ユーザＡも所有しているため、ユーザＢが所有する発話体２０２及び発話体２０３について、ユーザＢ以外の所有者がいると判定する。さらに、タイミング決定部１５０は、ユーザＢが所有する発話体２０２及び発話体２０３について、ユーザＢ以外の所有者がいると判定した場合、当該ユーザＢ以外の所有者が所有する発話体２００を特定する。本例では、タイミング決定部１５０は、ユーザＢが所有する発話体２０２及び発話体２０３について、ユーザＢ以外の所有者であるユーザＡが所有する発話体２０１を特定する。また、例えば、タイミング決定部１５０は、特定した発話体２００が発話している場合、特定した発話体２００が発話を終了してから発話体２０３に発話させるようにタイミングを決定する。本例では、タイミング決定部１５０は、特定した発話体２０１が発話しているため、特定した発話体２０１が発話を終了してから発話体２０３に発話させるようにタイミングを決定する。

　このように、第５例では、タイミング決定部１５０は、複数の発話体２００のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも１つの発話体２００が、第１ユーザ（例えば、ユーザＢ）及び第２ユーザ（例えば、ユーザＡ）のうち、第１ユーザが所有者であって、複数の発話体２００において、第１ユーザが所有する１以上の発話体２００のうち、少なくともいずれかの発話体２００を第２ユーザが所有する場合、第２ユーザが所有する発話体２００が音声を出力しているとき、当該第２ユーザが所有する発話体２００が音声の出力を終了してから音声を出力させる少なくとも１つの発話体２００に音声を出力させるようにタイミングを決定する。

　なお、上記した第１例、第２例、第３例、第４例、及び、第５例は、可能な範囲で任意に組み合わされて実現されてもよい。

　例えば、上記した第５例において、第１ユーザが所有する一の発話体２００から音声を出力させる場合に、第１ユーザが所有する他の発話体２００が発話中である否かの判定が行われてもよい。例えば、当該他の発話体２００が発話中である場合、当該他の発話体２００が音声の出力を終了するまで待機した後で当該一の発話体２００に音声を出力させる。ここで、当該一の発話体２００の所有者が第１ユーザだけでなく第２ユーザも含まれる場合、第１ユーザが所有する他の発話体２００が発話中ではないとき、さらに、第２ユーザが所有する発話体２００が発話中である否かの判定が行われてもよい。この場合、例えば、第１ユーザが所有する他の発話体２００が発話中ではなく、且つ、第２ユーザが所有する発話体２００が発話中ではないとき、当該一の発話体２００に音声を出力させる。一方、第２ユーザが所有する発話体２００が発話中である場合、第２ユーザが所有する発話体２００が音声の出力を終了するまで待機した後で当該一の発話体２００に音声を出力させる。

　［処理手順］
　続いて、サーバ装置１００が実行する処理の処理手順について説明する。

　図８は、実施の形態に係るサーバ装置１００の処理手順を示すフローチャートである。

　まず、シナリオ決定部１２０は、取得部１１０が、機器６００から機器６００の動作情報を取得したか否かを判定する（Ｓ１０１）。

　シナリオ決定部１２０は、取得部１１０が動作情報を取得していないと判定した場合（Ｓ１０１でＮｏ）、処理をステップＳ１０１に戻す。

　一方、シナリオ決定部１２０は、取得部１１０が動作情報を取得したと判定した場合（Ｓ１０１でＹｅｓ）、動作情報に基づいて、発話文を決定する（Ｓ１０２）。

　次に、発話体決定部１３０は、例えば、動作情報が示す動作を実行した機器６００を示す機器情報に基づいて、シナリオ決定部１２０が決定した発話文を音声で出力させる少なくとも１つの発話体２００を決定する（Ｓ１０３）。

　次に、判定部１４０は、音声発話システム５００が備える複数の発話体２００（より具体的には、記憶部１７０に発話体２００を示す発話体情報が記憶されている発話体２００）が音声を出力しているか否かを判定する（Ｓ１０４）。

　次に、タイミング決定部１５０は、判定部１４０の判定結果に基づいて、複数の発話体２００のうち、少なくとも１つの発話体２００に音声をすぐに出力させるか、又は、音声を出力している複数の発話体２００が当該音声の出力を終了するまで待機した後で少なくとも１つの発話体２００に音声を出力させるかのタイミングを決定する（Ｓ１０５）。タイミング決定部１５０は、例えば、上記した第１例～第５例のいずれかの判定方法を用いて、発話体決定部１３０が決定した少なくとも１つの発話体２００に音声を出力させるタイミングを決定する。

　次に、出力部１６０は、シナリオ決定部１２０が決定した発話文を、発話体決定部１３０が決定した少なくとも１つの発話体２００に、タイミング決定部１５０が決定したタイミングで、音声で出力させる（Ｓ１０６）。

　なお、ステップＳ１０１で扱う情報は、機器６００の動作情報だけではなく、機器６００のバージョンアップを示す情報、故障したことを示す情報等、ユーザに通知するための情報であれば、任意の情報でよい。ステップＳ１０２以降の処理についても、機器６００のバージョンアップを示す情報、故障したことを示す情報等、ユーザに通知するための情報に基づいて、発話文を決定して当該発話文を発話体２００から音声で出力させてもよい。

　続いて、発話体２００が実行する処理の処理手順について説明する。

　図９は、実施の形態に係る発話体２００の処理手順を示すフローチャートである。

　まず、音声制御部２２０は、音声出力部２３０から音声を出力させているか否かを示す音声出力情報を、通信部２１０を介してサーバ装置１００に送信する（Ｓ２０１）。音声制御部２２０がステップＳ２０１を実行するタイミングは、特に限定されない。音声制御部２２０は、予め任意に定められる所定の周期で繰り返しステップＳ２０１を実行してもよいし、サーバ装置１００から音声出力情報を要求する情報を受信した場合にステップＳ２０１を実行してもよい。

　なお、音声制御部２２０は、発話が終了したこと（つまり、音声出力部２３０から音声を出力させ終わったこと）を示す情報を音声出力情報として、通信部２１０を介してサーバ装置１００に送信してもよい。

　これによれば、発話体２００に発話を開始させたことはサーバ装置１００でも把握できるため、いつ発話が終了したかさえ分かれば、それぞれの発話体２００が発話中であるか否かをサーバ装置１００が適切に判定できる。

　また、サーバ装置１００は、発話が終了したことを示す音声出力情報が所定の時間受信されない場合、発話体２００の発話が終了していると判定してもよい。

　サーバ装置１００は、例えば、受信した音声出力情報に基づいて、図８に示すステップＳ１０４を実行し、さらに、音声ファイル等の音声情報及びタイミング情報を送信する。

　次に、音声制御部２２０は、サーバ装置１００から音声情報と、音声を出力させるタイミングを示すタイミング情報とを、通信部２１０を介して受信する（Ｓ２０２）。

　次に、音声制御部２２０は、ステップＳ２０２で受信したタイミング情報に基づくタイミングで、音声情報に基づく音声を音声出力部２３０に出力させる（Ｓ２０３）。

　［効果等］
　以上のように、実施の形態に係る音声制御方法は、音声を出力可能な複数の発話体２００が音声を出力しているか否かを判定する判定ステップ（Ｓ１０４）と、判定ステップでの判定結果に基づいて、複数の発話体２００のうち、少なくとも１つの発話体２００に音声をすぐに出力させるか、又は、音声を出力している発話体２００が当該音声の出力を終了するまで待機した後で当該少なくとも１つの発話体２００に音声を出力させるかのタイミングで、当該少なくとも１つの発話体２００に音声を出力させる出力ステップ（Ｓ１０６）と、を含む。

　これによれば、例えば、複数の発話体２００から同時に音声を出力させることで、ユーザが音声を聞き取りにくくなるようなタイミングを避けて発話体２００から音声を出力させることができる。このように、実施の形態に係る音声制御方法によれば、発話体２００が適切なタイミングで情報を音声で通知できる。

　また、例えば、実施の形態に係る音声制御方法は、さらに、判定ステップでの判定結果に基づいて、複数の発話体２００のうち、少なくとも１つの発話体２００に音声をすぐに出力させるか、又は、音声を出力している発話体２００が当該音声の出力を終了するまで待機した後で当該少なくとも１つの発話体２００に音声を出力させるかのタイミングを決定するタイミング決定ステップ（Ｓ１０５）を含む。この場合、例えば、出力ステップでは、タイミング決定ステップで決定したタイミングで、当該少なくとも１つの発話体２００に音声を出力させる。

　これにより、出力ステップでは、判定ステップでの判定結果に基づいて、複数の発話体２００のうち、少なくとも１つの発話体２００に音声をすぐに出力させるか、又は、音声を出力している発話体２００が当該音声の出力を終了するまで待機した後で当該少なくとも１つの発話体２００に音声を出力させるかのタイミングで、当該少なくとも１つの発話体２００に音声を出力させることができる。

　また、例えば、タイミング決定ステップでは、複数の発話体２００のうち、音声を出力していない第１発話体については、当該第１発話体にすぐに音声を出力させるタイミングを決定し、複数の発話体２００のうち、音声を出力している第２発話体については、当該音声の出力を終了するまで待機した後で当該第２発話体に音声を出力させるタイミングを決定する。

　これによれば、発話文を音声で出力させる際に、現在音声を出力しているか否かにより発話体２００が音声を出力するか否かが決定される、そのため、タイミング決定の処理が簡便になる。

　また、例えば、タイミング決定ステップでは、複数の発話体２００のうち、少なくともいずれかの発話体２００が音声を出力している場合、当該少なくともいずれかの発話体２００が音声の出力を終了してから当該少なくとも１つの発話体２００に音声を出力させるタイミングを決定する。

　これによれば、ユーザは、同じ情報を同じタイミングで聞くことができる。そのため、同じ情報を同じタイミングで聞くことによってユーザに誤解が生じたり、ユーザに不快に感じさせたりすることが抑制される。

　また、例えば、タイミング決定ステップでは、複数の発話体２００のそれぞれの所有者を示す所有者情報を取得し、複数の発話体２００のうち、音声を出力させる少なくとも１つの発話体２００と同じ所有者が所有する発話体２００が音声を出力している場合、当該音声を出力している発話体２００が音声の出力を終了してから当該少なくとも１つの発話体に音声を出力させるタイミングを決定する。

　複数の発話体２００のうち、同じユーザが所有する発話体２００からは、当該ユーザに対する情報が音声で出力されている可能性が高い。そのため、同じユーザが所有する複数の発話体２００のそれぞれから異なる発話文を同じタイミングで音声で出力させると、ユーザは複数の情報を同時に聞く必要があり、情報を正しく聞き取れなくなる可能性がある。そこで、複数の発話体２００のうち、音声を出力させる少なくとも１つの発話体２００と同じ所有者が所有する発話体２００が音声を出力している場合、当該発話体２００が音声の出力を終了してから当該少なくとも１つの発話体２００に音声を出力させるようにタイミングを決定することで、同じユーザに対して異なる情報を同じタイミングで通知してしまうことが抑制される。

　また、例えば、タイミング決定ステップでは、複数の発話体２００のうち、音声で出力させる発話文の対象となるユーザが所有する当該少なくとも１つの発話体２００と同じ所有者が所有する発話体２００が音声を出力している場合、当該発話体２００が音声の出力を終了してから当該少なくとも１つの発話体２００に音声を出力させるタイミングを決定する。

　これによれば、同じユーザに対して異なる情報を同じタイミングで通知してしまうことがさらに抑制される。

　また、例えば、タイミング決定ステップでは、複数の発話体２００のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも１つの発話体２００の所有者が第１ユーザ及び第２ユーザである場合、当該複数の発話体２００のうち、第１ユーザ及び第２ユーザの少なくとも一方が所有者である発話体２００が音声を出力しているとき、当該音声を出力している発話体２００が音声の出力を終了してから当該少なくとも１つの発話体２００に音声を出力させるタイミングを決定する。

　例えば、図６に示すように、所有者がユーザＡである発話体２０１が音声を出力しているときに、さらに、ユーザＡも所有する発話体２０２から音声を出力させると、ユーザＡは、発話体２０２から出力させる音声の情報がユーザＢに対する情報であったとしても、音声が聞き取りにくくなる懸念がある。そこで、複数の発話体２００のうち、第１ユーザ及び第２ユーザの少なくとも一方が所有者である発話体２００が音声を出力しているとき、当該少なくとも一方が所有者である発話体２００が音声の出力を終了してから、少なくとも一方が所有者である少なくとも１つの発話体２００に音声を出力させるようにタイミングを決定することで、第１ユーザ及び第２ユーザのいずれにとっても情報が正しく聞き取れなくなることが抑制され得る。

　また、例えば、タイミング決定ステップでは、複数の発話体２００のそれぞれの所有者を示す所有者情報を取得し、音声を出力させる少なくとも１つの発話体２００が、第１ユーザ及び第２ユーザのうち第１ユーザが所有者であって、複数の発話体２００において、第１ユーザが所有する１以上の発話体２００のうち、少なくともいずれかの発話体２００を第２ユーザが所有する場合、第２ユーザが所有する発話体２００が音声を出力しているとき、当該音声を出力している発話体２００が音声の出力を終了してから当該少なくとも１つの発話体２００に音声を出力させるタイミングを決定する。

　例えば、図７に示すように、ユーザＡとユーザＢとが同じ発話体２０２を共有している場合、ユーザＡとユーザＢとは、同じ空間にいることが多い可能性が高い。つまり、ユーザＡが所有している発話体２００とユーザＢが所有している発話体２００とは、同じ空間に配置されている可能性が高い。そのため、ユーザＡが所有している発話体２００とユーザＢが所有している発話体２００とに同時に音声を出力させると、ユーザＡに対する情報であってもユーザＢに対する情報であっても聞き取りにくくなる可能性がある。そこで、音声を出力させる少なくとも１つの発話体２００が、第１ユーザ及び第２ユーザのうち、第１ユーザが所有者であって、複数の発話体２００において、第１ユーザが所有する１以上の発話体２００のうち、少なくともいずれかの発話体２００を第２ユーザが所有する場合、第２ユーザが所有する発話体２００が音声を出力しているとき、当該第２ユーザが所有する発話体２００が音声の出力を終了してから音声を出力させる少なくとも１つの発話体２００に音声を出力させるようにタイミングを決定することで、同じ空間に位置する発話体２００から同時に音声を出力させてしまうことを抑制できる。

　また、実施の形態に係るサーバ装置１００は、音声を出力可能な複数の発話体２００のそれぞれが音声を出力しているか否かを判定する判定部１４０と、判定部１４０の判定結果に基づいて、複数の発話体２００のうち、少なくとも１つの発話体２００に音声をすぐに出力させるか、又は、音声を出力している発話体２００が当該音声の出力を終了するまで待機した後で当該少なくとも１つの発話体２００に音声を出力させるかのタイミングで、当該少なくとも１つの発話体２００に音声を出力させる出力部１６０と、を備える。

　これによれば、上記した実施の形態に係る音声制御方法と同様の効果を奏する。

　また、実施の形態に係る発話体２００は、音声を出力する音声出力部２３０と、サーバ装置１００と通信するための通信部２１０と、通信部２１０を介してサーバ装置１００から受信した音声情報に基づいて、音声出力部２３０から音声を出力させる音声制御部２２０と、を備える。音声制御部２２０は、音声出力部２３０から音声を出力させているか否かを示す音声出力情報を、通信部２１０を介してサーバ装置１００に送信し、サーバ装置１００から音声情報と、音声を出力させるタイミングを示すタイミング情報とを、通信部２１０を介して受信し、受信したタイミング情報に基づくタイミングで、音声情報に基づく音声を音声出力部２３０に出力させる。

　これによれば、発話体２００は、サーバ装置１００から受信した音声情報に基づく音声を、他の音声ととも出力してユーザに聞き取りにくくさせてしまうことを抑制できる。

　（その他の実施の形態）
　以上、本開示に係る音声制御方法等について、実施の形態に基づいて説明したが、本開示は、上記実施の形態に限定されるものではない。

　例えば、機器６００と発話体２００とは、同じ機器でもよいし、異なる機器でもよい。つまり、機器情報及び動作情報等をサーバ装置１００に送信する装置と、サーバ装置１００に制御されて発話文を音声で出力する装置とは、同じ装置でもよいし、異なる装置でもよい。

　また、例えば、サーバ装置１００は、機器６００に関する機器情報及び動作情報を、機器６００ではなく他のサーバ装置等から取得してもよい。また、サーバ装置１００は、当該他のサーバ装置から、機器６００を利用しているユーザが利用する運輸サービス、天気情報、又は、防災情報等の情報を取得して、これらの情報を発話体２００から発話させてもよい。また、例えば、サーバ装置１００は、ユーザが利用している、上記した運輸サービス等のサービス情報をユーザが所有する発話体２００に発話させてもよい。例えば、サーバ装置１００は、他のサーバ装置等から上記したサービス情報を受信した場合、「明日の午前中にお届け予定の荷物が１つあります」等の音声を、ユーザが所有する発話体２００から発話させてもよい。サーバ装置１００は、ユーザが利用しているサービスに関する情報を、ユーザが所有するスマートホン、タブレット端末、パーソナルコンピュータ等から受信してもよい。この場合、音声発話システムは、機器６００を備えなくてもよい。

　また、例えば、サーバ装置１００は、機器６００から取得する機器情報及び動作情報と、当該他のサーバ装置から取得する情報とに基づいて、発話文を決定してもよい。例えば、機器６００が洗濯機である場合、サーバ装置１００は、当該洗濯機から取得した当該洗濯機による選択が終了したことを示す情報と、当該他のサーバ装置から取得した天気情報とに基づいて、当該洗濯機の乾燥運転をユーザに推奨する発話文を発話体２００に発話させてもよい。

　また、例えば、判定部１４０が判定する複数の発話体２００は、音声発話システム５００が備える全ての発話体２００でもよいし、音声発話システム５００が備える全ての発話体２００のうち、タイミング決定部１５０がタイミングを決定するために必要とする複数の発話体２００でもよい。

　また、例えば、図３～図８では、ユーザＡ及びユーザＢがそれぞれ２つの発話体２００の所有者であり、且つ、複数の発話体２００のうち発話体２０２をユーザＡ及びユーザＢが共有している例について説明した。ユーザＡ及びユーザＢがそれぞれ所有する発話体２００の数、及び、ユーザＡ及びユーザＢが共有する発話体２００の数は、それぞれ１つでもよいし、複数でもよいし、同じでもよいし、異なっていてもよく、任意でよい。

　また、例えば、上記実施の形態では、発話待機中の発話体は、現在発話中の発話体の発話が終了してから新たな発話を開始する。しかしながら、一の発話体は、発話内容によっては、他の発話体の発話中に割り込んで発話を開始してもよい。当該発話内容は、予め任意に定められてよく、特に限定されない。

　また、例えば、上記実施の形態において、サーバ装置１００が備える取得部１１０、シナリオ決定部１２０、発話体決定部１３０等の処理部の構成要素の全部又は一部は、専用のハードウェアで構成されてもよく、或いは、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサ等のプログラム実行部が、ＨＤＤ又は半導体メモリ等の記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、例えば、上記処理部の構成要素は、１つ又は複数の電子回路で構成されてもよい。１つ又は複数の電子回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。

　１つ又は複数の電子回路には、例えば、半導体装置、ＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）又はＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）等が含まれてもよい。ＩＣ又はＬＳＩは、１つのチップに集積されてもよく、複数のチップに集積されてもよい。ここでは、ＩＣ又はＬＳＩと呼んでいるが、集積の度合いによって呼び方が変わり、システムＬＳＩ、ＶＬＳＩ（Ｖｅｒｙ　Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）、又は、ＵＬＳＩ（Ｕｌｔｒａ　Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）と呼ばれるかもしれない。また、ＬＳＩの製造後にプログラムされるＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）も同じ目的で使うことができる。

　また、発話体２００が備える音声制御部２２０等の処理部の構成要素の全部又は一部は、専用のハードウェアで構成されてもよく、或いは、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサ等のプログラム実行部が、ＨＤＤ又は半導体メモリ等の記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、例えば、上記処理部の構成要素は、１つ又は複数の電子回路で構成されてもよい。

　また、本開示の全般的又は具体的な態様は、システム、装置、方法、集積回路又はコンピュータプログラムで実現されてもよい。或いは、当該コンピュータプログラムが記憶された光学ディスク、ＨＤＤ若しくは半導体メモリ等のコンピュータ読み取り可能な非一時的記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　その他、本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の範囲内に含まれる。

　本開示は、音声を出力可能な機器を制御する装置に適用できる。

　１００　サーバ装置
　１１０　取得部
　１２０　シナリオ決定部
　１３０　発話体決定部
　１４０　判定部
　１５０　タイミング決定部
　１６０　出力部
　１７０　記憶部
　２００、２０１、２０２、２０３　発話体
　２１０　通信部
　２２０　音声制御部
　２３０　音声出力部
　５００　音声発話システム
　６００　機器

Claims

　音声を出力可能な複数の発話体のそれぞれが音声を出力しているか否かを判定する判定ステップと、
　前記判定ステップでの判定結果に基づいて、前記複数の発話体のうち、少なくとも１つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で前記少なくとも１つの発話体に音声を出力させるかのタイミングで、前記少なくとも１つの発話体に音声を出力させる出力ステップと、を含む
　音声制御方法。
　さらに、前記判定ステップでの判定結果に基づいて、前記複数の発話体のうち、前記少なくとも１つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で前記少なくとも１つの発話体に音声を出力させるかのタイミングを決定するタイミング決定ステップを含み、
　前記出力ステップでは、前記タイミング決定ステップで決定した前記タイミングで、前記少なくとも１つの発話体に音声を出力させる
　請求項１に記載の音声制御方法。
　前記タイミング決定ステップでは、
　前記複数の発話体のうち、音声を出力していない第１発話体については、当該第１発話体にすぐに音声を出力させる前記タイミングを決定し、
　前記複数の発話体のうち、音声を出力している第２発話体については、当該音声の出力を終了するまで待機した後で当該第２発話体に音声を出力させる前記タイミングを決定する
　請求項２に記載の音声制御方法。
　前記タイミング決定ステップでは、
　前記複数の発話体のうち、少なくともいずれかの発話体が音声を出力している場合、当該少なくともいずれかの発話体が音声の出力を終了してから前記少なくとも１つの発話体に音声を出力させる前記タイミングを決定する
　請求項２に記載の音声制御方法。
　前記タイミング決定ステップでは、
　前記複数の発話体のそれぞれの所有者を示す所有者情報を取得し、
　前記複数の発話体のうち、前記少なくとも１つの発話体と同じ所有者が所有する発話体が音声を出力している場合、当該発話体が音声の出力を終了してから前記少なくとも１つの発話体に音声を出力させる前記タイミングを決定する
　請求項２に記載の音声制御方法。
　前記タイミング決定ステップでは、前記複数の発話体のうち、音声で出力させる発話文の対象となるユーザが所有する前記少なくとも１つの発話体と同じ所有者が所有する発話体が音声を出力している場合、当該発話体が音声の出力を終了してから前記少なくとも１つの発話体に音声を出力させる前記タイミングを決定する
　請求項５に記載の音声制御方法。
　前記タイミング決定ステップでは、
　前記複数の発話体のそれぞれの所有者を示す所有者情報を取得し、
　前記少なくとも１つの発話体の所有者が第１ユーザ及び第２ユーザである場合、前記複数の発話体のうち、前記第１ユーザ及び前記第２ユーザの少なくとも一方が所有者である発話体が音声を出力しているとき、当該発話体が音声の出力を終了してから前記少なくとも１つの発話体に音声を出力させる前記タイミングを決定する
　請求項２に記載の音声制御方法。
　前記タイミング決定ステップでは、
　前記複数の発話体のそれぞれの所有者を示す所有者情報を取得し、
　前記少なくとも１つの発話体が、第１ユーザ及び第２ユーザのうち前記第１ユーザが所有者であって、前記複数の発話体において、前記第１ユーザが所有する１以上の発話体のうち、少なくともいずれかの発話体を前記第２ユーザが所有する場合、前記第２ユーザが所有する発話体が音声を出力しているとき、当該発話体が音声の出力を終了してから前記少なくとも１つの発話体に音声を出力させる前記タイミングを決定する
　請求項２に記載の音声制御方法。
　音声を出力可能な複数の発話体のそれぞれが音声を出力しているか否かを判定する判定部と、
　前記判定部の判定結果に基づいて、前記複数の発話体のうち、少なくとも１つの発話体に音声をすぐに出力させるか、又は、音声を出力している発話体が当該音声の出力を終了するまで待機した後で前記少なくとも１つの発話体に音声を出力させるかのタイミングで、前記少なくとも１つの発話体に音声を出力させる出力部と、を備える
　サーバ装置。
　音声を出力する音声出力部と、
　サーバ装置と通信するための通信部と、
　前記通信部を介して前記サーバ装置から受信した音声情報に基づいて、前記音声出力部から音声を出力させる音声制御部と、を備え、
　前記音声制御部は、
　　前記音声出力部から音声を出力させているか否かを示す音声出力情報を、前記通信部を介して前記サーバ装置に送信し、
　　前記サーバ装置から前記音声情報と、音声を出力させるタイミングを示すタイミング情報とを、前記通信部を介して受信し、
　受信した前記タイミング情報に基づくタイミングで、前記音声情報に基づく音声を前記音声出力部に出力させる
　発話体。