WO2022185551A1

WO2022185551A1 - 音声アシストシステム、音声アシスト方法およびコンピュータプログラム

Info

Publication number: WO2022185551A1
Application number: PCT/JP2021/008844
Authority: WO
Inventors: 健太郎山本
Original assignee: 株式会社ネイン
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2022-09-09
Also published as: TW202303585A

Abstract

【課題】　合成音声を用いてユーザをアシストする技術において、合成音声に残された課題の少なくとも一部を解決又は緩和する技術的な改善を提供する。【解決手段】　本開示における音声アシストシステムは、音声によりユーザをアシストするための音声アシストシステムであって、音声アシストシステムは、少なくとも音声再生装置を備え、音声アシストシステムが備える一または複数のコンピュータプロセッサは、録音音声を用いて第一の情報の内容を再生するための第一の音声再生処理部と、第二の情報に対応する合成音声を生成する音声合成部と、少なくとも合成音声を用いて第二の情報の内容を再生するための第二の音声再生処理部とを備えることを特徴とする。

Description

音声アシストシステム、音声アシスト方法およびコンピュータプログラム

　本発明は、音声アシストシステム、音声アシスト方法およびコンピュータプログラムに関する。

　近年、スマートフォンなどの情報処理装置には、音声アシスト機能が搭載されている（例えば特許文献１）。

特開２０２０－１７３８３５

　特許文献１等に記載された技術のように、音声アシストは音声合成技術を用いて生成された合成音声によりなされるのが一般的である。

　しかしながら、合成音声は、人工的に合成された音声波形であるため単調であり、人間が本当に話しているような自然な音声を再現するという点においては依然として課題が残っている状態である。

　そのため、本開示の目的は、合成音声を用いてユーザをアシストする技術において、上記合成音声に残された課題の少なくとも一部を解決又は緩和する技術的な改善を提供することにある。

　本開示における音声アシストシステムは、音声によりユーザをアシストするための音声アシストシステムであって、音声アシストシステムは、少なくとも音声再生装置を備え、音声アシストシステムが備える一または複数のコンピュータプロセッサは、録音音声を用いて第一の情報の内容を再生するための第一の音声再生処理部と、第二の情報に対応する合成音声を生成する音声合成部と、少なくとも合成音声を用いて第二の情報の内容を再生するための第二の音声再生処理部とを備えることを特徴とする。

　第一の情報は、時刻情報、天気情報、アラーム情報および音声再生装置に関する設定情報の少なくとも一つを含むことができる。

　第二の情報は、スケジュール情報、ナビ情報およびメッセージ情報の少なくとも一つを含むことができる。

　音声アシストシステムは、さらに、音声再生装置と接続可能な情報処理装置を備え、録音音声を含む第一の音声データ、および／または、合成音声の生成に用いられる第二の音声データは、情報処理装置と接続可能なサーバ装置から取得することにより情報処理装置の記憶部に記憶されることができる。

　第二の情報は、情報処理装置から取得した情報に基づく情報とすることができる。

　音声アシストシステムが備える一または複数のコンピュータプロセッサは、さらに、録音音声として使用する第一の音声データ、および／または、合成音声を生成するための第二の音声データのユーザによる指定を受け付ける指定受付部を備えることができる。

　音声アシストシステムが備える一または複数のコンピュータプロセッサは、さらに、第一の音声再生処理部および第二の音声再生処理部から出力される音声が、ユーザにとって異なる方向から聞こえるよう調整する調整部を備えることができる。

　音声アシストシステムが備える一または複数のコンピュータプロセッサは、さらに、所定の表示画面に少なくとも二つのオブジェクトを表示させる表示処理部を備え、少なくとも二つのオブジェクトに含まれる一のオブジェクトは、第一の音声再生処理部から出力される音声に対応するものであり、少なくとも二つのオブジェクトに含まれる他のオブジェクトは、第二の音声再生処理部から出力される音声に対応するものとすることができる。

　音声アシストシステムが備える一または複数のコンピュータプロセッサは、さらに、第一の音声再生処理部および第二の音声再生処理部から出力される音声が、ユーザにとって異なる方向から聞こえるよう調整する調整部を備え、調整部は、表示画面に表示された少なくとも二つのオブジェクトの位置に応じて、音声が聞こえる方向を調整することができる。

　本開示における音声アシスト方法は、音声によりユーザをアシストするための音声アシストシステムにおいて実行される音声アシスト方法であって、音声アシストシステムは、少なくとも音声再生装置を備え、音声アシストシステムが備える一または複数のコンピュータプロセッサに、録音音声を用いて第一の情報の内容を再生するための第一の音声再生処理ステップと、第二の情報に対応する合成音声を生成する音声合成ステップと、少なくとも合成音声を用いて第二の情報の内容を再生するための第二の音声再生処理ステップとを実行させることを特徴とする。

　本開示におけるコンピュータプログラムは、音声によりユーザをアシストするための音声アシストシステムにおいて実行されるコンピュータプログラムであって、音声アシストシステムは、少なくとも音声再生装置を備え、音声アシストシステムが備える一または複数のコンピュータプロセッサに、録音音声を用いて第一の情報の内容を再生する第一の音声再生処理機能と、第二の情報に対応する合成音声を生成する音声合成機能と、少なくとも合成音声を用いて第二の情報の内容を再生する第二の音声再生処理機能とを実現させることを特徴とする。

　本開示によれば、合成音声を用いてユーザをアシストする技術において、上記合成音声に残された課題の少なくとも一部を解決又は緩和する技術的な改善を提供することが可能な音声アシストシステム、音声アシスト方法およびコンピュータプログラムを提供することが可能となる。

本開示における音声アシストシステムの実施形態の一例を示すシステム構成図である。本開示における音声アシストシステムの実施形態の他の例を示すシステム構成図である。本開示における音声アシストシステムのハードウェア構成の一例を示すハードウェア構成図である。本開示における音声アシストシステムの機能構成の一例を示す機能構成図である。本開示における音声アシストシステムの機能構成の他の例を示す機能構成図である。本開示における表示画面の一例を示すイメージ図である。本開示における表示画面の一例を示すイメージ図である。本開示における表示画面の一例を示すイメージ図である。本開示における表示画面の一例を示すイメージ図である。本開示における表示画面の一例を示すイメージ図である。本開示における表示画面の一例を示すイメージ図である。本開示における表示画面の一例を示すイメージ図である。本開示における音声アシスト方法のフローの一例を示すフロー図である。本開示におけるコンピュータプログラムの回路構成の一例を示す回路構成図である。

　本開示における音声アシストシステムの実施形態について、図面を参照しながら説明を行う。

＜システム構成＞
　図１に一例として示されるように、本開示における音声アシストシステム１０００は、音声によりユーザをアシストするためのものであって、少なくとも音声再生装置１００を備えるものとである。

　このとき、音声再生装置１００は、少なくとも後述する機能が実現可能な装置であればよく、イヤホンやヘッドホン等のヒアラブル端末、スマートフォン、タブレット端末、パーソナルコンピュータ等の情報処理端末、ヘッドマウントディスプレイ（ＨＭＤ）やスマートグラス等のウェアラブル端末、および、これら以外の、音声を再生可能な装置とすることができる。

　また、図２に一例として示されるように、本開示における音声アシストシステム１０００は、音声再生装置１００および情報処理装置２００を備えるものとしてもよい。また、音声アシストシステム１０００は、音声再生装置１００および／または情報処理装置２００とインターネットを介して接続可能なサーバ装置３００を備えるものとしてもよい。

　このとき、音声再生装置１００は、情報処理装置２００と有線または無線により接続可能なイヤホン、ヘッドホン、ＨＭＤおよびスマートグラス等とすることができ、情報処理装置２００は、スマートフォン、タブレット端末、パーソナルコンピュータ等とすることができる。一例として、音声再生装置１００と情報処理装置２００との接続はＢｌｕｅｔｏｏｔｈ（登録商標）などの近距離無線通信により行われるものとする。

＜ハードウェア構成＞
　ここで、図３を用いて、音声アシストシステム１０００に含まれる音声再生装置１００のハードウェア構成について説明する。音声再生装置１００は、プロセッサ１０１と、メモリ１０２と、ストレージ１０３と、入出力インターフェース（入出力Ｉ／Ｆ）１０４と、通信インターフェース（通信Ｉ／Ｆ）１０５とを含む。各構成要素は、バスＢを介して相互に接続される。

　音声再生装置１００は、プロセッサ１０１と、メモリ１０２と、ストレージ１０３と、入出力Ｉ／Ｆ１０４と、通信Ｉ／Ｆ１０５との協働により、本実施形態に記載される機能、方法を実現することができる。

　プロセッサ１０１は、ストレージ１０３に記憶されるプログラムに含まれるコード又は命令によって実現する機能、及び／又は、方法を実行する。プロセッサ１０１は、例えば、中央処理装置（ＣＰＵ）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）、マイクロプロセッサ（microprocessor）、プロセッサコア（processor core）、マルチプロセッサ（multiprocessor）、ＡＳＩＣ（Application-Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等を含み、集積回路（ＩＣ（Integrated Circuit）チップ、ＬＳＩ（Large Scale Integration））等に形成された論理回路（ハードウェア）や専用回路によって各実施形態に開示される各処理を実現してもよい。また、これらの回路は、１又は複数の集積回路により実現されてよく、各実施形態に示す複数の処理を１つの集積回路により実現されることとしてもよい。また、ＬＳＩは、集積度の違いにより、ＶＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

　メモリ１０２は、ストレージ１０３からロードしたプログラムを一時的に記憶し、プロセッサ１０１に対して作業領域を提供する。メモリ１０２には、プロセッサ１０１がプログラムを実行している間に生成される各種データも一時的に格納される。メモリ１０２は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等を含む。

　ストレージ１０３は、プログラムを記憶する。ストレージ１０３は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等を含む。

　入出力Ｉ／Ｆ１０４は、音声再生装置１００に対する各種操作を入力する入力装置、及び、音声再生装置１００で処理された処理結果を出力する出力装置を含む。入出力Ｉ／Ｆ１０４は、入力装置と出力装置が一体化していてもよいし、入力装置と出力装置とに分離していてもよい。

　入力装置は、ユーザからの入力を受け付けて、当該入力に係る情報をプロセッサ１０１に伝達できる全ての種類の装置のいずれか、又は、その組み合わせにより実現される。入力装置は、例えば、タッチパネル、タッチディスプレイ、キーボード等のハードウェアキーや、マウス等のポインティングデバイス、カメラ（画像を介した操作入力）、マイク（音声による操作入力）等を含む。

　出力装置は、プロセッサ１０１で処理された処理結果を出力する。出力装置は、例えば、ディスプレイ、スピーカ等を含む。

　通信Ｉ／Ｆ１０５は、ネットワークアダプタ等のハードウェアや通信用ソフトウェア、及びこれらの組み合わせとして実装され、ネットワークを介して各種データの送受信を行う。当該通信は、有線、無線のいずれで実行されてもよく、互いの通信が実行できるのであれば、どのような通信プロトコルを用いてもよい。通信Ｉ／Ｆ１０５は、ネットワークを介して、他の情報処理装置との通信を実行する。通信Ｉ／Ｆ１０５は、各種データをプロセッサ１０１からの指示に従って、他の情報処理装置に送信する。また、通信Ｉ／Ｆ１０５は、他の情報処理装置から送信された各種データを受信し、プロセッサ１０１に伝達する。

　また、本開示における情報処理装置２００およびサーバ装置３００についても、特筆すべき場合を除き、図３と同様のハードウェア構成で構成されることができる。

　なお、ここでは、音声アシストシステム１０００が備える音声再生装置１００が少なくともスピーカを有するスマートフォン等の情報処理装置であるものとして説明を行うが、これに限られるものではない。

＜機能構成＞
　本開示における音声アシストシステム１０００が備える一または複数のコンピュータプロセッサは、図４に一例として示されるように、第一の音声再生処理部１１０、音声合成部１２０および第二の音声再生処理部１３０を備えることを特徴とする。

　第一の音声再生処理部１１０は、録音音声を用いて第一の情報の内容を再生するためのものである。

　録音音声は、声優等により予め録音された音声であって、音声データとして対応する第一の情報に関連付けて音声再生装置１００の記憶部に記憶されている。

　第一の情報は、一例として、時刻情報、天気情報、アラーム情報および音声再生装置１００に関する設定情報等の定型の内容に関する情報であるものとする。

　第一の音声再生処理部１１０は、第一の情報をユーザに通知する必要が生じた際に、当該第一の情報に対応する音声データを特定し、当該音声データを再生することにより、第一の情報の内容をユーザに通知することができる。

　ユーザへの通知は、例えば正時に行われるものとする。

　音声合成部１２０は、第二の情報に対応する合成音声を生成するものである。

　第二の情報は、一例として、スケジュール情報、ナビ情報およびメッセージ情報等の非定型の内容に関する情報であるものとする。

　音声合成部１２０は、第二の情報をユーザに通知する必要が生じた際に、合成音声の生成に用いられる音声データ、および、第二の情報に対応するテキストデータから、合成音声を生成する。なお、かかる音声合成技術については、公知の技術を適用することにより実現することができる。

　合成音声の生成は、例えば、メッセージを受信した際に行われるものとする。

　そして、第二の音声再生処理部１３０は、少なくとも合成音声を用いて第二の情報の内容を再生するためのものである。

　第二の音声再生処理部１３０は、合成音声が生成された際に、当該合成音声を再生することにより、第二の情報の内容をユーザに通知することができる。

　以上の構成によれば、合成音声を用いてユーザをアシストする技術において、上記合成音声に残された課題の少なくとも一部を解決又は緩和する技術的な改善を提供することが可能な音声アシストシステムを提供することが可能となる。

　具体的には、音声アシストとして、合成音声だけではなく録音音声を用いることにより、少なくとも録音音声部分についてはキャラクタ性が生まれ、ユーザに対して温かみのある音声アシストを提供することが可能となる。また、録音音声だけではなく合成音声を用いることにより、通知すべき情報の内容が定型／非定型に関わらず、適切な音声アシストを提供することが可能となる。

　続いて、図５を参照しながら、本開示における一または複数のコンピュータプロセッサが、さらに、表示処理部１４０を備える場合について説明を行う。

　表示処理部１４０は、所定の表示画面に少なくとも二つのオブジェクトを表示させるものである。

　図６は、一例として、音声再生装置１００としての情報処理装置が備える表示部に表示された表示画面４００のイメージを示したものである。

　図６に示されるように、表示画面４００には、二つのオブジェクト４０１,４０２が表示されている。

　少なくとも二つのオブジェクトに含まれる一のオブジェクト４０１は、第一の音声再生処理部１１０から出力される音声に対応するものである。

　図６において、一のオブジェクト４０１は人間をイラスト化したキャラクタオブジェクトとして表示されている。

　そして、第一の音声再生処理部１１０から出力される音声、すなわち、録音音声は、かかる一のオブジェクト４０１が発しているものとして表現される。

　一例として、表示処理部１４０は、第一の音声再生処理部１１０から録音音声を出力する際に、一のオブジェクト４０１が表示画面の中央にくるように表示位置を変更する。なお、図６に示すように、他のオブジェクト４０２がキャラクタオブジェクトでない場合には、録音音声は一のオブジェクト４０１が発していると明らかであるため、特に表示位置の変更は不要である。

　そして、少なくとも二つのオブジェクトに含まれる他のオブジェクト４０２は、第二の音声再生処理部１３０から出力される音声に対応するものである。

　図６において、他のオブジェクト４０２は人間をイラスト化したキャラクタオブジェクトではないものとして表示されている。

　そして、第二の音声再生処理部１３０から出力される音声、すなわち、合成音声は、かかる他のオブジェクト４０２が発しているものとして表現される。

　一例として、表示処理部１４０は、第二の音声再生処理部１３０から合成音声を出力する際に、他のオブジェクト４０２の近傍に合成音声に対応するテキストを表示する。

　なお、他のオブジェクト４０２は、図７に示されるように、一のオブジェクト４０１と同様に、人間をイラスト化したキャラクタオブジェクトとして表示してもよい。

　いずれの場合においても、第一の音声再生処理部１１０から出力される音声と、第二の音声再生処理部１３０から出力される音声とは、異なるオブジェクトが発しているものとして区別可能な態様で出力されるのが好ましい。

　また、図５に示されるように、本開示における一または複数のコンピュータプロセッサは、さらに、調整部１５０を備えることができる。

　調整部１５０は、第一の音声再生処理部１１０および第二の音声再生処理部１３０から出力される音声が、ユーザにとって異なる方向から聞こえるよう調整するものである。

　一例として、調整部１５０は、第一の音声再生処理部１１０から出力される音声がユーザの一方の耳方向から聞こえるよう調整し、第二の音声再生処理部１３０から出力される音声がユーザの他方の耳方向から聞こえるよう調整することができる。

　また、調整部１５０は、表示画面４００に表示された少なくとも二つのオブジェクトの位置に応じて、音声が聞こえる方向を調整するものとしてもよい。

　一例として、調整部１５０は、一のオブジェクトが表示画面４００上で左側に表示され、他のオブジェクトが表示画面４００上で右側に表示されている場合（図７と逆の場合）、第一の音声再生処理部１１０から出力される音声がユーザの左耳向から聞こえるよう調整し、第二の音声再生処理部１３０から出力される音声がユーザの→耳方向から聞こえるよう調整することができる。

　また、図６および図７に示されるように、表示画面４００には、さらに、録音音声として使用するデータを変更するための変更ボタン４０３および各種設定を行うためのメニューボタン４０４を表示されることができる。

　図８は、上記変更ボタン４０３がユーザにより選択された場合に表示されるアシスタント変更画面５００のイメージを表示したものである。

　アシスタント変更画面５００では、ユーザは、メインアシスタントおよびサブアシスタントの変更を行うことができる。ここで、メインアシスタントとは、第二の音声再生処理部１３０から出力される音声に対応するものであり、上記オブジェクト４０２が発しているように表現されるものである。同様に、サブアシスタントとは、第一の音声再生処理部１１０から出力される音声に対応するものであり、上記オブジェクト４０１が発しているように表現されるものである。

　そして、図５に示すように、本開示における一または複数のコンピュータプロセッサは、さらに、指定受付部１６０を備えることができる。

　指定受付部１６０は、録音音声として使用する第一の音声データ、および／または、合成音声を生成するための第二の音声データのユーザによる指定を受け付けるものである。

　図８に示されるように、アシスタント変更画面５００には、メインアシスタントとサブアシスタントのどちらを変更するかを切り替えるためのタブ５１０、５２０と、変更可能なアシスタントの情報を表示するアシスタント情報表示欄５３０が表示される。

　一例として、タブ５２０が選択されている場合において、アシスタント情報表示欄５３０には、アシスタントの名称表示欄５３１、プロフィール情報表示欄５３２、オブジェクトの画像表示欄５３３、サンプルボイスの再生ボタン５３４、音声データの購入に必要な金額表示欄５３５、変更選択ボタン５３６が表示される。なお、タブ５１０が選択されている場合にも同様の構成の画面が表示されるが、表示されるアシスタントはタブ５２０が選択されている場合と異なるものとする。

　なお、図８に示す例では、最上欄に表示されたアシスタントは既にサブアシスタントとして利用中であるため、サンプルボイスの再生ボタン５３４および変更選択ボタン５３６は表示されずに、利用中である旨の表示５３７が表示される。また、図８ではアシスタント情報表示欄５３０は２つしか表示されていないが、特に数は制限されない。

　そして、変更選択ボタン５３６がユーザにより選択されると、対応するアシスタントがサブアシスタントとして設定され、録音音声として使用する音声データが決定される。

　なお、全てのアシスタントに対応する音声データは、予め音声再生装置１００に記憶されているものとしてもよいが、上記変更選択ボタン５３６が選択された際に、サーバ装置３００からダウンロードされるものであってもよい。

　このとき、本開示における音声アシストシステム１０００は一例として、図２に示した構成を備え、録音音声を含む第一の音声データ、および／または、合成音声の生成に用いられる第二の音声データは、情報処理装置２００と接続可能なサーバ装置から取得することにより情報処理装置２００の記憶部に記憶されることができる。なお、図２では音声再生装置１００と情報処理装置２００が別の装置として描かれているが、これら装置は一体の装置であってもよい。

　続いて、表示画面４００に表示されたメニューボタン４０４がユーザにより選択された場合について説明を行う。

　図９は、メニューボタン４０４がユーザにより選択された場合に表示画面４００に重畳して表示されるメニュー画面６００のイメージを表示したものである。

　図９に示されるように、メニュー画面６００には、選択アシスタント情報表示欄６１０およびアプリ設定欄６２０が表示されている。

　選択アシスタント情報表示欄６１０には、一例として、アシスタントの名称６１１およびオブジェクトの画像表示欄６１２が表示される。

　アプリ設定欄６２０には、一例として、オンデマンド設定ボタン６３０、定時読み上げ設定ボタン６４０、音声エンジン詳細設定ボタン６５０が表示される。

　オンデマンド設定ボタン６３０がユーザにより選択されると、画面は図１０に示すオンデマンドアシスト設定画面７００へと遷移する。

　オンデマンドアシスト設定画面７００では、メインアシスタントに対応するオブジェクトをタップした時に読み上げる情報の設定を行うことができる。

　一例として、現在時刻の読み上げのＯＮ／ＯＦＦ、現在地の天気の読み上げのＯＮ／ＯＦＦ、情報処理装置のバッテリー残量の読み上げのＯＮ／ＯＦＦ等を設定することができる。また、メインアシスタントは合成音声を用いているため、テキストデータが用意される情報であればどのような情報を読み上げることも可能である。

　同様に、定時読み上げ設定ボタン６４０がユーザにより選択されると、画面は図１１に示す定時読み上げ設定画面８００へと遷移する。

　定時読み上げ設定画面８００では、サブアシスタントに対応するオブジェクトをタップした時または定時になった際に再生する情報の設定を行うことができる。

　一例として、時報の読み上げのＯＮ／ＯＦＦ、現在地の天気の読み上げのＯＮ／ＯＦＦ、情報処理装置のバッテリー残量の読み上げのＯＮ／ＯＦＦ等を設定することができる。

　そして、音声エンジン詳細設定ボタン６５０がユーザにより選択されると、画面は図１２に示す音声エンジン詳細設定画面９００へと遷移する。

　音声エンジン詳細設定画面９００では、メインアシスタントの音声、すなわち合成音声の音量および読み上げ速度の設定を行うことができる。

　また、図示は省略するが、メインアシスタントとサブアシスタントによる音声の再生のタイミングが被ってしまった場合に、どちらの再生を優先するかの設定を行うことができるようにしてもよい。

　上述したように、第一の情報は、時刻情報、天気情報、アラーム情報および音声再生装置に関する設定情報の少なくとも一つを含むものとすることができる。

　ここで言う時刻情報とは、正時のことをいうものとする。

　音声再生装置に関する設定情報とは、電源のＯＮ／ＯＦＦ、他の装置との接続の可否、バッテリー残量等に関する情報を含むことができる。

　第一の情報は録音音声により再生されるものであるため、予め音声データを用意できる情報であれば、どのような情報が第一の情報に含まれていてもよい。

　上述したように、第二の情報は、スケジュール情報、ナビ情報およびメッセージ情報の少なくとも一つを含むものとすることができる。

　また、第二の情報は、第一の情報と同様に、時刻情報、天気情報、アラーム情報および音声再生装置に関する設定情報の少なくとも一つを含むものとしてもよい。

　ここで言う時刻情報は、正時に限られず、すべての分秒を含むことができる。

　また、第二の情報はテキストデータが用意されているものであればよく、音声再生装置にインストールされた様々なアプリケーションからの通知や情報を含むことができる。

　例えば、スケジュール管理アプリケーションからスケジュール情報のテキストデータを取得し、第二の情報として読み上げることができる。

　同様に、地図ナビゲーションアプリケーションからナビゲーション情報のテキストデータを取得し、第二の情報として読み上げることができる。

　同様に、メッセージの送受信が可能なメッセージアプリケーションからメッセージの受信に関する情報およびメッセージ内容のテキストデータを取得し、第二の情報として読み上げることができる。

　同様に、音声通話が可能な音声通話アプリケーションから音声通話の着信に関する情報のテキストデータを取得し、第二の情報として読み上げることができる。

　すなわち、第二の情報は、情報処理装置から取得した情報に基づく情報とすることができる。

　以上、本開示における音声アシストシステムの実施形態について説明を行ったが、他の実施形態として、ユーザによる一のオブジェクト４０１のタップ操作に応じて、第一の情報とは異なる別の音声データを再生することも可能である。

　別の音声データとは、録音音声であって、一のオブジェクト４０１に対応するサブアシスタントのプロフィールに応じて予め録音された台詞である。

　かかる別の音声データは、ユーザによって一のオブジェクト４０１がタップされた時間や回数によって変化させるものであってもよい。

　また、本開示における音声アシストシステムにより実現される音声アシストは、情報処理端末にアプリケーションとして実装されることができる。このアプリケーションは、バックグラウンドで起動させておくだけで上述した音声アシストを実現することができる。

　続いて、本開示における音声アシスト方法の実施形態について、図面を参照しながら説明を行う。

　本開示における音声アシスト方法は、音声によりユーザをアシストするための音声アシストシステム１０００において実行される音声アシスト方法である。

　本開示における音声アシスト方法は、図１３に示されるように、音声アシストシステム１０００が備える一または複数のコンピュータプロセッサに、第一の音声再生処理ステップＳ１１０と、音声合成ステップＳ１２０と、第二の音声再生処理ステップＳ１３０とを実行させることを特徴とする。

　第一の音声再生処理ステップＳ１１０は、録音音声を用いて第一の情報の内容を再生する。かかる第一の音声再生処理ステップＳ１１０は、上述した第一の音声再生処理部１１０により実行されることができる。

　音声合成ステップＳ１２０は、第二の情報に対応する合成音声を生成する。かかる音声合成ステップＳ１２０は、上述した音声合成部１２０により実行されることができる。

　第二の音声再生処理ステップＳ１３０は、少なくとも前記合成音声を用いて前記第二の情報の内容を再生する。かかる第二の音声再生処理ステップＳ１３０は、上述した第二の音声再生処理部１３０により実行されることができる。

　最後に、本開示におけるコンピュータプログラムの実施形態について、図面を参照しながら説明を行う。

　本開示におけるコンピュータプログラムは、音声によりユーザをアシストするための音声アシストシステム１０００において実行されるコンピュータプログラムである。

　本開示におけるコンピュータプログラムは、音声アシストシステム１０００が備える一または複数のコンピュータプロセッサに、第一の音声再生処理機能と、音声合成機能と、第二の音声再生処理機能とを実現させることを特徴とする。

　第一の音声再生処理機能は、録音音声を用いて第一の情報の内容を再生する。

　音声合成機能は、第二の情報に対応する合成音声を生成する。

　第二の音声再生処理機能は、少なくとも前記合成音声を用いて前記第二の情報の内容を再生する。

　上記機能は、図１４に示す第一の音声再生処理回路１１１０、音声合成回路１１２０および第二の音声再生処理回路１１３０により実現されることができる。第一の音声再生処理回路１１１０、音声合成回路１１２０および第二の音声再生処理回路１１３０は、それぞれ上述した第一の音声再生処理部１１０、音声合成部１２０および第二の音声再生処理部１３０により実現されるものとする。各部の詳細については上述したとおりである。

　本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

　また、実施形態に記載した手法は、計算機（コンピュータ）に実行させることができるプログラムとして、例えば磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ、ＭＯ等）、半導体メモリ（ＲＯＭ、ＲＡＭ、フラッシュメモリ等）等の記録媒体に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウェア手段（実行プログラムのみならずテーブルやデータ構造も含む）を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウェア手段を構築し、このソフトウェア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスクや半導体メモリ等の記憶媒体を含むものである。記憶部は、例えば主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してもよい。

　１０００　　音声アシストシステム
　　１００　　音声再生装置
　　１１０　　第一の音声再生処理部
　　１２０　　音声合成部
　　１３０　　第二の音声再生処理部
　　１４０　　表示処理部
　　１５０　　調整部
　　１６０　　指定受付部
　　２００　　情報処理装置
　　３００　　サーバ装置

Claims

　音声によりユーザをアシストするための音声アシストシステムであって、
　前記音声アシストシステムは、少なくとも音声再生装置を備え、
　前記音声アシストシステムが備える一または複数のコンピュータプロセッサは、
　録音音声を用いて第一の情報の内容を再生するための第一の音声再生処理部と、
　第二の情報に対応する合成音声を生成する音声合成部と、
　少なくとも前記合成音声を用いて前記第二の情報の内容を再生するための第二の音声再生処理部と
　を備える音声アシストシステム。
　前記第一の情報は、時刻情報、天気情報、アラーム情報および前記音声再生装置に関する設定情報の少なくとも一つを含むことを特徴とする請求項１に記載の音声アシストシステム。
　前記第二の情報は、スケジュール情報、ナビ情報およびメッセージ情報の少なくとも一つを含むことを特徴とする請求項１または２に記載の音声アシストシステム。
　前記音声アシストシステムは、さらに、前記音声再生装置と接続可能な情報処理装置を備え、
　前記録音音声を含む第一の音声データ、および／または、前記合成音声の生成に用いられる第二の音声データは、前記情報処理装置と接続可能なサーバ装置から取得することにより前記情報処理装置の記憶部に記憶されることを特徴とする請求項１、２または３に記載の音声アシストシステム。
　前記第二の情報は、前記情報処理装置から取得した情報に基づく情報であることを特徴とする請求項４に記載の音声アシストシステム。
　前記音声アシストシステムが備える一または複数のコンピュータプロセッサは、さらに、
　前記録音音声として使用する第一の音声データ、および／または、前記合成音声を生成するための第二の音声データの前記ユーザによる指定を受け付ける指定受付部を備えることを特徴とする請求項１から５のいずれか一項に記載の音声アシストシステム。
　前記音声アシストシステムが備える一または複数のコンピュータプロセッサは、さらに、
　前記第一の音声再生処理部および前記第二の音声再生処理部から出力される音声が、前記ユーザにとって異なる方向から聞こえるよう調整する調整部を備えることを特徴とする請求項１から６のいずれか一項に記載の音声アシストシステム。
　前記音声アシストシステムが備える一または複数のコンピュータプロセッサは、さらに、
　所定の表示画面に少なくとも二つのオブジェクトを表示させる表示処理部を備え、
　前記少なくとも二つのオブジェクトに含まれる一のオブジェクトは、前記第一の音声再生処理部から出力される音声に対応するものであり、
　前記少なくとも二つのオブジェクトに含まれる他のオブジェクトは、前記第二の音声再生処理部から出力される音声に対応するものであることを特徴とする請求項１から７のいずれか一項に記載の音声アシストシステム。
　前記音声アシストシステムが備える一または複数のコンピュータプロセッサは、さらに、
　前記第一の音声再生処理部および前記第二の音声再生処理部から出力される音声が、前記ユーザにとって異なる方向から聞こえるよう調整する調整部を備え、
　前記調整部は、前記表示画面に表示された前記少なくとも二つのオブジェクトの位置に応じて、前記音声が聞こえる方向を調整することを特徴とする請求項８に記載の音声アシストシステム。
　音声によりユーザをアシストするための音声アシストシステムにおいて実行される音声アシスト方法であって、
　前記音声アシストシステムは、少なくとも音声再生装置を備え、
　前記音声アシストシステムが備える一または複数のコンピュータプロセッサに、
　録音音声を用いて第一の情報の内容を再生するための第一の音声再生処理ステップと、
　第二の情報に対応する合成音声を生成する音声合成ステップと、
　少なくとも前記合成音声を用いて前記第二の情報の内容を再生するための第二の音声再生処理ステップと
　を実行させる音声アシスト方法。
　音声によりユーザをアシストするための音声アシストシステムにおいて実行されるコンピュータプログラムであって、
　前記音声アシストシステムは、少なくとも音声再生装置を備え、
　前記音声アシストシステムが備える一または複数のコンピュータプロセッサに、
　録音音声を用いて第一の情報の内容を再生する第一の音声再生処理機能と、
　第二の情報に対応する合成音声を生成する音声合成機能と、
　少なくとも前記合成音声を用いて前記第二の情報の内容を再生する第二の音声再生処理機能と
　を実現させるコンピュータプログラム。