WO2022185551A1 - 音声アシストシステム、音声アシスト方法およびコンピュータプログラム - Google Patents

音声アシストシステム、音声アシスト方法およびコンピュータプログラム Download PDF

Info

Publication number
WO2022185551A1
WO2022185551A1 PCT/JP2021/008844 JP2021008844W WO2022185551A1 WO 2022185551 A1 WO2022185551 A1 WO 2022185551A1 JP 2021008844 W JP2021008844 W JP 2021008844W WO 2022185551 A1 WO2022185551 A1 WO 2022185551A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
voice
assist system
audio
voice assist
Prior art date
Application number
PCT/JP2021/008844
Other languages
English (en)
French (fr)
Inventor
健太郎 山本
Original Assignee
株式会社ネイン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ネイン filed Critical 株式会社ネイン
Priority to PCT/JP2021/008844 priority Critical patent/WO2022185551A1/ja
Priority to TW111107235A priority patent/TW202303585A/zh
Publication of WO2022185551A1 publication Critical patent/WO2022185551A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Abstract

【課題】 合成音声を用いてユーザをアシストする技術において、合成音声に残された課題の少なくとも一部を解決又は緩和する技術的な改善を提供する。 【解決手段】 本開示における音声アシストシステムは、音声によりユーザをアシストするための音声アシストシステムであって、音声アシストシステムは、少なくとも音声再生装置を備え、音声アシストシステムが備える一または複数のコンピュータプロセッサは、録音音声を用いて第一の情報の内容を再生するための第一の音声再生処理部と、第二の情報に対応する合成音声を生成する音声合成部と、少なくとも合成音声を用いて第二の情報の内容を再生するための第二の音声再生処理部とを備えることを特徴とする。

Description

音声アシストシステム、音声アシスト方法およびコンピュータプログラム
 本発明は、音声アシストシステム、音声アシスト方法およびコンピュータプログラムに関する。
 近年、スマートフォンなどの情報処理装置には、音声アシスト機能が搭載されている(例えば特許文献1)。
特開2020-173835
 特許文献1等に記載された技術のように、音声アシストは音声合成技術を用いて生成された合成音声によりなされるのが一般的である。
 しかしながら、合成音声は、人工的に合成された音声波形であるため単調であり、人間が本当に話しているような自然な音声を再現するという点においては依然として課題が残っている状態である。
 そのため、本開示の目的は、合成音声を用いてユーザをアシストする技術において、上記合成音声に残された課題の少なくとも一部を解決又は緩和する技術的な改善を提供することにある。
 本開示における音声アシストシステムは、音声によりユーザをアシストするための音声アシストシステムであって、音声アシストシステムは、少なくとも音声再生装置を備え、音声アシストシステムが備える一または複数のコンピュータプロセッサは、録音音声を用いて第一の情報の内容を再生するための第一の音声再生処理部と、第二の情報に対応する合成音声を生成する音声合成部と、少なくとも合成音声を用いて第二の情報の内容を再生するための第二の音声再生処理部とを備えることを特徴とする。
 第一の情報は、時刻情報、天気情報、アラーム情報および音声再生装置に関する設定情報の少なくとも一つを含むことができる。
 第二の情報は、スケジュール情報、ナビ情報およびメッセージ情報の少なくとも一つを含むことができる。
 音声アシストシステムは、さらに、音声再生装置と接続可能な情報処理装置を備え、録音音声を含む第一の音声データ、および/または、合成音声の生成に用いられる第二の音声データは、情報処理装置と接続可能なサーバ装置から取得することにより情報処理装置の記憶部に記憶されることができる。
 第二の情報は、情報処理装置から取得した情報に基づく情報とすることができる。
 音声アシストシステムが備える一または複数のコンピュータプロセッサは、さらに、録音音声として使用する第一の音声データ、および/または、合成音声を生成するための第二の音声データのユーザによる指定を受け付ける指定受付部を備えることができる。
 音声アシストシステムが備える一または複数のコンピュータプロセッサは、さらに、第一の音声再生処理部および第二の音声再生処理部から出力される音声が、ユーザにとって異なる方向から聞こえるよう調整する調整部を備えることができる。
 音声アシストシステムが備える一または複数のコンピュータプロセッサは、さらに、所定の表示画面に少なくとも二つのオブジェクトを表示させる表示処理部を備え、少なくとも二つのオブジェクトに含まれる一のオブジェクトは、第一の音声再生処理部から出力される音声に対応するものであり、少なくとも二つのオブジェクトに含まれる他のオブジェクトは、第二の音声再生処理部から出力される音声に対応するものとすることができる。
 音声アシストシステムが備える一または複数のコンピュータプロセッサは、さらに、第一の音声再生処理部および第二の音声再生処理部から出力される音声が、ユーザにとって異なる方向から聞こえるよう調整する調整部を備え、調整部は、表示画面に表示された少なくとも二つのオブジェクトの位置に応じて、音声が聞こえる方向を調整することができる。
 本開示における音声アシスト方法は、音声によりユーザをアシストするための音声アシストシステムにおいて実行される音声アシスト方法であって、音声アシストシステムは、少なくとも音声再生装置を備え、音声アシストシステムが備える一または複数のコンピュータプロセッサに、録音音声を用いて第一の情報の内容を再生するための第一の音声再生処理ステップと、第二の情報に対応する合成音声を生成する音声合成ステップと、少なくとも合成音声を用いて第二の情報の内容を再生するための第二の音声再生処理ステップとを実行させることを特徴とする。
 本開示におけるコンピュータプログラムは、音声によりユーザをアシストするための音声アシストシステムにおいて実行されるコンピュータプログラムであって、音声アシストシステムは、少なくとも音声再生装置を備え、音声アシストシステムが備える一または複数のコンピュータプロセッサに、録音音声を用いて第一の情報の内容を再生する第一の音声再生処理機能と、第二の情報に対応する合成音声を生成する音声合成機能と、少なくとも合成音声を用いて第二の情報の内容を再生する第二の音声再生処理機能とを実現させることを特徴とする。
 本開示によれば、合成音声を用いてユーザをアシストする技術において、上記合成音声に残された課題の少なくとも一部を解決又は緩和する技術的な改善を提供することが可能な音声アシストシステム、音声アシスト方法およびコンピュータプログラムを提供することが可能となる。
本開示における音声アシストシステムの実施形態の一例を示すシステム構成図である。 本開示における音声アシストシステムの実施形態の他の例を示すシステム構成図である。 本開示における音声アシストシステムのハードウェア構成の一例を示すハードウェア構成図である。 本開示における音声アシストシステムの機能構成の一例を示す機能構成図である。 本開示における音声アシストシステムの機能構成の他の例を示す機能構成図である。 本開示における表示画面の一例を示すイメージ図である。 本開示における表示画面の一例を示すイメージ図である。 本開示における表示画面の一例を示すイメージ図である。 本開示における表示画面の一例を示すイメージ図である。 本開示における表示画面の一例を示すイメージ図である。 本開示における表示画面の一例を示すイメージ図である。 本開示における表示画面の一例を示すイメージ図である。 本開示における音声アシスト方法のフローの一例を示すフロー図である。 本開示におけるコンピュータプログラムの回路構成の一例を示す回路構成図である。
 本開示における音声アシストシステムの実施形態について、図面を参照しながら説明を行う。
<システム構成>
 図1に一例として示されるように、本開示における音声アシストシステム1000は、音声によりユーザをアシストするためのものであって、少なくとも音声再生装置100を備えるものとである。
 このとき、音声再生装置100は、少なくとも後述する機能が実現可能な装置であればよく、イヤホンやヘッドホン等のヒアラブル端末、スマートフォン、タブレット端末、パーソナルコンピュータ等の情報処理端末、ヘッドマウントディスプレイ(HMD)やスマートグラス等のウェアラブル端末、および、これら以外の、音声を再生可能な装置とすることができる。
 また、図2に一例として示されるように、本開示における音声アシストシステム1000は、音声再生装置100および情報処理装置200を備えるものとしてもよい。また、音声アシストシステム1000は、音声再生装置100および/または情報処理装置200とインターネットを介して接続可能なサーバ装置300を備えるものとしてもよい。
 このとき、音声再生装置100は、情報処理装置200と有線または無線により接続可能なイヤホン、ヘッドホン、HMDおよびスマートグラス等とすることができ、情報処理装置200は、スマートフォン、タブレット端末、パーソナルコンピュータ等とすることができる。一例として、音声再生装置100と情報処理装置200との接続はBluetooth(登録商標)などの近距離無線通信により行われるものとする。
<ハードウェア構成>
 ここで、図3を用いて、音声アシストシステム1000に含まれる音声再生装置100のハードウェア構成について説明する。音声再生装置100は、プロセッサ101と、メモリ102と、ストレージ103と、入出力インターフェース(入出力I/F)104と、通信インターフェース(通信I/F)105とを含む。各構成要素は、バスBを介して相互に接続される。
 音声再生装置100は、プロセッサ101と、メモリ102と、ストレージ103と、入出力I/F104と、通信I/F105との協働により、本実施形態に記載される機能、方法を実現することができる。
 プロセッサ101は、ストレージ103に記憶されるプログラムに含まれるコード又は命令によって実現する機能、及び/又は、方法を実行する。プロセッサ101は、例えば、中央処理装置(CPU)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、マイクロプロセッサ(microprocessor)、プロセッサコア(processor core)、マルチプロセッサ(multiprocessor)、ASIC(Application-Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等を含み、集積回路(IC(Integrated Circuit)チップ、LSI(Large Scale Integration))等に形成された論理回路(ハードウェア)や専用回路によって各実施形態に開示される各処理を実現してもよい。また、これらの回路は、1又は複数の集積回路により実現されてよく、各実施形態に示す複数の処理を1つの集積回路により実現されることとしてもよい。また、LSIは、集積度の違いにより、VLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
 メモリ102は、ストレージ103からロードしたプログラムを一時的に記憶し、プロセッサ101に対して作業領域を提供する。メモリ102には、プロセッサ101がプログラムを実行している間に生成される各種データも一時的に格納される。メモリ102は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)等を含む。
 ストレージ103は、プログラムを記憶する。ストレージ103は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等を含む。
 入出力I/F104は、音声再生装置100に対する各種操作を入力する入力装置、及び、音声再生装置100で処理された処理結果を出力する出力装置を含む。入出力I/F104は、入力装置と出力装置が一体化していてもよいし、入力装置と出力装置とに分離していてもよい。
 入力装置は、ユーザからの入力を受け付けて、当該入力に係る情報をプロセッサ101に伝達できる全ての種類の装置のいずれか、又は、その組み合わせにより実現される。入力装置は、例えば、タッチパネル、タッチディスプレイ、キーボード等のハードウェアキーや、マウス等のポインティングデバイス、カメラ(画像を介した操作入力)、マイク(音声による操作入力)等を含む。
 出力装置は、プロセッサ101で処理された処理結果を出力する。出力装置は、例えば、ディスプレイ、スピーカ等を含む。
 通信I/F105は、ネットワークアダプタ等のハードウェアや通信用ソフトウェア、及びこれらの組み合わせとして実装され、ネットワークを介して各種データの送受信を行う。当該通信は、有線、無線のいずれで実行されてもよく、互いの通信が実行できるのであれば、どのような通信プロトコルを用いてもよい。通信I/F105は、ネットワークを介して、他の情報処理装置との通信を実行する。通信I/F105は、各種データをプロセッサ101からの指示に従って、他の情報処理装置に送信する。また、通信I/F105は、他の情報処理装置から送信された各種データを受信し、プロセッサ101に伝達する。
 また、本開示における情報処理装置200およびサーバ装置300についても、特筆すべき場合を除き、図3と同様のハードウェア構成で構成されることができる。
 なお、ここでは、音声アシストシステム1000が備える音声再生装置100が少なくともスピーカを有するスマートフォン等の情報処理装置であるものとして説明を行うが、これに限られるものではない。
<機能構成>
 本開示における音声アシストシステム1000が備える一または複数のコンピュータプロセッサは、図4に一例として示されるように、第一の音声再生処理部110、音声合成部120および第二の音声再生処理部130を備えることを特徴とする。
 第一の音声再生処理部110は、録音音声を用いて第一の情報の内容を再生するためのものである。
 録音音声は、声優等により予め録音された音声であって、音声データとして対応する第一の情報に関連付けて音声再生装置100の記憶部に記憶されている。
 第一の情報は、一例として、時刻情報、天気情報、アラーム情報および音声再生装置100に関する設定情報等の定型の内容に関する情報であるものとする。
 第一の音声再生処理部110は、第一の情報をユーザに通知する必要が生じた際に、当該第一の情報に対応する音声データを特定し、当該音声データを再生することにより、第一の情報の内容をユーザに通知することができる。
 ユーザへの通知は、例えば正時に行われるものとする。
 音声合成部120は、第二の情報に対応する合成音声を生成するものである。
 第二の情報は、一例として、スケジュール情報、ナビ情報およびメッセージ情報等の非定型の内容に関する情報であるものとする。
 音声合成部120は、第二の情報をユーザに通知する必要が生じた際に、合成音声の生成に用いられる音声データ、および、第二の情報に対応するテキストデータから、合成音声を生成する。なお、かかる音声合成技術については、公知の技術を適用することにより実現することができる。
 合成音声の生成は、例えば、メッセージを受信した際に行われるものとする。
 そして、第二の音声再生処理部130は、少なくとも合成音声を用いて第二の情報の内容を再生するためのものである。
 第二の音声再生処理部130は、合成音声が生成された際に、当該合成音声を再生することにより、第二の情報の内容をユーザに通知することができる。
 以上の構成によれば、合成音声を用いてユーザをアシストする技術において、上記合成音声に残された課題の少なくとも一部を解決又は緩和する技術的な改善を提供することが可能な音声アシストシステムを提供することが可能となる。
 具体的には、音声アシストとして、合成音声だけではなく録音音声を用いることにより、少なくとも録音音声部分についてはキャラクタ性が生まれ、ユーザに対して温かみのある音声アシストを提供することが可能となる。また、録音音声だけではなく合成音声を用いることにより、通知すべき情報の内容が定型/非定型に関わらず、適切な音声アシストを提供することが可能となる。
 続いて、図5を参照しながら、本開示における一または複数のコンピュータプロセッサが、さらに、表示処理部140を備える場合について説明を行う。
 表示処理部140は、所定の表示画面に少なくとも二つのオブジェクトを表示させるものである。
 図6は、一例として、音声再生装置100としての情報処理装置が備える表示部に表示された表示画面400のイメージを示したものである。
 図6に示されるように、表示画面400には、二つのオブジェクト401,402が表示されている。
 少なくとも二つのオブジェクトに含まれる一のオブジェクト401は、第一の音声再生処理部110から出力される音声に対応するものである。
 図6において、一のオブジェクト401は人間をイラスト化したキャラクタオブジェクトとして表示されている。
 そして、第一の音声再生処理部110から出力される音声、すなわち、録音音声は、かかる一のオブジェクト401が発しているものとして表現される。
 一例として、表示処理部140は、第一の音声再生処理部110から録音音声を出力する際に、一のオブジェクト401が表示画面の中央にくるように表示位置を変更する。なお、図6に示すように、他のオブジェクト402がキャラクタオブジェクトでない場合には、録音音声は一のオブジェクト401が発していると明らかであるため、特に表示位置の変更は不要である。
 そして、少なくとも二つのオブジェクトに含まれる他のオブジェクト402は、第二の音声再生処理部130から出力される音声に対応するものである。
 図6において、他のオブジェクト402は人間をイラスト化したキャラクタオブジェクトではないものとして表示されている。
 そして、第二の音声再生処理部130から出力される音声、すなわち、合成音声は、かかる他のオブジェクト402が発しているものとして表現される。
 一例として、表示処理部140は、第二の音声再生処理部130から合成音声を出力する際に、他のオブジェクト402の近傍に合成音声に対応するテキストを表示する。
 なお、他のオブジェクト402は、図7に示されるように、一のオブジェクト401と同様に、人間をイラスト化したキャラクタオブジェクトとして表示してもよい。
 いずれの場合においても、第一の音声再生処理部110から出力される音声と、第二の音声再生処理部130から出力される音声とは、異なるオブジェクトが発しているものとして区別可能な態様で出力されるのが好ましい。
 また、図5に示されるように、本開示における一または複数のコンピュータプロセッサは、さらに、調整部150を備えることができる。
 調整部150は、第一の音声再生処理部110および第二の音声再生処理部130から出力される音声が、ユーザにとって異なる方向から聞こえるよう調整するものである。
 一例として、調整部150は、第一の音声再生処理部110から出力される音声がユーザの一方の耳方向から聞こえるよう調整し、第二の音声再生処理部130から出力される音声がユーザの他方の耳方向から聞こえるよう調整することができる。
 また、調整部150は、表示画面400に表示された少なくとも二つのオブジェクトの位置に応じて、音声が聞こえる方向を調整するものとしてもよい。
 一例として、調整部150は、一のオブジェクトが表示画面400上で左側に表示され、他のオブジェクトが表示画面400上で右側に表示されている場合(図7と逆の場合)、第一の音声再生処理部110から出力される音声がユーザの左耳向から聞こえるよう調整し、第二の音声再生処理部130から出力される音声がユーザの→耳方向から聞こえるよう調整することができる。
 また、図6および図7に示されるように、表示画面400には、さらに、録音音声として使用するデータを変更するための変更ボタン403および各種設定を行うためのメニューボタン404を表示されることができる。
 図8は、上記変更ボタン403がユーザにより選択された場合に表示されるアシスタント変更画面500のイメージを表示したものである。
 アシスタント変更画面500では、ユーザは、メインアシスタントおよびサブアシスタントの変更を行うことができる。ここで、メインアシスタントとは、第二の音声再生処理部130から出力される音声に対応するものであり、上記オブジェクト402が発しているように表現されるものである。同様に、サブアシスタントとは、第一の音声再生処理部110から出力される音声に対応するものであり、上記オブジェクト401が発しているように表現されるものである。
 そして、図5に示すように、本開示における一または複数のコンピュータプロセッサは、さらに、指定受付部160を備えることができる。
 指定受付部160は、録音音声として使用する第一の音声データ、および/または、合成音声を生成するための第二の音声データのユーザによる指定を受け付けるものである。
 図8に示されるように、アシスタント変更画面500には、メインアシスタントとサブアシスタントのどちらを変更するかを切り替えるためのタブ510、520と、変更可能なアシスタントの情報を表示するアシスタント情報表示欄530が表示される。
 一例として、タブ520が選択されている場合において、アシスタント情報表示欄530には、アシスタントの名称表示欄531、プロフィール情報表示欄532、オブジェクトの画像表示欄533、サンプルボイスの再生ボタン534、音声データの購入に必要な金額表示欄535、変更選択ボタン536が表示される。なお、タブ510が選択されている場合にも同様の構成の画面が表示されるが、表示されるアシスタントはタブ520が選択されている場合と異なるものとする。
 なお、図8に示す例では、最上欄に表示されたアシスタントは既にサブアシスタントとして利用中であるため、サンプルボイスの再生ボタン534および変更選択ボタン536は表示されずに、利用中である旨の表示537が表示される。また、図8ではアシスタント情報表示欄530は2つしか表示されていないが、特に数は制限されない。
 そして、変更選択ボタン536がユーザにより選択されると、対応するアシスタントがサブアシスタントとして設定され、録音音声として使用する音声データが決定される。
 なお、全てのアシスタントに対応する音声データは、予め音声再生装置100に記憶されているものとしてもよいが、上記変更選択ボタン536が選択された際に、サーバ装置300からダウンロードされるものであってもよい。
 このとき、本開示における音声アシストシステム1000は一例として、図2に示した構成を備え、録音音声を含む第一の音声データ、および/または、合成音声の生成に用いられる第二の音声データは、情報処理装置200と接続可能なサーバ装置から取得することにより情報処理装置200の記憶部に記憶されることができる。なお、図2では音声再生装置100と情報処理装置200が別の装置として描かれているが、これら装置は一体の装置であってもよい。
 続いて、表示画面400に表示されたメニューボタン404がユーザにより選択された場合について説明を行う。
 図9は、メニューボタン404がユーザにより選択された場合に表示画面400に重畳して表示されるメニュー画面600のイメージを表示したものである。
 図9に示されるように、メニュー画面600には、選択アシスタント情報表示欄610およびアプリ設定欄620が表示されている。
 選択アシスタント情報表示欄610には、一例として、アシスタントの名称611およびオブジェクトの画像表示欄612が表示される。
 アプリ設定欄620には、一例として、オンデマンド設定ボタン630、定時読み上げ設定ボタン640、音声エンジン詳細設定ボタン650が表示される。
 オンデマンド設定ボタン630がユーザにより選択されると、画面は図10に示すオンデマンドアシスト設定画面700へと遷移する。
 オンデマンドアシスト設定画面700では、メインアシスタントに対応するオブジェクトをタップした時に読み上げる情報の設定を行うことができる。
 一例として、現在時刻の読み上げのON/OFF、現在地の天気の読み上げのON/OFF、情報処理装置のバッテリー残量の読み上げのON/OFF等を設定することができる。また、メインアシスタントは合成音声を用いているため、テキストデータが用意される情報であればどのような情報を読み上げることも可能である。
 同様に、定時読み上げ設定ボタン640がユーザにより選択されると、画面は図11に示す定時読み上げ設定画面800へと遷移する。
 定時読み上げ設定画面800では、サブアシスタントに対応するオブジェクトをタップした時または定時になった際に再生する情報の設定を行うことができる。
 一例として、時報の読み上げのON/OFF、現在地の天気の読み上げのON/OFF、情報処理装置のバッテリー残量の読み上げのON/OFF等を設定することができる。
 そして、音声エンジン詳細設定ボタン650がユーザにより選択されると、画面は図12に示す音声エンジン詳細設定画面900へと遷移する。
 音声エンジン詳細設定画面900では、メインアシスタントの音声、すなわち合成音声の音量および読み上げ速度の設定を行うことができる。
 また、図示は省略するが、メインアシスタントとサブアシスタントによる音声の再生のタイミングが被ってしまった場合に、どちらの再生を優先するかの設定を行うことができるようにしてもよい。
 上述したように、第一の情報は、時刻情報、天気情報、アラーム情報および音声再生装置に関する設定情報の少なくとも一つを含むものとすることができる。
 ここで言う時刻情報とは、正時のことをいうものとする。
 音声再生装置に関する設定情報とは、電源のON/OFF、他の装置との接続の可否、バッテリー残量等に関する情報を含むことができる。
 第一の情報は録音音声により再生されるものであるため、予め音声データを用意できる情報であれば、どのような情報が第一の情報に含まれていてもよい。
 上述したように、第二の情報は、スケジュール情報、ナビ情報およびメッセージ情報の少なくとも一つを含むものとすることができる。
 また、第二の情報は、第一の情報と同様に、時刻情報、天気情報、アラーム情報および音声再生装置に関する設定情報の少なくとも一つを含むものとしてもよい。
 ここで言う時刻情報は、正時に限られず、すべての分秒を含むことができる。
 また、第二の情報はテキストデータが用意されているものであればよく、音声再生装置にインストールされた様々なアプリケーションからの通知や情報を含むことができる。
 例えば、スケジュール管理アプリケーションからスケジュール情報のテキストデータを取得し、第二の情報として読み上げることができる。
 同様に、地図ナビゲーションアプリケーションからナビゲーション情報のテキストデータを取得し、第二の情報として読み上げることができる。
 同様に、メッセージの送受信が可能なメッセージアプリケーションからメッセージの受信に関する情報およびメッセージ内容のテキストデータを取得し、第二の情報として読み上げることができる。
 同様に、音声通話が可能な音声通話アプリケーションから音声通話の着信に関する情報のテキストデータを取得し、第二の情報として読み上げることができる。
 すなわち、第二の情報は、情報処理装置から取得した情報に基づく情報とすることができる。
 以上、本開示における音声アシストシステムの実施形態について説明を行ったが、他の実施形態として、ユーザによる一のオブジェクト401のタップ操作に応じて、第一の情報とは異なる別の音声データを再生することも可能である。
 別の音声データとは、録音音声であって、一のオブジェクト401に対応するサブアシスタントのプロフィールに応じて予め録音された台詞である。
 かかる別の音声データは、ユーザによって一のオブジェクト401がタップされた時間や回数によって変化させるものであってもよい。
 また、本開示における音声アシストシステムにより実現される音声アシストは、情報処理端末にアプリケーションとして実装されることができる。このアプリケーションは、バックグラウンドで起動させておくだけで上述した音声アシストを実現することができる。
 続いて、本開示における音声アシスト方法の実施形態について、図面を参照しながら説明を行う。
 本開示における音声アシスト方法は、音声によりユーザをアシストするための音声アシストシステム1000において実行される音声アシスト方法である。
 本開示における音声アシスト方法は、図13に示されるように、音声アシストシステム1000が備える一または複数のコンピュータプロセッサに、第一の音声再生処理ステップS110と、音声合成ステップS120と、第二の音声再生処理ステップS130とを実行させることを特徴とする。
 第一の音声再生処理ステップS110は、録音音声を用いて第一の情報の内容を再生する。かかる第一の音声再生処理ステップS110は、上述した第一の音声再生処理部110により実行されることができる。
 音声合成ステップS120は、第二の情報に対応する合成音声を生成する。かかる音声合成ステップS120は、上述した音声合成部120により実行されることができる。
 第二の音声再生処理ステップS130は、少なくとも前記合成音声を用いて前記第二の情報の内容を再生する。かかる第二の音声再生処理ステップS130は、上述した第二の音声再生処理部130により実行されることができる。
 以上の構成によれば、合成音声を用いてユーザをアシストする技術において、上記合成音声に残された課題の少なくとも一部を解決又は緩和する技術的な改善を提供することが可能な音声アシストシステムを提供することが可能となる。
 最後に、本開示におけるコンピュータプログラムの実施形態について、図面を参照しながら説明を行う。
 本開示におけるコンピュータプログラムは、音声によりユーザをアシストするための音声アシストシステム1000において実行されるコンピュータプログラムである。
 本開示におけるコンピュータプログラムは、音声アシストシステム1000が備える一または複数のコンピュータプロセッサに、第一の音声再生処理機能と、音声合成機能と、第二の音声再生処理機能とを実現させることを特徴とする。
 第一の音声再生処理機能は、録音音声を用いて第一の情報の内容を再生する。
 音声合成機能は、第二の情報に対応する合成音声を生成する。
 第二の音声再生処理機能は、少なくとも前記合成音声を用いて前記第二の情報の内容を再生する。
 上記機能は、図14に示す第一の音声再生処理回路1110、音声合成回路1120および第二の音声再生処理回路1130により実現されることができる。第一の音声再生処理回路1110、音声合成回路1120および第二の音声再生処理回路1130は、それぞれ上述した第一の音声再生処理部110、音声合成部120および第二の音声再生処理部130により実現されるものとする。各部の詳細については上述したとおりである。
 本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
 また、実施形態に記載した手法は、計算機(コンピュータ)に実行させることができるプログラムとして、例えば磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD、MO等)、半導体メモリ(ROM、RAM、フラッシュメモリ等)等の記録媒体に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウェア手段(実行プログラムのみならずテーブルやデータ構造も含む)を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウェア手段を構築し、このソフトウェア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスクや半導体メモリ等の記憶媒体を含むものである。記憶部は、例えば主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してもよい。
 1000  音声アシストシステム
  100  音声再生装置
  110  第一の音声再生処理部
  120  音声合成部
  130  第二の音声再生処理部
  140  表示処理部
  150  調整部
  160  指定受付部
  200  情報処理装置
  300  サーバ装置

Claims (11)

  1.  音声によりユーザをアシストするための音声アシストシステムであって、
     前記音声アシストシステムは、少なくとも音声再生装置を備え、
     前記音声アシストシステムが備える一または複数のコンピュータプロセッサは、
     録音音声を用いて第一の情報の内容を再生するための第一の音声再生処理部と、
     第二の情報に対応する合成音声を生成する音声合成部と、
     少なくとも前記合成音声を用いて前記第二の情報の内容を再生するための第二の音声再生処理部と
     を備える音声アシストシステム。
  2.  前記第一の情報は、時刻情報、天気情報、アラーム情報および前記音声再生装置に関する設定情報の少なくとも一つを含むことを特徴とする請求項1に記載の音声アシストシステム。
  3.  前記第二の情報は、スケジュール情報、ナビ情報およびメッセージ情報の少なくとも一つを含むことを特徴とする請求項1または2に記載の音声アシストシステム。
  4.  前記音声アシストシステムは、さらに、前記音声再生装置と接続可能な情報処理装置を備え、
     前記録音音声を含む第一の音声データ、および/または、前記合成音声の生成に用いられる第二の音声データは、前記情報処理装置と接続可能なサーバ装置から取得することにより前記情報処理装置の記憶部に記憶されることを特徴とする請求項1、2または3に記載の音声アシストシステム。
  5.  前記第二の情報は、前記情報処理装置から取得した情報に基づく情報であることを特徴とする請求項4に記載の音声アシストシステム。
  6.  前記音声アシストシステムが備える一または複数のコンピュータプロセッサは、さらに、
     前記録音音声として使用する第一の音声データ、および/または、前記合成音声を生成するための第二の音声データの前記ユーザによる指定を受け付ける指定受付部を備えることを特徴とする請求項1から5のいずれか一項に記載の音声アシストシステム。
  7.  前記音声アシストシステムが備える一または複数のコンピュータプロセッサは、さらに、
     前記第一の音声再生処理部および前記第二の音声再生処理部から出力される音声が、前記ユーザにとって異なる方向から聞こえるよう調整する調整部を備えることを特徴とする請求項1から6のいずれか一項に記載の音声アシストシステム。
  8.  前記音声アシストシステムが備える一または複数のコンピュータプロセッサは、さらに、
     所定の表示画面に少なくとも二つのオブジェクトを表示させる表示処理部を備え、
     前記少なくとも二つのオブジェクトに含まれる一のオブジェクトは、前記第一の音声再生処理部から出力される音声に対応するものであり、
     前記少なくとも二つのオブジェクトに含まれる他のオブジェクトは、前記第二の音声再生処理部から出力される音声に対応するものであることを特徴とする請求項1から7のいずれか一項に記載の音声アシストシステム。
  9.  前記音声アシストシステムが備える一または複数のコンピュータプロセッサは、さらに、
     前記第一の音声再生処理部および前記第二の音声再生処理部から出力される音声が、前記ユーザにとって異なる方向から聞こえるよう調整する調整部を備え、
     前記調整部は、前記表示画面に表示された前記少なくとも二つのオブジェクトの位置に応じて、前記音声が聞こえる方向を調整することを特徴とする請求項8に記載の音声アシストシステム。
  10.  音声によりユーザをアシストするための音声アシストシステムにおいて実行される音声アシスト方法であって、
     前記音声アシストシステムは、少なくとも音声再生装置を備え、
     前記音声アシストシステムが備える一または複数のコンピュータプロセッサに、
     録音音声を用いて第一の情報の内容を再生するための第一の音声再生処理ステップと、
     第二の情報に対応する合成音声を生成する音声合成ステップと、
     少なくとも前記合成音声を用いて前記第二の情報の内容を再生するための第二の音声再生処理ステップと
     を実行させる音声アシスト方法。
  11.  音声によりユーザをアシストするための音声アシストシステムにおいて実行されるコンピュータプログラムであって、
     前記音声アシストシステムは、少なくとも音声再生装置を備え、
     前記音声アシストシステムが備える一または複数のコンピュータプロセッサに、
     録音音声を用いて第一の情報の内容を再生する第一の音声再生処理機能と、
     第二の情報に対応する合成音声を生成する音声合成機能と、
     少なくとも前記合成音声を用いて前記第二の情報の内容を再生する第二の音声再生処理機能と
     を実現させるコンピュータプログラム。
PCT/JP2021/008844 2021-03-05 2021-03-05 音声アシストシステム、音声アシスト方法およびコンピュータプログラム WO2022185551A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/008844 WO2022185551A1 (ja) 2021-03-05 2021-03-05 音声アシストシステム、音声アシスト方法およびコンピュータプログラム
TW111107235A TW202303585A (zh) 2021-03-05 2022-03-01 音訊輔助系統、音訊輔助方法及電腦程式產品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/008844 WO2022185551A1 (ja) 2021-03-05 2021-03-05 音声アシストシステム、音声アシスト方法およびコンピュータプログラム

Publications (1)

Publication Number Publication Date
WO2022185551A1 true WO2022185551A1 (ja) 2022-09-09

Family

ID=83155263

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/008844 WO2022185551A1 (ja) 2021-03-05 2021-03-05 音声アシストシステム、音声アシスト方法およびコンピュータプログラム

Country Status (2)

Country Link
TW (1) TW202303585A (ja)
WO (1) WO2022185551A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330484A (ja) * 2005-05-27 2006-12-07 Kenwood Corp 音声案内装置及び音声案内プログラム
JP2007256456A (ja) * 2006-03-22 2007-10-04 Denso It Laboratory Inc コンテンツ提供装置およびコンテンツ提供方法
JP2010521709A (ja) * 2007-03-21 2010-06-24 トムトム インターナショナル ベスローテン フエンノートシャップ テキストを音声に変換して配信するための装置及びその方法
JP2020152183A (ja) * 2019-03-19 2020-09-24 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330484A (ja) * 2005-05-27 2006-12-07 Kenwood Corp 音声案内装置及び音声案内プログラム
JP2007256456A (ja) * 2006-03-22 2007-10-04 Denso It Laboratory Inc コンテンツ提供装置およびコンテンツ提供方法
JP2010521709A (ja) * 2007-03-21 2010-06-24 トムトム インターナショナル ベスローテン フエンノートシャップ テキストを音声に変換して配信するための装置及びその方法
JP2020152183A (ja) * 2019-03-19 2020-09-24 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム

Also Published As

Publication number Publication date
TW202303585A (zh) 2023-01-16

Similar Documents

Publication Publication Date Title
US8825468B2 (en) Mobile wireless display providing speech to speech translation and avatar simulating human attributes
US9774979B1 (en) Systems and methods for spatial audio adjustment
EP3435373B1 (en) Mobile wireless display providing speech to speech translation and avatar simulating human attributes
CN107168518B (zh) 一种用于头戴显示器的同步方法、装置及头戴显示器
JP2014072894A (ja) カメラによるオーディオ空間化
EP3777250A1 (en) Controlling audio in multi-viewpoint omnidirectional content
US11036464B2 (en) Spatialized augmented reality (AR) audio menu
US11115539B2 (en) Smart voice system, method of adjusting output voice and computer readable memory medium
JP2019518989A (ja) オーディオ出力を生成するためのデバイス
JP2014219617A (ja) 音声案内システム及び音声案内方法
JP6463545B1 (ja) 情報処理装置、コンピュータプログラムおよび情報処理方法
Mariette Human factors research in audio augmented reality
JP2010068292A (ja) 音声出力装置、プロジェクタ、プログラムおよび情報記憶媒体
WO2022185551A1 (ja) 音声アシストシステム、音声アシスト方法およびコンピュータプログラム
JP6161886B2 (ja) 音声出力システム、情報処理装置、情報処理プログラム、および音声出力制御方法
JP4453614B2 (ja) 語学学習システム
JP2004178558A (ja) コンピュータシステム及びその制御方法
JP2016191791A (ja) 情報処理装置、情報処理方法及びプログラム
CN112307161B (zh) 用于播放音频的方法和装置
JP2021071663A (ja) 音声再生デバイス、音声再生システム、音声再生方法および音声再生プログラム
WO2016009850A1 (ja) 音声信号再生装置、音声信号再生方法、プログラム、および、記録媒体
CN117014539B (zh) 音量调节方法及电子设备
CN116567489B (zh) 一种音频数据处理方法及相关装置
CN111381797B (zh) 一种在客户端上实现ktv功能的处理方法、装置及用户设备
WO2022215187A1 (ja) 音声再生システム、音声再生方法およびコンピュータプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21929123

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21929123

Country of ref document: EP

Kind code of ref document: A1