WO2020031292A1

WO2020031292A1 - 音声ａｉモデル切替システム、音声ａｉモデル切替方法、及びプログラム

Info

Publication number: WO2020031292A1
Application number: PCT/JP2018/029786
Authority: WO
Inventors: 将仁谷口
Original assignee: 株式会社ウフル
Priority date: 2018-08-08
Filing date: 2018-08-08
Publication date: 2020-02-13

Abstract

例えばユーザが「孫悟空の声で」というと、ＡＩスピーカー１０はその音声を認識し、「孫悟空」という音声ＡＩモデルの呼称を含む音声認識結果を音声ＡＩモデル提供装置２０に送信する。受付手段２３は、登録された複数の音声ＡＩモデルのうち、選択された音声ＡＩモデルを特定する。具体的には、受付手段２３は、ＡＩスピーカー１０から送信されてくる音声認識結果と音声ＡＩモデルＤＢ内の音声ＡＩモデルの呼称とを比較する。上記の例では、受付手段２３は、「孫悟空」という音声ＡＩモデルの呼称を特定し、その音声ＡＩモデル及びそのデータ識別子を特定する。

Description

音声ＡＩモデル切替システム、音声ＡＩモデル切替方法、及びプログラム

　本発明は、ＡＩ（ArtificialIntelligence）スピーカーが用いる音声ＡＩモデルに関し、ＩｏＴ（Internet of Things）の分野で利用される。

　ユーザの音声による指示を受け付けてユーザが望む動作を行うＡＩスピーカーが開発されている。特許文献１には、ユーザと音声対話を行うに際して、その音声対話をそのユーザに応じた自然な内容にし、効果的に対話を進めるための技術が開示されている。

特開２００４－０２１１２１号公報

　ＡＩスピーカーの普及に伴い、ユーザが望むあらゆるサービスがＡＩスピーカーシステムによって実現されることが期待されている。例えば、ＡＩスピーカーが発声する音声の声色や口調等が様々な状況に応じて変化すれば、ユーザがＡＩスピーカーと対話するときの面白みが増すことになる。

　そこで、本発明の目的は、ＡＩスピーカーが発声する音声の声色や口調を変化させることにある。

　本発明は、クラウドからＡＩスピーカーに対して、ユーザからの音声ＡＩモデルの切り替えの要望に対応する音声ＡＩモデルに切り替える音声ＡＩモデル切替システムであって、前記ＡＩスピーカーで使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声ＡＩモデルを提示させる提示手段と、前記提示された複数の音声ＡＩモデルの中から、音声ＡＩモデルの選択を前記ユーザから受け付ける受付手段と、前記ユーザに対応するＡＩスピーカーに対して、前記選択された音声ＡＩモデルをクラウドから取得させるように制御を行う第１制御手段と、前記ユーザに対応するＡＩスピーカーに対して、既に適用されている他の音声ＡＩモデルから、前記取得された音声ＡＩモデルに切り替えるように制御を行う第２制御手段とを備える音声ＡＩモデル切替システムを提供する。

　前記提示手段は、前記複数の音声ＡＩモデルの各々に対する優先順位に応じて前記音声ＡＩモデルを提示させるようにしてもよい。

　前記音声ＡＩモデルの選択は、前記ＡＩスピーカーに入力されたユーザの音声を解析した結果に基づく選択であってもよい。

　前記音声ＡＩモデルの選択は、ユーザを撮像した画像を解析した結果に基づく選択であってもよい。

　前記音声ＡＩモデルの選択は、それぞれのユーザの声紋と前記音声ＡＩモデルとを対応付けたデータベースに基づく、前記ＡＩスピーカーに入力された音声の声紋に対応する前記音声ＡＩモデルの選択であってもよい。

　また、本発明は、クラウドからＡＩスピーカーに対して、ユーザからの音声ＡＩモデルの切り替えの要望に対応する音声ＡＩモデルに切り替える音声ＡＩモデル切替方法であって、前記ＡＩスピーカーで使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声ＡＩモデルを提示させる提示ステップと、前記提示された複数の音声ＡＩモデルの中から、音声ＡＩモデルの選択を前記ユーザから受け付ける受付ステップと、前記ユーザに対応するＡＩスピーカーに対して、前記選択された音声ＡＩモデルをクラウドから取得させるように制御を行う第１制御ステップと、前記ユーザに対応するＡＩスピーカーに対して、既に適用されている他の音声ＡＩモデルから、前記取得された音声ＡＩモデルに切り替えるように制御を行う第２制御ステップとを備える音声ＡＩモデル切替方法を提供する。

　また、本発明は、コンピュータに、クラウドからＡＩスピーカーに対して、当該ＡＩスピーカーで使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声ＡＩモデルを提示させる提示ステップと、前記提示された複数の音声ＡＩモデルの中から、音声ＡＩモデルの選択を前記ユーザから受け付ける受付ステップと、クラウドから前記ユーザに対応するＡＩスピーカーに対して、前記選択された音声ＡＩモデルをクラウドから取得させるように制御を行う第１制御ステップと、クラウドから前記ユーザに対応するＡＩスピーカーに対して、既に適用されている他の音声ＡＩモデルから、前記取得された音声ＡＩモデルに切り替えるように制御を行う第２制御ステップとを実行させるためのプログラムを提供する。

　本発明によれば、ＡＩスピーカーが発声する音声の声色や口調を変化させることができる。

本実施形態に係る音声ＡＩモデル切替システムの構成を示す図。ＡＩスピーカーのハードウェア構成の一例を示す図。音声ＡＩモデル提供装置のハードウェア構成の一例を示す図。音声ＡＩモデルＤＢの一例を示す図。音声ＡＩモデル切替システムの機能構成を示す図。音声ＡＩモデル切替システムの動作の流れを示すシーケンス図。

１…音声ＡＩモデル切替システム、１０…ＡＩスピーカー、１０１…制御部、１０２…記憶部、１０３…通信部、１０４…入力部、１０５…出力部、２０…音声ＡＩモデル提供装置、２０１…制御部、２０２…記憶部、２０３…通信部、１１…取得手段、２１…登録手段、１２，２２…選択手段、１３，２３…切替手段、１４…発声手段
、１３…発声手段

＜実施形態＞
＜音声ＡＩモデル切替システムの全体構成＞
　図１は、本実施形態に係る音声ＡＩ（Artificial Intelligence）モデル切替システム１の構成を示す図である。音声ＡＩモデル切替システム１は、ＡＩスピーカー１０と、音声ＡＩモデル提供装置２０と、これらを通信可能に接続するネットワーク４０とを有する。音声ＡＩモデル切替システム１は、クラウドからＡＩスピーカー１０に対して、ユーザからの音声ＡＩモデルの切り替えの要望に対応する音声ＡＩモデルに切り替えるシステムとして機能する。この音声ＡＩモデル切替システム１は、ＡＩスピーカー１０、音声ＡＩモデル提供装置２０及びネットワーク４０のそれぞれを複数有してもよい。

　ＡＩスピーカー１０は、マイクロフォン等によってユーザの音声を入力し、その入力音声に応じた対話を行うための音声ＡＩモデルに従ってダイナミックスピーカーや静電スピーカー等によって音声を発声し、さらに必要に応じて、ユーザとの対話を通じてそのユーザが所望する処理を外部装置（例えば各種の電化製品）等に指示する。ＡＩスピーカー１０は、例えばスマートスピーカーとかホームスピーカーとも呼ばれる。

　音声ＡＩモデル提供装置２０は、発声の声色又は口調が異なる複数の音声ＡＩモデルを蓄積し、ネットワーク４０を介してＡＩスピーカー１０に音声ＡＩモデルを提供するクラウドシステムである。声色とは、声の調子や感じである。口調とは、口に出したときの言葉の調子や、ものの言い方の様子或いは声の出し方や言葉の使い方などに表れた特徴である。音声ＡＩモデルは、音声認識や音声対話に関するアルゴリズムを含み、音声によるユーザとの対話を実現する。この音声ＡＩモデルは、例えば芸能人やスポーツ選手等の人物やアニメや架空生物のキャラクターといった、様々な発話主体の声色又は口調の音声で対話するためのモデルである。これらの音声ＡＩモデルとして様々なものが、図示せぬベンダーによって音声ＡＩモデル提供装置２０に登録される。これらの音声ＡＩモデルは、ディープラーニングやデータマイニング等の機械学習がなされている。

　ネットワーク４０は、ＡＩスピーカー１０及び音声ＡＩモデル提供装置２０を通信可能に接続する通信回線であり、例えばインターネット等である。

＜ＡＩスピーカーの構成＞
　図２は、ＡＩスピーカー１０の構成の一例を示す図である。ＡＩスピーカー１０は、制御部１０１、記憶部１０２、通信部１０３、入力部１０４及び出力部１０５を有する。

　制御部１０１は、ＣＰＵ（CentralProcessing Unit）、ＲＯＭ（Read OnlyMemory）、ＲＡＭ（Random AccessMemory）を有し、ＣＰＵがＲＯＭ及び記憶部１０２に記憶されているコンピュータプログラム（以下、単にプログラムという）を読み出して実行することによりＡＩスピーカー１０の各部を制御する。

　記憶部１０２は、例えばソリッドステートドライブやハードディスクドライブ等の大容量の記憶手段であり、制御部１０１のＣＰＵに読み込まれる各種のプログラムやデータ等を記憶する。

　通信部１０３は、有線又は無線によりネットワーク４０に接続する通信回路である。ＡＩスピーカー１０は、通信部１０３によりネットワーク４０に接続された音声ＡＩモデル提供装置２０と情報をやり取りする。

　入力部１０４は、音声を入力するマイクロフォン等であり、入力した音声を示す音声信号を制御部１０１に送る。

　出力部１０５は、例えばダイナミックスピーカーや静電スピーカー等であり、制御部１０１により指示された信号に応じて放音する。

＜音声ＡＩモデル提供装置の構成＞
　図３は、音声ＡＩモデル提供装置２０の構成の一例を示す図である。音声ＡＩモデル提供装置２０は、制御部２０１、記憶部２０２及び通信部２０３を有する。

　制御部２０１は、ＣＰＵ、ＲＯＭ、ＲＡＭを有し、ＣＰＵがＲＯＭ及び記憶部２０２に記憶されているコンピュータプログラム（以下、単にプログラムという）を読み出して実行することにより音声ＡＩモデル提供装置２０の各部を制御する。

　記憶部２０２は、例えばソリッドステートドライブやハードディスクドライブ等の大容量の記憶手段であり、制御部２０１のＣＰＵに読み込まれる各種のプログラムやデータ等を記憶する。この、記憶部２０２は、例えば複数の音声ＡＩモデルを含む音声ＡＩモデルデータベース（以下、データベースをＤＢという）を記憶する。

　通信部２０３は、有線又は無線によりネットワーク４０に接続する通信回路である。音声ＡＩモデル提供装置２０は、通信部２０３によりネットワーク４０に接続されたＡＩスピーカー１０と情報をやり取りする。

　図４は、記憶部２０２に記憶されている音声ＡＩモデルＤＢを示す図である。音声ＡＩモデルＤＢにおいては、音声ＡＩモデルの呼称と、その音声ＡＩモデルのデータファイルのデータ識別子とが対応付けられている。例えばアニメキャラクターである「孫悟空」の声色及び口調の音声で対話するための音声ＡＩモデルのデータ識別子は「Ａ００１」であり、例えばアニメキャラクターである「アンパンマン」の声色及び口調の音声で対話するための音声ＡＩモデルのデータ識別子は「Ａ００２」であり、例えば人物（俳優）である「青木健二」の声色及び口調の音声で対話するための音声ＡＩモデルのデータ識別子は「Ａ００３」であり、例えば人物（アイドル）である「木村誠也」の声色及び口調の音声で対話するための音声ＡＩモデルのデータ識別子は「Ａ００４」である。これらの音声ＡＩモデルは、ユーザとの対話に基づく機械学習が実施されたものである。音声ＡＩモデルＤＢはこれらのデータ識別子によって識別される音声ＡＩモデルのデータファイルを含んでいる。

＜音声ＡＩモデル切替システムの機能的構成＞
　図５は、音声ＡＩモデル切替システム１の機能的構成を示す図である。音声ＡＩモデル提供装置２０の制御部２０１が記憶部２０２に記憶されているプログラムを読み出して実行することにより、音声ＡＩモデル提供装置２０は、登録手段２１、提示手段２２、受付手段２３、第１制御手段２４及び第２制御手段２５という機能を実現する。

　登録手段２１は、ＡＩスピーカー１０における発声の声色又は口調が異なる音声ＡＩモデルの登録を受け付ける。

　提示手段２２は、ＡＩスピーカー１０で使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声ＡＩモデルを提示させる。

　受付手段２３は、提示された複数の音声ＡＩモデルの中から、音声ＡＩモデルの選択をユーザから受け付ける。

　第１制御手段２４は、ユーザに対応するＡＩスピーカー１０に対して、選択された音声ＡＩモデルをクラウドから取得させるように制御を行う。

　第２制御手段２５は、ユーザに対応するＡＩスピーカー１０に対して、既に適用されている他の音声ＡＩモデルから、取得された音声ＡＩモデルに切り替えるように制御を行う。

＜音声ＡＩモデル切替システムの動作＞
　図６は、音声ＡＩモデル切替システム１の動作の流れを示すシーケンスチャートである。まず、音声ＡＩモデル提供装置２０の登録手段２１は、ベンダーから音声ＡＩモデルの登録を受け付ける（ステップＳ１０）。具体的には、図示せぬベンダーの通信装置に入力された音声ＡＩモデルがネットワーク４０経由で音声ＡＩモデル提供装置２０に送信されてくると、登録手段２１は、受信した音声ＡＩモデルを記憶部２０２の音声ＡＩモデルＤＢに格納する。この音声ＡＩモデルには音声ＡＩモデルの呼称が含まれており、登録手段２１は、音声ＡＩモデルの呼称を、音声ＡＩモデル及びそのデータ識別子に対応付けて音声ＡＩモデルＤＢに格納する。

　次に、提示手段２２は、ＡＩスピーカー１０で使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声ＡＩモデルを提示させる（ステップＳ１１）。具体的には、提示手段２２は、音声ＡＩモデルＤＢに含まれる音声ＡＩモデルの呼称を順番にＡＩスピーカーから音声出力させる。また、ユーザが音声ＡＩモデル提供装置２０に通信接続可能な表示装置（例えばスマートホン）を利用可能な場合は、提示手段２２は、音声ＡＩモデルＤＢに含まれる音声ＡＩモデルの呼称を表示装置に送信してリスト形式で表示させる。

　ＡＩスピーカー１０において、ユーザが音声ＡＩモデルを選択すると（ステップＳ１２）、音声ＡＩモデル提供装置２０の受付手段２３はその選択を受け付ける（ステップＳ１３）。例えばユーザが「孫悟空の声で」というと、ＡＩスピーカー１０はその音声を認識し、「孫悟空」という音声ＡＩモデルの呼称を含む音声認識結果を音声ＡＩモデル提供装置２０に送信する。受付手段２３は、登録された複数の音声ＡＩモデルのうち、選択された音声ＡＩモデルを特定する。具体的には、受付手段２３は、ＡＩスピーカー１０から送信されてくる音声認識結果と音声ＡＩモデルＤＢ内の音声ＡＩモデルの呼称とを比較する。上記の例では、受付手段２３は、「孫悟空」という音声ＡＩモデルの呼称を特定し、その音声ＡＩモデル及びそのデータ識別子を特定する。

　次に、音声ＡＩモデル提供装置２０の第１制御手段２４は、ＡＩスピーカー１０において、選択された音声ＡＩモデルをクラウドから取得させるように制御を行う（ステップＳ１４）。つまり、第１制御手段２４は、ＡＩスピーカー１０からの要求に応じて、「孫悟空」という音声ＡＩモデルをそのデータ識別子をキーにして音声ＡＩモデルＤＢから読み出してＡＩスピーカー１０に送信する。

　次に、音声ＡＩモデル提供装置２０の第２制御手段２５は、ユーザに対応するＡＩスピーカー１０に対して、既に適用されている他の音声ＡＩモデルから、取得された音声ＡＩモデルに切り替えるように制御を行う（ステップＳ１５）。つまり、第２制御手段２５は、ＡＩスピーカー１０に送信した音声ＡＩモデルに切り替えるよう指示する。ＡＩスピーカー１０は、その指示に従い、既に適用されている他の音声ＡＩモデルに代えて、受信した「孫悟空」という音声ＡＩモデルを、使用する音声ＡＩモデルに設定し（ステップＳ１６）、その音声ＡＩモデルに従いユーザとの対話を開始する（ステップＳ１７）。これにより、ユーザは、例えばアニメキャラクターである「孫悟空」の声色及び口調の音声を相手方として対話することができる。

　以上の実施形態によれば、ＡＩスピーカー１０が発声する音声の声色や口調をユーザの好みのものに変化させることが可能となる。また、クラウドにて音声ＡＩモデルを用意しておき、都度、ユーザが所望する音声ＡＩモデルを適用するので、音声ＡＩモデルの限界個数はエッジデバイスであるＡＩスピーカーの性能に依存しないという利点がある。

＜変形例＞
　以上が実施形態の説明であるが、この実施形態の内容は以下のように変形し得る。また、以下の変形例を組合せてもよい。
＜変形例１＞
　受付手段２３が複数の音声ＡＩモデルのうちいずれかを選択するときの方法は幾つかのものが考えられる。例えば、受付手段２３は、登録された複数の音声ＡＩモデルの各々に対して優先順位を決定し、決定した優先順位に応じて音声ＡＩモデルをユーザに提示し、ユーザによって指定された音声ＡＩモデルを選択するようにしてもよい。その優先順位は、例えば各音声ＡＩモデルをユーザの興味や嗜好に応じて分類しておき、或るユーザの興味や嗜好に合った声色又は口調の音声ＡＩモデルをそのユーザに対してより高い順位にしたものであってもよい。また、その優先順位は、例えば各音声ＡＩモデルに対して各ユーザが使用後に評価点を付与し得るようにしておき、その評価点が高い音声ＡＩモデルをより高い順位にしたものであってもよい。

＜変形例２＞
　受付手段２３は、ＡＩスピーカー１０に入力されたユーザの音声を解析した結果に基づいて音声ＡＩモデルを選択するようにしてもよい。例えば、受付手段２３は、ＡＩスピーカー１０に入力されたユーザの音声を解析して、その音声の声色又は口調を特定する。一方、各音声ＡＩモデルに対しては、その音声ＡＩモデルを利用すると想定されているユーザの声色又は口調が予め決められて音声ＡＩモデルＤＢに格納されている。受付手段２３は、ＡＩスピーカー１０に入力されたユーザの音声を解析して得られたその音声の声色又は口調に対応する音声ＡＩモデルを選択する。例えば、受付手段２３は、ＡＩスピーカー１０に入力されたユーザの音声を解析して、そのユーザの感情を特定する。一方、各音声ＡＩモデルに対しては、その音声ＡＩモデルを利用すると想定されているユーザの感情が予め決められて音声ＡＩモデルＤＢに格納されている。受付手段２３は、ＡＩスピーカー１０に入力されたユーザの音声を解析して得られた感情に対応する音声ＡＩモデルを選択する。この選択は、提示された複数の音声ＡＩモデルの中からユーザが音声ＡＩモデルを選択することに相当する。

＜変形例３＞
　受付手段２３は、ユーザを撮像した画像を解析した結果に基づいて音声ＡＩモデルを選択するようにしてもよい。例えば、受付手段２３は、ＡＩスピーカー１０に音声を入力したユーザの画像をカメラ等で撮像してこれを解析し、そのユーザの顔の表情等から感情を特定する。一方、各音声ＡＩモデルに対しては、その音声ＡＩモデルを利用すると想定されているユーザの感情が予め決められて音声ＡＩモデルＤＢに格納されている。受付手段２３は、ユーザの画像を解析して得られた感情に対応する音声ＡＩモデルを選択する。また、例えば、受付手段２３は、ＡＩスピーカー１０に音声を入力したユーザの画像をカメラ等で撮像してこれを解析し、そのユーザの属性（性別、年齢等）を特定する。一方、各音声ＡＩモデルに対しては、その音声ＡＩモデルを利用すると想定されているユーザの属性（性別、年齢等）が予め決められて音声ＡＩモデルＤＢに格納されている。受付手段２３は、ユーザの画像を解析して得られた感情に対応する音声ＡＩモデルを選択する。この選択は、提示された複数の音声ＡＩモデルの中からユーザが音声ＡＩモデルを選択することに相当する。

＜変形例４＞
　音声ＡＩモデル提供装置２０は、時間又は位置に基づいて音声ＡＩモデルを選択するようにしてもよい。例えば、各音声ＡＩモデルに対しては、その音声ＡＩモデルを利用すると想定されているのに適した時間又は位置が予め決められて音声ＡＩモデルＤＢに格納されている。音声ＡＩモデル提供装置２０は、対話を開始するときの時間又は位置に対応する音声ＡＩモデルを選択する。この時間は例えばタイマ等の計時装置により特定される。また、位置は例えばＧＰＳユニット等の測位装置により特定される。

＜変形例５＞
　受付手段２３は、それぞれのユーザの声紋と音声ＡＩモデルとを対応付けたデータベースを参照し、入力された音声の声紋に対応する音声ＡＩモデルを選択するようにしてもよい。例えば、受付手段２３は、ＡＩスピーカー１０に入力されたユーザの音声を解析して、その声紋を特定する。一方、各音声ＡＩモデルに対しては、その音声ＡＩモデルを利用すると決められているユーザの音声の声紋が予め決められて音声ＡＩモデルＤＢに格納されている。受付手段２３は、ＡＩスピーカー１０に入力されたユーザの音声を解析して得られた声紋に対応する音声ＡＩモデルを選択する。この選択は、提示された複数の音声ＡＩモデルの中からユーザが音声ＡＩモデルを選択することに相当する。

＜変形例６＞
　例えば図５で例示した機能構成の一部は省略されてもよいし、さらに別の機能が追加されてもよい。図５に示した機能は、音声ＡＩモデル切替システム１に属するいずれかの装置が実装していればよい。また、物理的に複数の装置からなるコンピュータ装置群が連携して、図５に示したのと同等の機能を実装してもよい。

＜変形例７＞
　音声ＡＩモデル切替システムにおいて実行される処理は、音声ＡＩモデル切替方法として観念され得る。すなわち、本発明は、クラウドからＡＩスピーカーに対して、ユーザからの音声ＡＩモデルの切り替えの要望に対応する音声ＡＩモデルに切り替える音声ＡＩモデル切替方法であって、前記ＡＩスピーカーで使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声ＡＩモデルを提示させる提示ステップと、前記提示された複数の音声ＡＩモデルの中から、音声ＡＩモデルの選択を前記ユーザから受け付ける受付ステップと、前記ユーザに対応するＡＩスピーカーに対して、前記選択された音声ＡＩモデルをクラウドから取得させるように制御を行う第１制御ステップと、前記ユーザに対応するＡＩスピーカーに対して、既に適用されている他の音声ＡＩモデルから、前記取得された音声ＡＩモデルに切り替えるように制御を行う第２制御ステップとを備える方法として提供されてもよい。なお、音声ＡＩモデル切替システム１において行われる処理のステップは、上述した実施形態で説明した例に限定されない。この処理のステップは、矛盾のない限り、入れ替えられてもよい。

＜変形例８＞
　ＡＩスピーカー１０の制御部１０１によって実行されるプログラムは、磁気テープ及び磁気ディスク等の磁気記録媒体、光ディスク等の光記録媒体、光磁気記録媒体、半導体メモリ等の、コンピュータ装置が読取り可能な記録媒体に記憶された状態で提供し得る。また、このプログラムを、インターネット等の通信回線経由でダウンロードさせてもよい。なお、上述した制御部１０１によって例示した制御手段としてはＣＰＵ以外にも種々の装置が適用される場合があり、例えば、専用のプロセッサ等が用いられる。

Claims

　クラウドからＡＩスピーカーに対して、ユーザからの音声ＡＩモデルの切り替えの要望に対応する音声ＡＩモデルに切り替える音声ＡＩモデル切替システムであって、
　前記ＡＩスピーカーで使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声ＡＩモデルを提示させる提示手段と、
　前記提示された複数の音声ＡＩモデルの中から、音声ＡＩモデルの選択を前記ユーザから受け付ける受付手段と、
　前記ユーザに対応するＡＩスピーカーに対して、前記選択された音声ＡＩモデルをクラウドから取得させるように制御を行う第１制御手段と、
　前記ユーザに対応するＡＩスピーカーに対して、既に適用されている他の音声ＡＩモデルから、前記取得された音声ＡＩモデルに切り替えるように制御を行う第２制御手段と
　を備える音声ＡＩモデル切替システム。
　前記提示手段は、前記複数の音声ＡＩモデルの各々に対する優先順位に応じて前記音声ＡＩモデルを提示させる
　請求項１記載の音声ＡＩモデル切替システム。
　前記音声ＡＩモデルの選択は、前記ＡＩスピーカーに入力されたユーザの音声を解析した結果に基づく選択である
　ことを特徴とする請求項１記載の音声ＡＩモデル切替システム。
　前記音声ＡＩモデルの選択は、ユーザを撮像した画像を解析した結果に基づく選択である
　ことを特徴とする請求項１記載の音声ＡＩモデル切替システム。
　前記音声ＡＩモデルの選択は、それぞれのユーザの声紋と前記音声ＡＩモデルとを対応付けたデータベースに基づく、前記ＡＩスピーカーに入力された音声の声紋に対応する前記音声ＡＩモデルの選択である
　ことを特徴とする請求項１に記載の音声ＡＩモデル切替システム。
　クラウドからＡＩスピーカーに対して、ユーザからの音声ＡＩモデルの切り替えの要望に対応する音声ＡＩモデルに切り替える音声ＡＩモデル切替方法であって、
　前記ＡＩスピーカーで使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声ＡＩモデルを提示させる提示ステップと、
　前記提示された複数の音声ＡＩモデルの中から、音声ＡＩモデルの選択を前記ユーザから受け付ける受付ステップと、
　前記ユーザに対応するＡＩスピーカーに対して、前記選択された音声ＡＩモデルをクラウドから取得させるように制御を行う第１制御ステップと、
　前記ユーザに対応するＡＩスピーカーに対して、既に適用されている他の音声ＡＩモデルから、前記取得された音声ＡＩモデルに切り替えるように制御を行う第２制御ステップと
　を備える音声ＡＩモデル切替方法。
　コンピュータに、
　クラウドからＡＩスピーカーに対して、当該ＡＩスピーカーで使用するための、各人物または各キャラクターの声色又は口調で応答する複数の音声ＡＩモデルを提示させる提示ステップと、
　前記提示された複数の音声ＡＩモデルの中から、音声ＡＩモデルの選択を前記ユーザから受け付ける受付ステップと、
　クラウドから前記ユーザに対応するＡＩスピーカーに対して、前記選択された音声ＡＩモデルをクラウドから取得させるように制御を行う第１制御ステップと、
　クラウドから前記ユーザに対応するＡＩスピーカーに対して、既に適用されている他の音声ＡＩモデルから、前記取得された音声ＡＩモデルに切り替えるように制御を行う第２制御ステップと
　を実行させるためのプログラム。