WO2019176018A1

WO2019176018A1 - Ａｉスピーカーシステム、ａｉスピーカーシステムの制御方法、及びプログラム

Info

Publication number: WO2019176018A1
Application number: PCT/JP2018/010008
Authority: WO
Inventors: 尚也坂本; 将仁谷口
Original assignee: 株式会社ウフル
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2019-09-19
Also published as: WO2019177102A1

Abstract

特定部１１３は、入力された音声の声紋に基づいて、当該音声を発したユーザを識別するスピーカーユーザアカウントを特定する。処理部１１４は、解析された音声の意味と、特定されたスピーカーユーザアカウントに対応するユーザ属性とに基づいた処理を行う。具体的には、処理部１１４は、それぞれのユーザのスピーカーユーザアカウントと当該ユーザのユーザ属性とを対応付けて記憶しており、解析された音声の意味と、特定されたスピーカーユーザアカウントに対応するユーザ属性を解析した結果とに基づいた処理を行う。

Description

ＡＩスピーカーシステム、ＡＩスピーカーシステムの制御方法、及びプログラム

　本発明は、ＡＩスピーカーシステムを制御する技術に関する。

　ユーザの音声による指示を受け付けてユーザが望む動作を行うＡＩ（Artificial Intelligence）スピーカーが開発されている。特許文献１には、ユーザと音声対話を行うに際して、その音声対話をそのユーザに応じた自然な内容にすることや、ある目的を達成するための手段として対話を使う場合に、より効果的に対話を進める技術が開示されている。

特開２００４－０２１１２１号公報

　ＡＩスピーカーの普及に伴い、ユーザが望むあらゆるサービスがＡＩスピーカーシステム経由で実現されることが期待されている。しかしながら、ユーザが望むサービスはサードパーティのものも含めて様々なものがあり、また、各サービスにおいてユーザのアカウントが個別に設定されているという事情もあって、ＡＩスピーカーシステム経由で多様なサービスを提供することは現実的には難しいという問題があった。

　本発明は、ユーザが望む様々なサービスを行い得るＡＩスピーカーシステムを提供することを目的とする。

　本発明は、入力されたユーザの音声の意味を解析する解析手段と、入力された前記音声の声紋に基づいて、ＡＩスピーカーにおいて当該音声を発したユーザを識別するスピーカーユーザアカウントを特定する特定手段と、解析された前記音声の意味と特定された前記スピーカーユーザアカウントに対応するユーザ属性とに基づいた処理を行う処理手段とを備えるＡＩスピーカーシステムを提供する。

　前記特定手段は、それぞれのユーザの声紋と当該ユーザの前記スピーカーユーザアカウントとを対応付けて記憶しており、入力された前記音声の声紋に対応する前記スピーカーユーザアカウントを特定し、前記処理手段は、それぞれのユーザの前記スピーカーユーザアカウントと当該ユーザのユーザ属性とを対応付けて記憶しており、解析された前記音声の意味と、特定された前記スピーカーユーザアカウントに対応する前記ユーザ属性を解析した結果とに基づいた処理を行うようにしてもよい。

　前記処理手段は、解析された前記音声の意味に対応するサービスを行うサービス提供装置を選択し、特定された前記スピーカーユーザアカウントに対応する前記ユーザ属性を解析した結果を、選択されたサービス提供装置に通知し、当該通知に応じて前記サービス提供装置から送信されてくるデータに応じた放音処理を行うようにしてもよい。

　前記処理手段は、特定された前記スピーカーユーザアカウントに対応する前記ユーザ属性を解析した結果を、選択されたサービス提供装置に通知する場合に、当該サービス提供装置において前記ユーザを識別するためのサービスユーザアカウントを、特定された前記スピーカーユーザアカウントに基づいて特定し、特定した前記サービスユーザアカウントを選択されたサービス提供装置に通知するようにしてもよい。

　本発明は、入力されたユーザの音声の意味を解析する解析ステップと、入力された前記音声の声紋に基づいて、当該音声を発したユーザを識別するスピーカーユーザアカウントを特定する特定ステップと、　解析された前記音声の意味と特定された前記スピーカーユーザアカウントに対応するユーザ属性とに基づいた処理を行う処理ステップとを備えるＡＩスピーカーシステムの制御方法を提供する。

　本発明は、コンピュータに、入力されたユーザの音声の意味を解析する解析ステップと、入力された前記音声の声紋に基づいて、当該音声を発したユーザを識別するスピーカーユーザアカウントを特定する特定ステップと、解析された前記音声の意味と特定された前記スピーカーユーザアカウントに対応するユーザ属性とに基づいた処理を行う処理ステップとを実行させるためのプログラムを提供する。

　本発明によれば、ユーザが望む様々なサービスを行い得るＡＩスピーカーシステムを提供するができる。

本実施形態に係るＡＩスピーカーシステム９の構成を示す図。ＡＩスピーカー１のハードウェア構成の一例を示す図。記憶部１２に記憶されている声紋データベースを示す図。記憶部１２に記憶されているアカウントデータベースを示す図。記憶部１２に記憶されているユーザ属性データベースを示す図。ＡＩスピーカー１の機能的構成を示す図。ＡＩスピーカー１の動作の流れを示すフローチャート。

１…ＡＩスピーカー、１１…制御部、１２…記憶部、１２…通信部、１４…入力部、１５…出力部、１１１…入力部、１１２…解析部、１１３…特定部、１１４…処理部、２…サービス提供装置、３…ネットワーク、９…ＡＩスピーカーシステム。

＜実施形態＞
＜ＡＩスピーカーシステムの全体構成＞
　図１は、本実施形態に係るＡＩスピーカーシステム９の構成を示す図である。ＡＩスピーカーシステム９は、ＡＩスピーカー１と、サービス提供装置２と、これらを通信可能に接続するネットワーク３と、を有する。なお、ＡＩスピーカーシステム９は、ＡＩスピーカー１、サービス提供装置２、ネットワーク３のそれぞれを複数有してもよい。

　ＡＩスピーカー１は、マイクロフォン等によってユーザの音声を入力し、ダイナミックスピーカーや静電スピーカー等によって音声を出力する装置であり、ＡＩスピーカーという呼称以外にも、例えばスマートスピーカーとかホームスピーカーと呼ばれる情報処理装置である。サービス提供装置群２は、ネットワーク３を介してＡＩスピーカー１から要求されたサービスを提供する１以上の情報処理装置である。例えば、サービス提供装置群２は、音楽配信、店舗案内、天気予報、乗換案内、ニュース配信、検索エンジン等のサービスをそれぞれ提供する。これらのサービス提供装置２が提供するサービスにおいて、１のユーザに対して個別にユーザアカウントが付与されている。或るサービスにおいて付与されたユーザアカウントは、そのサービスにおいてのみそのユーザを識別することが可能となっている。ネットワーク３は、ＡＩスピーカー１及びサービス提供装置群２を通信可能に接続する通信回線であり、例えばインターネット等である。

＜ＡＩスピーカーの構成＞
　図２は、ＡＩスピーカー１の構成の一例を示す図である。ＡＩスピーカー１は、制御部１１、記憶部１２、通信部１３、入力部１４、及び出力部１５を有する。

　制御部１１は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）を有し、ＣＰＵがＲＯＭ及び記憶部１２に記憶されているコンピュータプログラム（以下、単にプログラムという）を読み出して実行することによりＡＩスピーカー１の各部を制御する。

　通信部１３は、有線又は無線によりネットワーク３に接続する通信回路である。ＡＩスピーカー１は、通信部１３によりネットワーク３に接続されたサービス提供装置２と情報をやり取りする。

　入力部１４は、音声を入力するマイクロフォン等であり、入力した音声を示す音声信号を制御部１１に送る。

　出力部１５は、例えばダイナミックスピーカーや静電スピーカー等であり、制御部１１により指示された信号に応じて放音する。

　記憶部１２は、例えばソリッドステートドライブ、ハードディスクドライブ等の大容量の記憶手段であり、制御部１１のＣＰＵに読み込まれる各種のプログラム、データ等を記憶する。この、記憶部１２は、例えば声紋データベース（以下、ＤＢという）と、ユーザアカウントＤＢと、ユーザ属性ＤＢとを記憶する。

　図３は、記憶部１２に記憶されている声紋ＤＢを示す図である。声紋ＤＢは、それぞれのユーザの声紋データと、ＡＩスピーカー１において当該ユーザを識別する識別情報であるスピーカーユーザアカウントとを対応付けて記憶している。

　図４は、記憶部１２に記憶されているアカウントＤＢを示す図である。アカウントＤＢは、ＡＩスピーカー１において当該ユーザを識別する識別情報であるスピーカーユーザアカウントと、それぞれのサービス提供装置２のサービス（サービスＡ，Ｂ，Ｃ，Ｄ）において当該ユーザを識別する識別情報であるサービスユーザアカウント（サービスＡユーザアカウント、サービスＢユーザアカウント、サービスＣユーザアカウント、サービスＡユーザアカウント）とを対応付けて記憶している。つまり、アカウントＤＢにおいては、或るユーザのスピーカーユーザアカウントと、そのユーザの１以上のサービスユーザアカウントとが対応付けられている。

　図５は、記憶部１２に記憶されているユーザ属性ＤＢを示す図である。ユーザ属性ＤＢは、ＡＩスピーカー１において当該ユーザを識別する識別情報であるスピーカーユーザアカウントと、当該ユーザのユーザ属性とを対応付けて記憶している。ユーザ属性は、例えば年齢、性別、趣味嗜好のほか、ユーザの自宅や勤務先のエリア情報、そのユーザの位置情報の履歴、ネットワーク３における検索履歴、ネットワーク３における閲覧履歴、ネットワーク３を介した通信販売における商品またはサービスの購入履歴等を含む。

＜ＡＩスピーカーの機能的構成＞
　図６は、ＡＩスピーカー１の機能的構成を示す図である。ＡＩスピーカー１の制御部１１が記憶部１２に記憶されているプログラムを読み出して実行することにより、ＡＩスピーカー１は入力部１１１、解析部１１２、特定部１１３及び処理部１１４といった機能を実現する。

　入力部１１１は、ユーザの音声を入力する。

　解析部１１２は、例えば隠れマルコフモデル等を用いて、入力部１１１に入力されたユーザの音声の意味を解析する。

　特定部１１３は、入力部１１１に入力された音声の声紋に基づいて、当該音声を発したユーザを識別するスピーカーユーザアカウントを特定する。より具体的には、特定部１１３は、それぞれのユーザの声紋と当該ユーザのスピーカーユーザアカウントとを対応付けて記憶しており（声紋ＤＢ）、入力された音声の声紋に対応するスピーカーユーザアカウントを特定する。

　処理部１１４は、解析部１１２により解析された音声の意味と、特定部１１３により特定されたスピーカーユーザアカウントに対応するユーザ属性とに基づいた処理を行う。具体的には、処理部１１４は、それぞれのユーザのスピーカーユーザアカウントと当該ユーザのユーザ属性とを対応付けて記憶しており（ユーザ属性ＤＢ）、解析された音声の意味と、特定されたスピーカーユーザアカウントに対応するユーザ属性を解析した結果とに基づいた処理を行う。さらに具体的に説明すると、処理部１１４は、解析部１１２により解析された音声の意味に対応するサービスを行うサービス提供装置２を選択し、特定部１１３により特定されたスピーカーユーザアカウントに対応するユーザ属性を解析した結果を、選択されたサービス提供装置２に通知し、当該通知に応じてサービス提供装置２から送信されてくるデータに応じて放音処理を行う。処理部１１４は、それぞれのユーザのスピーカーユーザアカウントと当該ユーザのサービスユーザアカウントとを対応付けて記憶しており（アカウントＤＢ）、特定部１１３により特定されたスピーカーユーザアカウントに対応するユーザ属性を解析した結果を選択されたサービス提供装置２に通知する場合に、当該サービス提供装置２においてユーザを識別するためのサービスユーザアカウントを、上記スピーカーユーザアカウントに基づいて特定し、特定したサービスユーザアカウントを選択されたサービス提供装置２に通知する。

＜ＡＩスピーカーの動作＞
　図７は、ＡＩスピーカー１の動作の流れを示すフローチャートである。まず、入力部１１１はユーザの音声の入力を受付ける（ステップＳ１１）。この音声は、例えば「音楽をかけて」とか、「晩御飯を食べる店はあるかな？」とか、「今日の天気を教えて」とか、「電車の時間は？」といった内容である。

　次に、解析部１１２は、入力されたユーザの音声の意味を解析する（ステップＳ１２）。この音声の意味解析においては、周知の様々な意味解析アルゴリズムを用いればよい。

　次に、特定部１１３は、入力された音声を解析してその声紋データを生成し、声紋ＤＢに含まれる声紋データと照合する（ステップＳ１３）。この声紋生成においては、周知の様々な声紋生成アルゴリズムを用いればよい。声紋ＤＢにおいて、ユーザにより入力された音声の声紋データと合致するものがあれば（ステップＳ１４；ＹＥＳ）、特定部１１３は、声紋ＤＢにおいてその声紋データと対応するスピーカーユーザアカウントを参照することで、その音声を発したユーザのスピーカーユーザアカウントを特定する。なお、声紋ＤＢにおいて、ユーザにより入力された音声の声紋データと合致するものがなければ（ステップＳ１４；ＮＯ）、特定部１１３は所定のエラー処理を行って（ステップＳ１９）、図７の示す処理は終了する。

　次に、処理部１１４は、解析された音声の意味に対応するサービスを行うサービス提供装置２を選択する（ステップＳ１５）。例えば、ユーザの音声が「音楽をかけて」であれば、処理部１１４は、ユーザが音楽の提供を希望しているという意味に判断し、音楽配信を行うサービス提供装置２を選択する。また、例えば、ユーザの音声が「晩御飯を食べる店はあるかな？」であれば、処理部１１４は、ユーザが飲食店の店舗に関する情報提供を希望しているという意味に判断し、店舗案内を行うサービス提供装置２を選択する。また、例えば、ユーザの音声が「今日の天気を教えて」であれば、処理部１１４は、ユーザが天気予報の提供を希望しているという意味に判断し、天気予報を行うサービス提供装置２を選択する。また、例えば、ユーザの音声が「電車の時間は？」であれば、処理部１１４は、ユーザが電車の乗り換えに関する情報提供を希望しているという意味に判断し、乗換案内を行うサービス提供装置２を選択する。

　次に、処理部１１４は、特定されたスピーカーユーザアカウントに対応するユーザ属性を解析して、選択されたサービス提供装置２においてそのユーザの個性や趣味嗜好或いは嗜好に応じたサービスを提供するためのサービス提供条件を生成する（ステップＳ１６）。例えば、選択されたサービスが音楽配信であり、ユーザが５０代男性で、ユーザ属性から判断される音楽の嗜好がクラシック音楽であれば、処理部１１４は、サービス提供条件として、５０代男性が好むクラシック音楽、という情報を生成する。また、例えば、選択されたサービスが店舗案内であり、ユーザが２０代女性で、ユーザ属性から判断される飲食の嗜好が韓国料理であれば、処理部１１４は、サービス提供条件として、２０代女性が好む韓国料理、という情報を生成する。また、例えば、選択されたサービスが天気予報であり、ユーザ属性から判断される自宅住所が○○県○○市であれば、処理部１１４は、サービス提供条件として、今日の○○県○○市の天気予報、という情報を生成する。また、例えば、選択されたサービスが乗換案内であり、ユーザ属性から判断される通勤ルートが自宅→ａ駅→ｂ駅→ｃ会社という経路であれば、処理部１１４は、サービス提供条件として、上記経路の乗換案内、という情報を生成する。

　そして、処理部１１４は、選択されたサービス提供装置２に対するリクエストを行う（ステップＳ１７）。このリクエストには、そのサービス提供装置２においてユーザを識別するサービスカウントと、上記サービス提供条件とが含まれている。

　サービス提供装置２は、このリクエストに応じた処理を行う。例えば音楽配信を行うサービス提供装置２は、リクエストに含まれるサービスユーザアカウントが自装置内のアカウントデータベースに含まれていることを確認したうえで、例えば５０代男性が好むクラシック音楽というサービス提供条件に合致する音楽データを自装置内又は外部装置内の音楽データベースから検索してＡＩスピーカー１に送信する。また、例えば店舗案内を行うサービス提供装置２は、リクエストに含まれるサービスユーザアカウントが自装置内のアカウントデータベースに含まれていることを確認したうえで、例えば２０代女性が好む韓国料理というサービス提供条件に合致する店舗データを自装置内又は外部装置内の店舗データベースから検索してＡＩスピーカー１に送信する。また、例えば天気予報を行うサービス提供装置２は、リクエストに含まれるサービスユーザアカウントが自装置内のアカウントデータベースに含まれていることを確認したうえで、例えば今日の○○県○○市の天気予報というサービス提供条件に合致する天気予報データを自装置内又は外部装置内の天気予報データベースから検索してＡＩスピーカー１に送信する。また、例えば経路案内を行うサービス提供装置２は、リクエストに含まれるサービスユーザアカウントが自装置内のアカウントデータベースに含まれていることを確認したうえで、例えば自宅→ａ駅→ｂ駅→ｃ会社という経路の案内というサービス提供条件に合致する経路案内データを自装置内又は外部装置内の経路案内データベースから検索してＡＩスピーカー１に送信する。

　処理部１１４は、上記リクエストに応じてサービス提供装置２から送信されてくるデータに応じた放音処理を行う（ステップＳ１８）。例えば、選択されたサービスが音楽配信であれば、処理部１１４は、サービス提供装置２から送信されてくる音楽データに応じた音を出力する。また、例えば、選択されたサービスが店舗案内であれば、処理部１１４は、サービス提供装置２から送信されてくる店舗データを読み上げる音声を生成して出力する。例えば、選択されたサービスが天気予報であれば、処理部１１４は、サービス提供装置２から送信されてくる天気予報データを読み上げる音声を生成して出力する。また、例えば、選択されたサービスが経路案内であれば、処理部１１４は、サービス提供装置２から送信されてくる経路案内データを読み上げる音声を生成して出力する。

　以上の実施形態によれば、各サービスにおいてユーザのサービスユーザアカウントが個別に設定されている場合であっても、そのサービスユーザアカウントをユーザが都度入力することなく、ＡＩスピーカーシステム経由でユーザが望むサービスを提供することが可能となる。

＜変形例＞
　以上が実施形態の説明であるが、この実施形態の内容は以下のように変形し得る。また、以下の変形例を組合せてもよい。例えば図６で例示したＡＩスピーカー１の機能構成の一部は省略されてもよいし、さらに別の機能が追加されてもよい。図６に示したＡＩスピーカー１が備える機能は、ＡＩスピーカーシステム９に属するいずれかの装置又は端末が実装していればよい。また、物理的に複数の装置からなるコンピュータ装置群が連携して、図６に示したＡＩスピーカー１と同等の機能を実装してもよい。

　ＡＩスピーカー１の制御部１１が実行する処理は、ＡＩスピーカー１の制御方法として観念され得る。すなわち、本発明は、入力されたユーザの音声の意味を解析する解析ステップと、入力された前記音声の声紋に基づいて、当該音声を発したユーザを識別するスピーカーユーザアカウントを特定する特定ステップと、解析された前記音声の意味と特定された前記スピーカーユーザアカウントに対応するユーザ属性とに基づいた処理を行う処理ステップとを備えるＡＩスピーカーシステムの制御方法として提供されてもよい。なお、ＡＩスピーカーシステム９において行われる処理のステップは、上述した実施形態で説明した例に限定されない。この処理のステップは、矛盾のない限り、入れ替えられてもよい。

　ＡＩスピーカー１の制御部１１によって実行されるプログラムは、磁気テープ及び磁気ディスク等の磁気記録媒体、光ディスク等の光記録媒体、光磁気記録媒体、半導体メモリ等の、コンピュータ装置が読取り可能な記録媒体に記憶された状態で提供し得る。また、このプログラムを、インターネット等の通信回線経由でダウンロードさせてもよい。なお、上述した制御部１１によって例示した制御手段としてはＣＰＵ以外にも種々の装置が適用される場合があり、例えば、専用のプロセッサ等が用いられる。

Claims

　入力されたユーザの音声の意味を解析する解析手段と、
入力された前記音声の声紋に基づいて、ＡＩスピーカーにおいて当該音声を発したユーザを識別するスピーカーユーザアカウントを特定する特定手段と、
　解析された前記音声の意味と特定された前記スピーカーユーザアカウントに対応するユーザ属性とに基づいた処理を行う処理手段と
　を備えるＡＩスピーカーシステム。
　前記特定手段は、それぞれのユーザの声紋と当該ユーザの前記スピーカーユーザアカウントとを対応付けて記憶しており、入力された前記音声の声紋に対応する前記スピーカーユーザアカウントを特定し、
前記処理手段は、それぞれのユーザの前記スピーカーユーザアカウントと当該ユーザのユーザ属性とを対応付けて記憶しており、解析された前記音声の意味と、特定された前記スピーカーユーザアカウントに対応する前記ユーザ属性を解析した結果とに基づいた処理を行う
請求項１に記載のＡＩスピーカーシステム。
　前記処理手段は、
　解析された前記音声の意味に対応するサービスを行うサービス提供装置を選択し、
　特定された前記スピーカーユーザアカウントに対応する前記ユーザ属性を解析した結果を、選択されたサービス提供装置に通知し、
　当該通知に応じて前記サービス提供装置から送信されてくるデータに応じた放音処理を行う
　請求項２に記載のＡＩスピーカーシステム。
　前記処理手段は、
　特定された前記スピーカーユーザアカウントに対応する前記ユーザ属性を解析した結果を、選択されたサービス提供装置に通知する場合に、
当該サービス提供装置において前記ユーザを識別するためのサービスユーザアカウントを、特定された前記スピーカーユーザアカウントに基づいて特定し、特定した前記サービスユーザアカウントを選択されたサービス提供装置に通知する
請求項３に記載のＡＩスピーカーシステム。
　入力されたユーザの音声の意味を解析する解析ステップと、
入力された前記音声の声紋に基づいて、当該音声を発したユーザを識別するスピーカーユーザアカウントを特定する特定ステップと、
　解析された前記音声の意味と特定された前記スピーカーユーザアカウントに対応するユーザ属性とに基づいた処理を行う処理ステップと
　を備えるＡＩスピーカーシステムの制御方法。
　コンピュータに、
　入力されたユーザの音声の意味を解析する解析ステップと、
入力された前記音声の声紋に基づいて、当該音声を発したユーザを識別するスピーカーユーザアカウントを特定する特定ステップと、
　解析された前記音声の意味と特定された前記スピーカーユーザアカウントに対応するユーザ属性とに基づいた処理を行う処理ステップと
　を実行させるためのプログラム。