JPWO2018190099A1

JPWO2018190099A1 - 音声提供装置、音声提供方法及びプログラム

Info

Publication number: JPWO2018190099A1
Application number: JP2019512404A
Authority: JP
Inventors: 実穂京谷; 光希有田; 生郎大島; 弘樹内田; 浩晃杉村; 多田　幸生; 幸生多田
Original assignee: Fujitsu Ltd; Yamaha Corp
Current assignee: Fujitsu Ltd; Yamaha Corp
Priority date: 2017-04-10
Filing date: 2018-03-22
Publication date: 2020-02-27
Anticipated expiration: 2038-03-22
Also published as: WO2018190099A1; EP3611941A1; US20200037098A1; EP3611941A4; JP6884854B2; CN110495190B; US10820132B2; CN110495190A

Abstract

音声提供システムは、例えば遊園地、遊戯施設、アミューズメント施設、公共施設、商業施設又はイベント会場施設などの施設内エリアに設けられている。このエリアにおいて、ユーザと対話してコミュニケーションをとる仮想的な話者が任意の位置に定義される。ここでいう仮想的な話者とは、例えば音声提供システムがアミューズメント施設内エリアに設けられる場合にはそのアミューズメント施設を象徴するマスコットやキャラクタなど、人間と対話する話者として考案された概念である。ユーザから所定の範囲内に仮想的な話者が存在する場合、その仮想的な話者の音声がそのユーザに提供される。これにより、ユーザはあたかも自身の近くに話者が居るかのように感じ、さらに、その話者との対話を行うことが可能となる。

Description

本発明は、ユーザに音声を提供するための技術に関する。

ユーザの位置に応じた情報をそのユーザに提供する技術が知られている。例えば特許文献１には、施設や商店の広告を配信する際に、その施設や商店とユーザが所持する移動端末との距離に応じて、配信する情報を切り替えることが開示されている。

日本国特開２００１−２３８２６６号公報

本発明は、従来のような単なる情報提供ではなく、例えばアミューズメント施設のキャラクタなどの仮想的な話者とユーザとの音声によるコミュニケーションを実現することを目的とする。

上記課題を解決するため、本発明は、ユーザの位置を取得する取得手段と、前記取得手段によって取得された位置と仮想的な話者の位置とが所定の関係となる場合に、前記仮想的な話者が前記ユーザに応じた内容で当該ユーザと対話するための音声を前記ユーザに提供するための処理を行う提供手段とを備えることを特徴とする音声提供装置を提供する。

前記提供手段は、前記音声とともに、前記取得手段によって取得された位置と前記仮想的な話者の位置との関係に応じて前記音声の放音処理を行うための音場を提供するための処理を行うようにしてもよい。

前記提供手段は、前記取得手段によって取得された位置と前記仮想的な話者の位置とが所定の範囲内にある場合に、前記音声を提供するための処理を行うようにしてもよい。

前記提供手段は、前記取得手段によって取得された位置と前記仮想的な話者の位置とが所定の距離の範囲内にあり、且つ、前記ユーザが向いている方向に前記仮想的な話者の位置が存在する場合に、前記音声を提供するための処理を行うようにしてもよい。

前記提供手段は、前記取得手段によって取得された位置と前記仮想的な話者の位置との間の距離に応じて、前記音声の内容を変化させるようにしてもよい。

前記提供手段は、前記仮想的な話者が前記ユーザの属性、行動、生体情報又は感情に応じた内容で当該ユーザと対話するための音声を提供するための処理を行うようにしてもよい。

仮想的な話者の位置を更新する更新手段を備えるようにしてもよい。

前記更新手段は、各地域の混雑状況に応じて、前記仮想的な話者の位置を更新するようにしてもよい。

前記更新手段は、各地域において提供されうるサービスの状況に応じて、前記仮想的な話者の位置を更新するようにしてもよい。

前記更新手段は、前記仮想的な話者と対話を行っている前記ユーザの移動状況に応じて、当該仮想的な話者の位置を更新するようにしてもよい。

また、本発明は、ユーザの位置を取得する取得ステップと、取得された前記位置と仮想的な話者の位置とが所定の関係となる場合に、前記仮想的な話者が前記ユーザに応じた内容で当該ユーザと対話するための音声を前記ユーザに提供するための処理を行う提供ステップとを備えることを特徴とする音声提供方法を提供する。

前記提供ステップにおいて、前記取得ステップにおいて取得された位置と前記仮想的な話者の位置とが所定の範囲内にある場合に、前記音声を提供するための処理を行うようにしてもよい。

前記提供ステップに置いて、前記取得ステップにおいて取得された位置と前記仮想的な話者の位置とが所定の距離の範囲内にあり、且つ、前記ユーザが向いている方向に前記仮想的な話者の位置が存在する場合に、前記音声を提供するための処理を行うようにしてもよい。

前記提供ステップにおいて、前記取得ステップにおいて取得された位置と前記仮想的な話者の位置との間の距離に応じて、前記音声の内容を変化させるようにしてもよい。

また、本発明は、コンピュータを、ユーザの位置を取得する取得手段と、前記取得手段によって取得された位置と仮想的な話者の位置とが所定の関係となる場合に、前記仮想的な話者が前記ユーザに応じた内容で当該ユーザと対話するための音声を前記ユーザに提供するための処理を行う提供手段として機能させるためのプログラムを提供する。

本発明によれば、仮想的な話者とユーザとの音声によるコミュニケーションを実現することができる。

本発明の一実施形態に係る音声提供システムの全体構成を示す図である。音声提供システムにおける音声再生装置のハードウェア構成を示すブロック図である。音声提供システムにおける音声提供装置のハードウェア構成を示すブロック図である。音声提供装置に記憶されている位置ＤＢの一例を示す図である。音声提供システムにおける各装置の機能構成を示すブロック図である。音声提供装置の動作を示すフローチャートである。ユーザと仮想話者との位置関係の一例を示す模式図である。

図１は、本発明の一実施形態である音声提供システムの全体構成を示す図である。この音声提供システムは、例えば遊園地、遊戯施設、アミューズメント施設、公共施設、商業施設又はイベント会場施設などの施設内エリアに設けられている。この音声提供システムにおいて、ユーザと対話してコミュニケーションを行う仮想的な話者が上記施設内エリア内の任意の位置に定義される。ここでいう仮想的な話者（以下、仮想話者という）とは、例えば音声提供システムがアミューズメント施設に設けられる場合には、そのアミューズメント施設を象徴するマスコットやキャラクタなどの、人間と対話することが可能な話者として想定された架空の存在である。ユーザから所定の範囲内に仮想話者が存在する場合、その仮想話者の音声がそのユーザに提供される。これにより、ユーザはあたかも自身の近くに仮想話者が居るかのように感じ、さらに、自らも発話することでその仮想話者との対話を行うことが可能となる。

図１に示すように、音声提供システムは、音声を提供する音声提供装置１００と、提供された音声を再生する音声再生装置２００とを備える。ネットワーク９００は、所定の通信規格に従ってデータ通信を行うための有線又は無線の通信ネットワークである。音声提供装置１００及び音声再生装置２００は、ネットワーク９００を介して通信可能に接続されており、このネットワーク９００経由でデータを遣り取りする。なお、図１には、音声提供装置１００及び音声再生装置２００を１つずつ示しているが、これらはそれぞれ複数であってもよい。

音声再生装置２００は、例えばユーザに装着又は携帯された状態で使用されるウェアラブル端末である。音声再生装置２００の形状は任意であるが、例えばユーザの頭部に装着されるメガネ型、帽子型、ヘッドバンド型、ヘッドホン型、耳あて型又はカチューシャ型であってもよいし、ユーザの耳に装着されるイヤホン型、ピアス型又はイヤリング型であってもよいし、ユーザの首にぶら下げられるネックレス型であってもよいし、ユーザの手首や腕に装着される時計型、リストバンド型又はアームバンド型であってもよいし、ユーザの衣類等に装着されるブローチ型又はワッペン型などであってもよいし、ユーザによって携帯されるタブレット型やスマートフォン型であってもよい。

図２は、音声再生装置２００のハードウェア構成を示すブロック図である。音声再生装置２００は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算処理装置とＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの記憶装置とを備えた制御部２１と、例えばアンテナや通信回路を含みネットワーク９００を介して無線通信を行う通信部２２と、例えばＥＥＰＲＯＭ（ＥｌｅｃｔｒｏｎｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）やフラッシュメモリなどの記憶部２３と、スピーカを含み音声データを再生して音声出力を行う再生部２４と、例えば方位センサやジャイロセンサなどを含み音声再生装置２００が向いている方向（ここでは音声再生装置２００の向きをユーザが向いている方向とみなす）を検出する方向検出部２５と、例えばＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）によって測位を行う測位部２６と、例えばキーやタッチセンサなどの操作子が設けられた操作部及び例えば液晶パネルや液晶駆動回路などの表示部を含むＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）部２７と、マイクにより音を収音する収音部２８と、を備えている。

記憶部２３は、制御部１１が用いるデータ群やプログラム群を記憶しているが、例えば仮想話者の音声を示す音声データを複数記憶している。制御部２１は、音声提供装置１００から通信部２２を介して指定された音声データを記憶部２３から読み出し、読み出した音声データを再生部２４によって再生する。また、制御部２１は、収音部２８によって収音されたユーザの音声を示す音声データを通信部２２経由で音声提供装置１００に送信する。音声提供装置１００はこのユーザの音声データに応じた仮想話者の音声データを音声再生装置２００に対して指定する。音声提供装置１００においては、指定された音声データが再生される。これにより、ユーザと仮想話者との双方向の対話が実現される。なお、ユーザと仮想話者とのコミュニケーションは、双方向の対話に限定されるわけではなく、例えば仮想話者からユーザに対する一方向の対話であってもよい。

図３は、音声提供装置１００のハードウェア構成を示すブロック図である。音声提供装置１００は例えばサーバマシンなどのコンピュータであり、制御部１１と、通信部１２と、記憶部１３とを備えている。制御部１１は、ＣＰＵ等の演算装置と、ＲＯＭ及びＲＡＭなどの記憶装置とを備えている。ＣＰＵは、ＲＡＭをワークエリアとして用いてＲＯＭや記憶部１３に記憶されたプログラムを実行することによって、音声提供装置１００の各部の動作を制御する。通信部１２はネットワーク９００に接続されており、ネットワーク９００を介して通信を行う。記憶部１３は、例えばハードディスク等の記憶装置であり、制御部１１が用いるデータ群やプログラム群を記憶している。

記憶部１３は、例えば仮想話者の音声データに関する情報（例えば音声再生装置２００に記憶されている音声データを識別する音声ＩＤ））や音声対話アルゴリズムを含む音声データベース（以下、データベースをＤＢと称する）と、ユーザ及び仮想話者の位置を管理する位置ＤＢとを記憶している。

音声対話アルゴリズムは、ユーザの音声を認識してその認識結果に対して音声で応答するためのアルゴリズムであればどのようなものであってもよいが、例えば音声認識アルゴリズムについては隠れマルコフモデルを用いたものなどが知られている。

図４は位置ＤＢの一例を示す図である。位置ＤＢにおいては、ユーザ及び仮想話者のそれぞれの識別情報であるユーザＩＤ及び仮想話者ＩＤと、ユーザ及び仮想話者のそれぞれの位置を示す位置情報とが関連付けられている。ユーザの位置情報は音声再生装置２００から音声提供装置１００に通知されるようになっており、この通知に応じて、位置ＤＢ内のユーザの位置が更新される。仮想話者の位置情報は、固定された位置であってもよいし、時間経過に応じて変動する位置であってもよい。変動する場合には、所定の位置変動アルゴリズムに従って、位置ＤＢ内の仮想話者の位置が更新される。この位置変動アルゴリズムは、どのようなものであってもよいが、例えば音声提供システムが設置されたエリア内の任意の位置をランダムに選択するようなアルゴリズムであってもよいし、音声提供システムが設置されたエリア内において決められた所定の経路上の位置を所定の距離ずつ移動させていくようなアルゴリズムであってもよい。位置変動アルゴリズムは仮想話者ごとに異なっていてもよいし、１の仮想話者の位置変動アルゴリズムが日時等の条件に応じて切り替わってもよい。

図５は、音声再生装置２００及び音声提供装置１００の機能構成を示す図である。音声再生装置２００の検出部２０１は、ユーザの位置とそのユーザが向いている方向とを検出する。音声再生装置２００の収音部２０２は、音声を収音して音声データを生成する。音声再生装置２００の通知部２０３は、検出部２０１によって検出されたユーザの位置及びそのユーザが向いている方向と、収音部２０２によって生成された音声データを音声提供装置１００に通知する。

音声提供装置１００の取得部１０１は、音声再生装置２００の通知部２０３から通知された、ユーザの位置及びそのユーザが向いている方向と、音声データとを取得する。音声提供装置１００の記憶部１０２は、前述した音声ＤＢ及び位置ＤＢを記憶している。更新部１０３は、記憶部１０２の記憶内容（特に位置ＤＢの内容）を更新する。音声提供装置１００の提供部１０４は、ユーザの位置と仮想話者の位置との少なくとも一方が所定の関係となる場合に、仮想話者がユーザに応じた内容でそのユーザと対話するための音声をユーザに提供するための処理を行う。本実施例では、提供部１０４は、ユーザが向いている方向を中心として例えば両側に４５度の範囲内で且つユーザからの距離が閾値以下の範囲に仮想話者の位置が含まれる場合には、その仮想話者の音声データ群のうち適切なものを、ユーザの音声データに基づいて特定し、特定した音声データを音声再生装置２００に対して指定することで、ユーザに音声を提供する。このとき、提供部１０４は、ユーザと仮想話者との距離に応じた音量での音声再生を音声再生装置２００に対して指定する。

音声再生装置２００の再生部２０４は、音声提供装置１００から指定された音声データを指定された音量で再生して音声を出力する。ユーザは音声再生装置２００から再生される音声を聞く。

上述した音声再生装置２００の検出部２０１は図２に示した方向検出部２５及び測位部２６によって実現され、収音部２０２は収音部２８によって実現され、通知部２０３は図２に示した通信部２２によって実現され、再生部２０４は図２に示した再生部２４によって実現される。音声提供装置１００の取得部１０１は図３に示した通信部１２によって実現され、記憶部１０２は図３に示した記憶部１３によって実現され、更新部１０３は図３に示した制御部１１によって実現され、提供部１０４は図３に示した制御部１１及び通信部１２によって実現される。

［動作］
次に、図６を参照して本実施形態の動作を説明する。まずユーザは音声再生装置２００を操作して、音声提供サービスを開始するための操作を行う。音声再生装置２００においてこの操作が受け付けられると、収音部２０２は音声を収音して音声データを生成する（ステップＳ１１）。ここで、ユーザが発話した場合にはユーザの音声が収音されるし、ユーザが特に発話しなければ例えばバックグラウンドミュージック等の環境音が収音される。

次に、音声再生装置２００の検出部２０１は、ユーザの位置とそのユーザが向いている方向とを検出する（ステップＳ１２）。前述したように、ここでいうユーザの位置は音声再生装置２００の位置であり、ユーザが向いている方向は音声再生装置２００が向いている方向である。音声再生装置２００の通知部２０３は、ユーザの位置、ユーザが向いている方向及び収音した音声データを、ユーザＩＤとともに音声提供装置１００に通知する（ステップＳ１３）。このユーザＩＤは記憶部２３に予め記憶されたものであってもよいし、ユーザがこの音声提供サービスを開始するときに音声再生装置２００に入力したものであってもよい。

音声提供装置１００の取得部１０１は、音声再生装置２００の通知部２０３から通知された、ユーザの位置、ユーザが向いている方向、ユーザＩＤ及び音声データを取得する。提供部１０４は、位置ＤＢを参照し、ユーザとの位置関係が所定の位置関係となるような範囲に含まれる仮想話者を抽出する（ステップＳ１４）。より具体的には、提供部１０４は、取得したユーザＩＤのユーザが向いている方向を中心として例えば両側に４５度の範囲内で且つそのユーザからの距離が閾値以下となるような範囲に仮想話者の位置が含まれるか否かを判断する。

ここで、図７は、ユーザと仮想話者との位置関係の一例を示す模式図である。図７においては、位置ＤＢの内容に基づいて、ユーザＵ１，Ｕ２及び仮想話者Ｇ１〜Ｇ５の位置が２次元平面に表現されている。方向Ｄ１，Ｄ２はそれぞれ、ユーザＵ１，Ｕ２が向いている方向を示している。ユーザＵ１，Ｕ２は音声提供システムが設けられたエリア内を自由に移動する。従って、ユーザＵ１，Ｕ２の位置及び向きは不規則に変化する。一方、仮想話者Ｇ１〜Ｇ５の位置は、前述したように、時間経過に関わらず固定されている位置であってもよいし、位置変動アルゴリズムに基づいて時間経過に従って変動する位置であってもよい。従って、或るタイミングにおいては、ユーザＵ１，Ｕ２と仮想話者Ｇ１〜Ｇ５とが偶然近くになることがあるし、別のタイミングにおいては、ユーザＵ１，Ｕ２と仮想話者Ｇ１〜Ｇ５とが離れていることもある。

例えばユーザＵ１が方向Ｄ１を向いているとき、その方向Ｄ１を示す半直線を基準とした所定の範囲（図においては方向Ｄ１を示す半直線を中心として両側に４５度の範囲内）には、仮想話者Ｇ１の位置が含まれている。よって、この場合は、提供部１０４は、ユーザとの位置関係が所定の位置関係となる範囲に仮想話者Ｕ１の位置が含まれると判断する。一方、例えばユーザＵ２が方向Ｄ２を向いているとき、その方向Ｄ２を示す半直線を基準とした所定の範囲に、いずれの仮想話者の位置も含まれない。よって、この場合は、提供部１０４は、ユーザとの位置関係が所定の位置関係となる範囲に仮想話者が含まれないと判断する。

図６の説明に戻り、提供部１０４は、ステップＳ１３にて取得されたユーザの音声データに基づいて、音声対話アルゴリズムに従い、ユーザの音声に応答する仮想話者の音声データを特定する（ステップＳ１５）。例えば、取得された音声データがユーザの「こんにちは。誰か居る？」という発話内容であれば、「うん、居るよ。こんにちは」というように、ユーザの問いに答えるような仮想話者の音声データが特定される。また、取得された音声データがバックグラウンドミュージックなどの環境音であれば、「こんにちは。何かお手伝いしようか？」というように、仮想話者側からユーザに対して能動的に発話するような音声データが特定される。

さらに、提供部１０４は、ユーザの位置及び仮想話者の位置の間の距離を算出し、音声データの音量パラメータをその距離に応じた値に設定する。例えば、提供部１０４は、ユーザ及び仮想話者間の距離が大きいと音量を小さくし、ユーザ及び仮想話者の間の距離が小さいと音量を大きくする、というような音量パラメータ設定を行う。

提供部１０４は、ステップＳ１５にて特定した音声データの音声ＩＤ及び音量パラメータをネットワーク９００経由で音声再生装置２００に送信する。これにより、音声再生装置２００において再生すべき音声が指定される（ステップＳ１６）。

音声再生装置２００の再生部２０４は、提供部１０４から指定された音声ＩＤの音声データを記憶部２３から読み出し、提供部１０４から指定された音量パラメータに応じた音量で音声再生を行う（ステップＳ１７）。

以降、上記のステップＳ１１〜Ｓ１７の処理が繰り返されることで、ユーザと仮想話者との間で双方向の対話がなされる。これにより、ユーザは自身の近くにまるで仮想話者が居るかのように感じることができ、さらにはその音量の大小によってユーザ自身と仮想話者までの距離を感覚的に知ることができる。

以上説明した実施形態によれば、ユーザの位置及び方向と音声とを関連付けた新たな情報提供サービス、即ち仮想的な話者とユーザとの音声によるコミュニケーションを実現することが可能となる。また、音声を提供する側（例えばアミューズメント施設の運営者）にとっては、ユーザに提供する音声によってそのユーザを施設に呼び込むという集客効果を期待することができる。

［変形例］
上述した実施形態は次のような変形が可能である。また、以下の変形例を互いに組み合わせて実施してもよい。
［変形例１]
ユーザを基準として仮想話者の位置を音発生源とする音場を再現してもよい。具体的には、音声再生装置２００が複数のスピーカを実装し、それぞれのスピーカからの放音タイミングを時間的に遅延させることで、仮想話者の音声がどの方向から聞こえてくるかという音像定位が可能な音場を実現できるようにする。音声提供装置１００の提供部１０４は、ユーザと仮想話者との位置関係に応じた音像定位を実現するための音場パラメータ（具体的には各スピーカからの放音タイミングの遅延時間）を音声再生装置１００に提供する。つまり、提供部１０４は、仮想話者の音声とともに、ユーザの位置と仮想話者の位置との関係に応じて上記音声の放音処理を行うための音場を提供するための処理を行う。このようにすれば、ユーザは仮想話者がどちらの方向に居るかということを感じることができる。

[変形例２]
実施形態においては、個々のユーザに装着される或いはユーザによって携帯される音声再生装置２００から放音してユーザに音声を提供していたが、ユーザに音声を放音する装置はこのようなものに限らず、例えばこの音声提供システムが設けられたエリアに設置されたスピーカ等の音声再生装置によってユーザに対して音声を放音してもよい。具体的には、上述したようなスピーカを含む音声再生装置と、個々のユーザに装着或いは携帯されて検出部２０１の機能を備えた通信端末とを別々の装置として構成し、この音声再生装置及び通信端末においてお互いに無線でデータ通信を行う機能を実装する。通信端末は自身の位置と方向（つまりユーザの位置及びユーザが向いている方向）を検出し、その位置及び方向を、自身が通信可能な音声再生装置（つまりユーザの近くにある音声再生装置）に通知する。音声再生装置は通信端末から通知されたユーザの位置及び方向を音声提供装置１００に送信する。音声提供装置１００はユーザの位置及び方向と所定の関係となる仮想話者を特定し、その仮想話者がユーザと対話するための音声データを上記音声再生装置に対して指定する。音声再生装置は、指定された音声データを再生する。

[変形例３]
実施形態において、音声提供装置１００の提供部１０４は、ユーザと仮想話者とが所定の距離の範囲内にあり、ユーザが向いている方向（例えばユーザが向いている方向を中心として両側にそれぞれ４５度の範囲）に仮想話者が存在する場合に音声を提供していた。ただし、音声を提供する条件として、ユーザが向いている方向は必ずしも必須ではない。つまり、提供部１０４は、ユーザの位置と仮想話者の位置との間の距離が所定の関係となる場合に音声を提供するための処理を行えばよい。

[変形例４]
実施形態においては、提供部１０４は、仮想話者がユーザに応じた内容でそのユーザと対話するための音声を提供するための処理を行っていたが、ここでいう「ユーザに応じた内容」とは、ユーザの発話内容に応じた、という意味である。この「ユーザに応じた内容」は、次に述べるように、ユーザの属性、行動、生体情報又は感情という意味を含んでもよい。

ユーザの属性とは、例えばユーザの年齢、性別、趣味、好みなどである。この場合、音声提供装置１００の記憶部１０２は各ユーザを識別する識別情報であるユーザＩＤと、そのユーザの属性群とを関連付けて記憶している。ユーザの属性群はそのユーザによって事前に登録又は申告されたものである。提供部１０４は、このユーザの属性に応じた内容の音声データを仮想話者の音声データとして特定する。例えばユーザの趣味がスポーツであれば、ユーザと仮想話者の対話の話題としてスポーツに関するものを用いる。

また、ユーザの行動とは、ユーザの動きや移動履歴などである。この場合、音声再生装置２００にはユーザの行動を検出するセンサとして、マイク、加速度センサ、ジャイロセンサ、測位部などが実装されている。提供部１０４は、音声再生装置２００から通知されるユーザの移動履歴や動きに応じて仮想話者の音声を特定する。
ユーザの移動履歴としては、仮想話者の音声を特定する直前の位置やその位置変化の履歴を利用してもよいし、過去の位置やその位置変化（例えば仮想話者の音声を特定する１時間前や前回の施設来園時など）を利用してもよい。例えば前回の施設来園時の位置を利用する場合、前回の施設来場時の移動履歴として、例えばジェットコースターの乗車場所に近づいた後に、ジェットコースターに乗車せずにその乗車場所から遠ざかった状態を意味する履歴が記録されており、そして、今回の施設来場中の移動履歴では、そのジェットコースターに乗車したことが検出された場合には、提供部１０４は、「前は乗れなかったのに乗れるようになったね！」というような仮想話者の音声をユーザに提供する。また、行動として、例えばユーザが頭を振る動作を検出したら、提供部１０４は、「何か困っているの？」のような仮想話者の音声をユーザに提供する。
また、ユーザの動きとは、ユーザの身体の動きであればどのようなものでもよく、例えばユーザの表情、しぐさ、ジェスチャ或いは動作パターンなどである。例えば図６のステップＳ１３においてユーザの動きを示す動きデータが取得され、ステップＳ１５において、提供部１０４は、その動きデータに基づいて、ユーザに対する仮想話者の音声データを特定する。

ユーザの生体情報とは、例えばユーザの体温、脈拍、発汗、脳波などである。この場合、音声再生装置２００にはユーザの生体情報を検出するセンサが実装されている。提供部１０４は音声再生装置２００から通知されるユーザの生体情報に応じて仮想話者の音声を特定する。また、提供部１０４は音声再生装置２００から通知されるユーザの生体情報や行動に基づいてユーザの感情を推定し、その感情に応じて仮想話者の音声を特定するようにしてもよい。

[変形例５]
実施形態において、更新部１０３が用いる仮想話者の位置変動アルゴリズムとして、音声提供システムが設置されたエリア内の任意の位置をランダムに選択するようなアルゴリズムや、音声提供システムが設置されたエリア内の所定の経路上の位置を所定の距離ずつ移動させていくようなアルゴリズムを例示したが、これ以外に次のようなものも考えられる。

例えば、更新部１０３は、例えば所定の基準で区画された各地域に所在する施設来場者の人数に基づいて特定される、各地域の混雑状況に応じて、仮想話者の位置を更新する。アミューズメント施設の場合、人気のアトラクションやプログラム等のサービス状況によって、各地域の混雑状況が大きく異なる。そこで、提供部１０４は、施設内の各地域の混雑度を検出し、混雑度が閾値よりも少ない地域において仮想話者の出現確率が大きくなるような位置変動アルゴリズムを採用する。このようにすれば、仮想話者とコミュニケーションしたいというユーザの意識を利用して、ユーザを混雑の少ない地域に誘導することが可能となる。
ここで、例えば施設内を撮像するカメラ等によって施設来場者の混雑状況を検出する場合には、音声再生装置２００を所持している施設来場者及び音声再生装置２００を所持していない施設来場者の混雑状況を特定することができる。また、例えば各々の音声再生装置２００の測位部２６が測位した結果に基づいて施設来場者の混雑状況を検出する場合には、音声再生装置２００を所持している施設来場者の混雑状況を特定することができる。混雑状況の検出対象となる施設来場者は、上記のどちらでもよい。

また、更新部１０３は、複数のユーザに提供されうるアトラクションやプログラム等のサービスの予定（サービスが提供される位置及び時間）を記憶しておき、サービスが提供されうる地域及び時間において仮想話者の出現確率が大きくなるような位置変動アルゴリズムを採用する。このようにすれば、仮想話者とコミュニケーションしたいというユーザの意識を利用して、ユーザをサービスの提供地域に誘導することが可能となる。
また、施設内の地域別の混雑度を検出する手段がない場合であっても、更新部１０３は、複数のユーザに提供されうるアトラクションやプログラム等のサービスの予定を記憶しておき、そのスケジュールから予想される地域別の混雑度が閾値よりも少ない地域において仮想話者の出現確率が大きくするような位置変動アルゴリズムを採用してもよい。このようにしても、仮想話者とコミュニケーションしたいというユーザの意識を利用して、ユーザを混雑の少ない地域に誘導することが可能となる。

また、更新部１０３は、仮想話者と対話を行っているユーザの移動に応じて、その仮想話者の位置を更新する。つまり、いったん仮想話者との対話を開始したユーザの移動に追随して、仮想話者がそのユーザと同じ位置変動をするようなアルゴリズムである。このようにすれば、ユーザは仮想話者が一緒に歩きながら対話してくれているように感じることができる。

[変形例６]
提供部１０４は、仮想話者の音声データを特定するときに、１の仮想話者の音声を特定するのではなく、ユーザの位置と所定の関係となる複数の仮想話者の音声データを特定し、これらを全てユーザに提供するための処理を行ってもよい。この場合、提供部１０４は、例えば、仮想話者ごとに音声データの声色を変えるとか、ユーザの位置と仮想話者の位置との間の距離に応じてそれぞれの音声の音量を制御してもよい。

[変形例７]
本発明におけるユーザと仮想話者とのコミュニケーションとは、双方向の対話によるものに限らず、一方向の対話によるものであってもよい。

[変形例８]
実施形態において、提供部１０４は、仮想話者の位置及びユーザの位置の間の距離に基づいて音声データの音量を制御していたが、音量を制御する方法はこれに限らない。例えば提供部１０４は、ユーザの位置を基準としたユーザの向いている方向と仮想話者の位置との一致度（例えばユーザの位置を始点としてユーザの向いている方向を示す半直線と仮想話者の位置との近さ）に応じた音量の音声をユーザに提供する。

さらに、音声データの音量のみならず、音声データの音色やエフェクトなど、要するに仮想話者及びユーザの位置関係に基づいて、音声データにおける音響的なパラメータを変化させる音響処理を施すというものでもよい。例えば提供部１０４は、仮想話者及びユーザ間の距離に応じてイコライザで低音域を低減させる（例えば距離が遠いと低い音の成分のみ小さくするなど）とか、仮想話者及びユーザ間の距離に応じてディレイやリバーブといったエフェクトの強度を異ならせる（例えば距離が遠いとリバーブの強度を高くするなど)ようにしてもよい。
また、仮想話者の位置として、水平方向の位置以外に、高さ方向の位置を用いてもよい。この場合、提供部１０４は、仮想話者の高さ方向の位置を反映させた音響処理を音声データに施すようにしてもよい。提供部１０４は、例えば仮想話者の位置がユーザの位置よりも高い場合、頭部伝達関数（ＨＲＴＦ：Ｈｅａｄ−ＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）を用いた処理によって、ユーザの上方から仮想話者の声が聞こえるかのようなエフェクトを施してもよい。

[変形例９]
実施形態において、提供部１０４は、仮想話者の位置及びユーザの位置の間の距離に基づいて音声データの音量を制御していたが、音声データの内容を変化させても良い。例えば、提供部１０４は、ユーザが向いている方向を中心として例えば両側に４５度の範囲内で且つユーザからの距離が第１閾値以上の範囲に仮想話者の位置が含まれる場合には「おーい、こっち」という音声データを提供し、ユーザが向いている方向を中心として例えば両側に４５度の範囲内で且つユーザからの距離が第２閾値より大きく第１閾値より小さい範囲に仮想話者の位置が含まれる場合には「こっちだよ」という音声データを提供し、ユーザが向いている方向を中心として例えば両側に４５度の範囲内で且つユーザからの距離が第２閾値以下の範囲に仮想話者の位置が含まれる場合には「こんにちは」という音声データを提供する。ここで、第２閾値は第１閾値よりも小さい。
なお、提供部１０４は、仮想話者の位置及びユーザの位置の間の距離に基づいて、音声データの音量と内容の両方を変化させても良い。

[変形例１０]
実施形態において、ユーザの向いている方向を検出する方向検出部２５は方位センサやジャイロセンサなどを含んでいたが、ビーコン発信機を用いてユーザの向いている方向を検出しても良い。具体的には、方向検出部２５が、予め設置されたビーコン発信機からの信号を受信する受信部を有してもよい。
例えば、予め複数のビーコン発信機を互いに異なる位置に設置し、方向検出部２５は、受信部により複数のビーコン発信機からのビーコン信号を受信して三角測量などの手法によりユーザの向いている方向を検出する。
あるいは、１個のビーコン発信機を予め設置し、ユーザを所定の範囲に誘導するようにしてもよい。この場合、ビーコン信号によりビーコン発信機の方向を検出し、ビーコン発信機の方向に基づきユーザの向いている方向を検出する。ユーザを所定の範囲に誘導する方法としては、例えば、地面にマーキングを施したり、実物あるいは仮想の壁を設けたりする。ユーザを誘導する方法はこれらに限られず、ユーザを所定の範囲に誘導し、ユーザの位置を所定の範囲に制限できれば良い。また、ビーコン発信機や受信部は、ユーザが所定の範囲に入ったときにのみ動作するようにしても良い。

[変形例１１]
ユーザに提供される音声は音声再生装置２００の記憶部２３に予め記憶されているものに限らず、音声提供装置１００の記憶部１３に記憶されていてもよい。この場合、音声提供装置１００から例えば図６のステップＳ１６の実行タイミングで、都度、音声再生装置２００に音声データを提供してもよい。また、提供部１０４は、音声に加えて、ユーザの位置に関する音声以外のデータ（例えばユーザの位置に関する施設内情報を記述したテキストデータやその位置に関連する画像を表す画像データ）を音声再生装置２００に提供してもよい。

［変形例１２］
上記実施形態の説明に用いた図５のブロック図は機能単位のブロックを示している。これらの各機能ブロックは、ハードウェア及び／又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現部は特に限定されない。すなわち、各機能ブロックは、物理的及び／又は論理的に結合した１つの装置により実現されてもよいし、物理的及び／又は論理的に分離した２つ以上の装置を直接的及び／又は間接的に（例えば、有線及び／又は無線）で接続し、これら複数の装置により実現されてもよい。従って、本発明に係る音声提供装置又は音声再生装置は、実施形態で説明したようにそれぞれの機能の全てを一体に備えた装置によっても実現可能であるし、それぞれの装置の機能を、さらに複数の装置に分散して実装したシステムであってもよい。また、上記実施形態で説明した処理の手順は、矛盾の無い限り、順序を入れ替えてもよい。実施形態で説明した方法については、例示的な順序で各ステップの要素を提示しており、提示した特定の順序に限定されない。

本発明は、音声提供装置又は音声再生装置が行う情報処理方法といった形態でも実施が可能である。また、本発明は、音声提供装置又は音声再生装置としてコンピュータを機能させるためのプログラムといった形態でも実施が可能である。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等の通信網を介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることが可能である。

本出願は、２０１７年４月１０日に出願された日本特許出願（特願２０１７−０７７３４８）に基づくものであり、ここに参照として取り込まれる。

１００・・・音声提供装置
１１・・・制御部
１２・・・通信部
１３・・・記憶部
１０１・・・取得部
１０２・・・記憶部
１０３・・・更新部
１０４・・・提供部
２００・・・音声再生装置
２１・・・制御部
２２・・・通信部
２３・・・記憶部
２４・・・再生部
２５・・・方向検出部
２６・・・測位部
２７・・・ＵＩ部
２８・・・収音部
２０１・・・検出部
２０２・・・収音部
２０３・・・通知部
２０４・・・再生部
９００・・・ネットワーク

記憶部２３は、制御部２１が用いるデータ群やプログラム群を記憶しているが、例えば仮想話者の音声を示す音声データを複数記憶している。制御部２１は、音声提供装置１００から通信部２２を介して指定された音声データを記憶部２３から読み出し、読み出した音声データを再生部２４によって再生する。また、制御部２１は、収音部２８によって収音されたユーザの音声を示す音声データを通信部２２経由で音声提供装置１００に送信する。音声提供装置１００はこのユーザの音声データに応じた仮想話者の音声データを音声再生装置２００に対して指定する。音声再生装置２００においては、指定された音声データが再生される。これにより、ユーザと仮想話者との双方向の対話が実現される。なお、ユーザと仮想話者とのコミュニケーションは、双方向の対話に限定されるわけではなく、例えば仮想話者からユーザに対する一方向の対話であってもよい。

Claims

ユーザの位置を取得する取得手段と、
前記取得手段によって取得された位置と仮想的な話者の位置とが所定の関係となる場合に、前記仮想的な話者が前記ユーザに応じた内容で当該ユーザと対話するための音声を前記ユーザに提供するための処理を行う提供手段とを備えることを特徴とする音声提供装置。
前記提供手段は、前記音声とともに、前記取得手段によって取得された位置と前記仮想的な話者の位置との関係に応じて前記音声の放音処理を行うための音場を提供するための処理を行う
を備えることを特徴とする請求項１記載の音声提供装置。
前記提供手段は、前記取得手段によって取得された位置と前記仮想的な話者の位置とが所定の範囲内にある場合に、前記音声を提供するための処理を行う
ことを特徴とする請求項１記載の音声提供装置。
前記提供手段は、前記取得手段によって取得された位置と前記仮想的な話者の位置とが所定の距離の範囲内にあり、且つ、前記ユーザが向いている方向に前記仮想的な話者の位置が存在する場合に、前記音声を提供するための処理を行う
ことを特徴とする請求項３記載の音声提供装置。
前記提供手段は、前記取得手段によって取得された位置と前記仮想的な話者の位置との間の距離に応じて、前記音声の内容を変化させる
ことを特徴とする請求項３又は４記載の音声提供装置。
前記提供手段は、前記仮想的な話者が前記ユーザの属性、行動、生体情報又は感情に応じた内容で当該ユーザと対話するための音声を提供するための処理を行う
ことを特徴とする請求項１〜５のいずれか１項に記載の音声提供装置。
前記仮想的な話者の位置を更新する更新手段
を備えることを特徴とする請求項１〜６のいずれか１項に記載の音声提供装置。
前記更新手段は、各地域の混雑状況に応じて、前記仮想的な話者の位置を更新する
ことを特徴とする請求項７に記載の音声提供装置。
前記更新手段は、各地域において提供されうるサービスの状況に応じて、前記仮想的な話者の位置を更新する
ことを特徴とする請求項７に記載の音声提供装置。
前記更新手段は、前記仮想的な話者と対話を行っている前記ユーザの移動状況に応じて、当該仮想的な話者の位置を更新する
ことを特徴とする請求項７に記載の音声提供装置。
ユーザの位置を取得する取得ステップと、
取得された前記位置と仮想的な話者の位置とが所定の関係となる場合に、前記仮想的な話者が前記ユーザに応じた内容で当該ユーザと対話するための音声を前記ユーザに提供するための処理を行う提供ステップとを備えることを特徴とする音声提供方法。
前記提供ステップにおいて、前記取得ステップにおいて取得された位置と前記仮想的な話者の位置とが所定の範囲内にある場合に、前記音声を提供するための処理を行う
ことを特徴とする請求項１１記載の音声提供装置。
前記提供ステップに置いて、前記取得ステップにおいて取得された位置と前記仮想的な話者の位置とが所定の距離の範囲内にあり、且つ、前記ユーザが向いている方向に前記仮想的な話者の位置が存在する場合に、前記音声を提供するための処理を行う
ことを特徴とする請求項１２記載の音声提供装置。
前記提供ステップにおいて、前記取得ステップにおいて取得された位置と前記仮想的な話者の位置との間の距離に応じて、前記音声の内容を変化させる
ことを特徴とする請求項１２又は１３記載の音声提供装置。
コンピュータを、
ユーザの位置を取得する取得手段と、
前記取得手段によって取得された位置と仮想的な話者の位置とが所定の関係となる場合に、前記仮想的な話者が前記ユーザに応じた内容で当該ユーザと対話するための音声を前記ユーザに提供するための処理を行う提供手段として機能させるためのプログラム。