WO2016017577A1

WO2016017577A1 - 端末装置、情報提供システム、情報提示方法および情報提供方法

Info

Publication number: WO2016017577A1
Application number: PCT/JP2015/071237
Authority: WO
Inventors: 翔太森口; 貴裕岩田; 優樹瀬戸; 岩瀬　裕之
Original assignee: ヤマハ株式会社
Priority date: 2014-07-29
Filing date: 2015-07-27
Publication date: 2016-02-04
Also published as: AU2015297648A1; CN106537496B; AU2015297648B2; KR101796429B1; JP2016075890A; EP3176782B8; KR20170033429A; US20170206195A1; CN106537496A; JP5871088B1; EP3176782A1; KR20170125415A; US10733386B2; EP3176782B1; EP3176782A4

Abstract

　端末装置は、案内音声を表す音響信号と当該案内音声の識別情報を含む変調信号とを含有する音響信号に応じて放音された音響を収音して収音信号を生成する収音装置と、収音装置が生成した収音信号から識別情報を抽出する情報抽出部と、情報抽出部が抽出した識別情報を含む情報要求を送信する送信部と、相異なる複数の識別情報に対応する複数の関連情報のうち情報要求の識別情報に対応する関連情報を受信する受信部と、受信部が受信した関連情報を出力する出力装置とを具備する。

Description

端末装置、情報提供システム、情報提示方法および情報提供方法

　本発明は、端末装置の利用者に情報を提供する技術に関する。

　美術館や博物館等の展示施設にて利用者を案内する各種の技術が従来から提案されている。例えば特許文献１には、美術館や博物館等の各展示物の近傍に設置された発信装置と、利用者が携帯する携帯受信機とを利用した自動再生音声ガイドシステムが開示されている。発信装置は、展示物に固有の識別符号を電波または赤外線により間欠的に周囲に送信する。携帯受信機は、自身の記録媒体に事前に記憶された複数の案内音声のうち、発信装置から受信した識別符号に対応する案内音声を再生する。特許文献１によれば、発信装置からの電波や赤外線が到達する範囲内（展示物の周囲）に携帯受信機が移動して識別符号を受信することを契機として、当該範囲内の展示物を解説する案内音声が再生される。

特開２０１１－１０９６２９号公報

　しかし、特許文献１の技術では、各展示物の識別符号が電波または赤外線で発信装置から送信されるから、電波や赤外線を授受するための専用の通信機器を発信装置や携帯受信機に設置する必要があるという問題がある。なお、以上の説明では、美術館や博物館等の展示施設を例示したが、電車やバス等の交通機関の音声案内等、利用者に様々な情報を提供する任意の状況において同様の問題が発生し得る。以上の事情を考慮して、本発明は、無線通信のための専用の通信機器を必要とせずに多様な情報を利用者に提供することを目的とする。

　以上の課題を解決するために、本発明の第１態様に係る端末装置は、再生対象音を表す音響信号と当該再生対象音の識別情報を含む変調信号とを含有する音響信号に応じて放音された音響を収音して収音信号を生成する収音手段と、収音手段が生成した収音信号から識別情報を抽出する情報抽出手段と、情報抽出手段が抽出した識別情報を含む情報要求を情報提供手段に送信する送信手段と、情報要求に含まれる識別情報に対応するとともに再生対象音に関連する複数の関連情報の何れかを情報提供手段から受信する受信手段と、受信手段が受信した関連情報を出力する出力手段とを具備する。以上の構成では、再生対象音を表す音響信号と当該再生対象音の識別情報を含む変調信号とを含有する音響信号に応じて放音された音響を収音した収音信号から識別情報が抽出される。すなわち、再生対象音とともに放音される音響を利用した音響通信で識別情報が端末装置に通知される。したがって、音声通話や音声収録に利用される、端末装置の収音装置を識別情報の取得に流用でき、赤外線や電波を利用した無線通信に専用される通信機器を必要とせずに、再生対象音の識別情報に対応する関連情報を利用者に提供することが可能である。

　本発明の好適な態様において、送信手段は、当該端末装置にて指定された言語を示す言語情報を含む情報要求を送信し、受信手段は、情報要求の識別情報に対応するとともに相異なる複数の言語に対応する複数の関連情報のうち情報要求の言語情報で指定された言語に対応する関連情報を受信する。以上の態様では、相異なる複数の言語に対応する複数の関連情報のうち情報要求の言語情報で指定された言語に対応する関連情報が受信されるから、使用言語が相違する多様な利用者が理解可能な関連情報を提供できるという利点がある。また、端末装置のＯＳの言語設定で指定された言語を示す言語情報を利用すれば、利用者が言語を指定する必要がないという利点もある。もっとも、端末装置の利用者が指定した言語を示す言語情報で指定された言語に対応する関連情報を受信する構成も採用可能である。

　第１態様において、好ましくは、情報要求の言語情報で指定された言語に対応する関連情報は、再生対象音の発音内容を当該指定された言語に翻訳した文字列を発音した音声を表す音響信号、または、再生対象音の発音内容を当該指定された言語に翻訳した文字列である。したがって、端末装置の利用者は、再生対象音を表す音響信号に応じて放音される第１言語による音声を理解できない場合でも第２言語の変換文字列を視認もしくは第２言語による音声を聴取することで再生対象音の内容を把握することが可能である。
　また、好ましくは、複数の言語のうち第１言語で表現された再生対象音の放音（放音システムからの放音）に並行して、出力手段は、情報要求の言語情報で指定された、第１言語以外の言語に対応する関連情報を出力する。この態様では、第１言語で表現された再生対象音の放音に並行して第１言語以外の言語に対応する関連情報を出力するから、例えば再生対象音の音声の再生終了後に関連情報を出力する構成と比較して、再生対象音と関連情報との対応を利用者が認識し易いという利点がある。

　本発明の第２態様に係る情報提供システムは、再生対象音を表す音響信号と当該再生対象音の識別情報を含む変調信号とを含有する音響信号に応じた音響を放音する放音手段と、放音手段が放音した音響から抽出される識別情報を含む情報要求を端末装置から受信し、情報要求に含まれる識別情報に対応するとともに再生対象音に関連する複数の関連情報の何れかを端末装置に送信する情報提供手段とを具備する。以上の構成では、再生対象音を表す音響信号と当該再生対象音の識別情報を含む変調信号とを含有する音響信号に応じた音響が放音手段から放音される。すなわち、再生対象音とともに放音される音響を利用した音響通信で識別情報が端末装置に通知される。したがって、赤外線や電波を利用した無線通信に専用される通信機器を必要とせずに、再生対象音の識別情報に対応する関連情報を利用者に提供することが可能である。

　第２態様の好適例において、情報提供手段は、端末装置にて指定された言語を示す言語情報を含む情報要求を受信し、情報要求の識別情報に対応するとともに相異なる複数の言語に対応する複数の関連情報のうち当該情報要求の言語情報で指定された言語に対応する関連情報を端末装置に送信する。以上の態様では、相異なる複数の言語に対応する複数の関連情報のうち情報要求の言語情報で指定された言語に対応する関連情報が端末装置に送信されるから、使用言語が相違する多様な利用者が理解可能な関連情報を提供できるという利点がある。
　情報要求の言語情報で指定された言語に対応する関連情報は、好ましくは、再生対象音の発音内容を当該指定された言語に翻訳した文字列を発音した音声を表す音響信号、または、再生対象音の発音内容を当該指定された言語に翻訳した文字列である。

　以上の各態様に係る端末装置の動作方法（情報提示方法）および情報提供システムの動作方法（情報提供方法）としても本発明は特定される。
　具体的には、本発明に係る情報提示方法は、端末装置において、再生対象音を表す音響信号と当該再生対象音の識別情報を含む変調信号とを含有する音響信号に応じて放音された音響を収音して収音信号を生成し、収音信号から識別情報を抽出し、識別情報を含む情報要求を情報提供手段に送信し、情報要求に含まれる識別情報に対応するとともに再生対象音に関連する複数の関連情報の何れかを情報提供手段から受信し、受信した関連情報を出力する。
　この情報提示方法において、好ましくは、情報要求は、当該端末装置にて指定された言語を示す言語情報を含み、情報要求の識別情報に対応するとともに相異なる複数の言語に対応する複数の関連情報のうち情報要求の言語情報で指定された言語に対応する関連情報を受信する。
　また、本発明に係る情報提供方法は、再生対象音を表す音響信号と当該再生対象音の識別情報を含む変調信号とを含有する音響信号に応じた音響を放音し、放音した音響から抽出される識別情報を含む情報要求を端末装置から受信し、情報要求に含まれる識別情報に対応するとともに再生対象音に関連する複数の関連情報の何れかを端末装置に送信する。
　この情報提供方法において、好ましくは、情報要求は、端末装置にて指定された言語を示す言語情報を含み、情報要求の識別情報に対応するとともに相異なる複数の言語に対応する複数の関連情報のうち情報要求の言語情報で指定された言語に対応する関連情報を端末装置に送信する。

　以上の各態様に係る端末装置および情報提供システムは、専用の電子回路で実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。具体的には、本発明に係るコンピュータ読み取り可能な記録媒体は、コンピュータに、再生対象音を表す音響信号と当該再生対象音の識別情報を含む変調信号とを含有する音響信号に応じて放音された音響を収音して収音信号を生成する収音処理と、収音処理で生成した収音信号から識別情報を抽出する情報抽出処理と、情報抽出処理で抽出した識別情報を含む情報要求を情報提供手段に送信する送信処理と、情報要求に含まれる識別情報に対応するとともに再生対象音に関連する複数の関連情報の何れかを情報提供手段から受信する受信処理と、受信処理で受信した関連情報を出力する出力処理とを実行させるプログラムを記録する。
　好ましくは、情報要求は、当該端末装置にて指定された言語を示す言語情報を含み、受信処理は、情報要求の識別情報に対応するとともに相異なる複数の言語に対応する複数の関連情報のうち情報要求の言語情報で指定された言語に対応する関連情報を受信する。
　これら各態様に係る情報提示方法、情報提供方法、プログラム、または当該プログラムを記録したコンピュータ読み取り可能な記録媒体によれば、上記各態様に係る端末装置または情報提供システムと同様の効果が得られる。

本発明の第１実施形態に係る通信システムの構成図である。情報管理システムの構成図である。音響信号取得部および関連情報取得部の構成図である。信号処理部の構成図である。信号処理部の動作の説明図である。情報管理システムの動作のフローチャートである。放音システムの構成図である。端末装置の構成図である。端末装置が関連情報を取得する動作の説明図である。音響信号取得部および関連情報取得部の変形例（態様１）の構成図である。音響信号取得部および関連情報取得部の変形例（態様２）の構成図である。音響信号取得部および関連情報取得部の変形例（態様３）の構成図である。音響信号取得部および関連情報取得部の変形例（態様４）の構成図である。音響信号取得部および関連情報取得部の変形例（態様５）の構成図である。音響信号取得部および関連情報取得部の変形例（態様６）の構成図である。音響信号取得部および関連情報取得部の変形例（態様７）の構成図である。音響信号取得部および関連情報取得部の変形例（態様７）のさらなる変形を示す構成図である。音響信号取得部および関連情報取得部の変形例（態様７）のさらなる変形を示す構成図である。音響信号取得部および関連情報取得部の変形例（態様７）のさらなる変形を示す構成図である。音響信号取得部および関連情報取得部の変形例（態様８）の構成図である。音響信号取得部および関連情報取得部の変形例（態様８）のさらなる変形を示す構成図である。音響信号取得部および関連情報取得部の変形例（態様８）のさらなる変形を示す構成図である。第２実施形態に係る信号処理部の動作の説明図である。第３実施形態に係る情報提供部の動作の説明図である。変形例に係る関連情報の表示例である。変形例に係る通信システムの構成図である。

＜第１実施形態＞
　図１は、本発明の第１実施形態に係る通信システム１００の構成図である。図１に例示される通り、第１実施形態の通信システム１００は、情報提供システム１０と端末装置１２とを包含する。情報提供システム１０は、端末装置１２に各種の情報を提供するコンピュータシステムである。端末装置１２は、例えば携帯電話機やスマートフォン等の可搬型の情報処理装置である。以下の説明では、美術品や資料等の複数の展示物が展示された美術館や博物館等の施設（以下「展示施設」という）Ｍに端末装置１２の利用者が所在し、各展示物に関連する情報が情報提供システム１０から端末装置１２に提供される場合を便宜的に想定する。なお、図１では１個の端末装置１２のみを便宜的に図示したが、実際には複数の端末装置１２の各々に対して情報提供システム１０から情報が提供され得る。

　図１に例示される通り、第１実施形態の情報提供システム１０は、情報管理システム１４と放音システム１６とを具備する。放音システム１６は、展示施設Ｍに設置されて施設の音声案内に利用される。具体的には、図１に例示される通り、第１実施形態の放音システム１６は、特定の言語（以下「第１言語」という）で利用者を案内する音声（以下「案内音声Ｖ」という）を放音するとともに、案内音声Ｖに事前に付与された識別情報Ｄを端末装置１２に通知する。案内音声Ｖは、例えば、展示物を解説する音声や展示施設Ｍ内の順路を案内する音響である。案内音声Ｖの識別情報Ｄは、無線による情報通信で端末装置１２に通知される。第１実施形態では、空気振動としての音響（音波）を伝送媒体とする音響通信で放音システム１６から端末装置１２に識別情報Ｄを通知する場合を例示する。すなわち、識別情報Ｄは案内音声Ｖとともに音響として放音システム１６から放射される。

　他方、情報管理システム１４は、端末装置１２に提供される情報を管理するコンピュータシステムである。端末装置１２は、移動体通信網やインターネット等を含む通信網１８を介して情報管理システム１４と通信可能である。図１に例示される通り、端末装置１２は、放音システム１６から通知された識別情報Ｄを含む情報要求Ｒを情報管理システム１４に送信する。情報管理システム１４は、通信網１８を介して受信した情報要求Ｒで指定された識別情報Ｄに対応する関連情報Ｑを要求元の端末装置１２に送信する。関連情報Ｑは、案内音声Ｖに関連する情報である。第１実施形態では、案内音声Ｖとして発音される第１言語の案内を他言語（以下「第２言語」という）に変換した翻訳を示す関連情報Ｑが端末装置１２に提供される。したがって、第１言語を理解可能な利用者は、案内音声Ｖの聴取により展示施設Ｍの案内を把握し、第２言語を理解可能な利用者は、関連情報Ｑを参照することで展示施設Ｍの案内を把握する。以上に概説した通信システム１００の各要素の具体的な構成や機能を以下に詳述する。

＜情報管理システム１４＞
　図２は、情報管理システム１４の構成図である。図２に例示される通り、第１実施形態の情報管理システム１４は、制御装置１４２と記憶装置１４４と入力装置１４６と表示装置１４８とを具備する。記憶装置１４４は、制御装置１４２が実行するプログラムや制御装置１４２が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４４として任意に採用される。入力装置１４６は、情報管理システム１４を運営する管理者が情報管理システム１４に対する各種の指示のために操作する操作機器であり、例えば管理者が操作可能な複数の操作子を包含する。管理者は、例えば入力装置１４６を適宜に操作することで、展示施設Ｍの各展示物の案内を表現した文字列（以下「指定文字列ＳＴ」という）を任意に指示することが可能である。表示装置１４８は、制御装置１４２による制御のもと音声認識や機械翻訳の結果等各種の情報を表示する装置（例えば液晶表示パネル）である。なお、入力装置１４６と表示装置１４８とが一体に構成したタッチパネルを採用することも可能である。

　図２に例示される通り、制御装置１４２は、例えば、ＣＰＵ（Central Processing Unit）であり、記憶装置１４４に記憶されたプログラムとの協働によって、情報管理システム１４が有する各機能を実現する。すなわち、制御装置１４２は、記憶装置１４４に記憶されたプログラムを実行することで、端末装置１２に提供される情報を管理するための複数の機能（音響信号取得部２２，関連情報取得部２４，識別情報設定部２６，信号処理部３２，対応管理部３４，情報提供部３６）を実現する。なお、制御装置１４２の各機能を複数の装置に分散した構成や、制御装置１４２の機能の一部を専用の電子回路が実現する構成も採用され得る。

　音響信号取得部２２は、案内音声Ｖを表す音響信号ＳGを取得する。図３に例示される通り、第１実施形態の音響信号取得部２２は、入力装置１４６に対する操作で管理者が指示した第１言語の指定文字列ＳＴを発音した案内音声Ｖの時間波形を表す音響信号ＳGを音声合成により生成する。音響信号取得部２２が実行する音声合成には公知の技術が任意に採用され得る。例えば、事前に用意された複数の音声素片（音素単体または音素連鎖）のうち指定文字列ＳＴの各文字に対応する音声素片を時系列に接続して音響信号ＳGを生成する素片接続型の音声合成や、ＨＭＭ（Hidden Markov Model）等の統計モデルを利用して指定文字列ＳＴに応じた音響信号ＳGを生成する統計モデル型の音声合成が、音響信号取得部２２による音響信号ＳGの生成に利用され得る。本実施形態では、案内音声Ｖを示す音響信号ＳGが音声合成で生成されるから、案内音声Ｖを事前に収録する必要がないという利点がある。

　図２の関連情報取得部２４は、案内音声Ｖに関連する関連情報Ｑを生成する。図３に例示される通り、第１実施形態の関連情報取得部２４は、管理者が指示した第１言語の指定文字列ＳＴに対する機械翻訳（自動翻訳）により、展示施設Ｍの案内を第２言語で表現した文字列（以下「変換文字列ＣＴ」という）を関連情報Ｑとして生成する。指定文字列ＳＴの機械翻訳には公知の技術が任意に採用され得る。例えば、指定文字列ＳＴの構文解析の結果と言語的な規則とを参照して語順や単語を変換するルールベースの機械翻訳や、言語の統計的な傾向を表現する統計モデル（翻訳モデルおよび言語モデル）を利用して指定文字列ＳＴを第２言語に翻訳する統計的な機械翻訳が、関連情報取得部２４による関連情報Ｑの生成に利用され得る。本実施形態では、案内音声Ｖの発音内容を示す文字列（すなわち、指定文字列ＳＴ）に対する機械翻訳で関連情報Ｑが生成されるから、案内音声Ｖの言語とは相違する言語の関連情報Ｑを事前に用意する必要がないという利点がある。

　図２の識別情報設定部２６は、案内音声Ｖの再生とともに放音システム１６から端末装置１２に通知される識別情報Ｄを設定する。識別情報Ｄは、案内音声Ｖを識別するための固有の符号であり、案内音声Ｖ毎に設定される。例えば、相異なる案内音声Ｖの間で相互に重複しないように公知の方法で生成された乱数の系列を、識別情報設定部２６は識別情報Ｄとして設定する。

　信号処理部３２は、識別情報設定部２６が設定した識別情報Ｄを案内音声Ｖの音響信号ＳGに合成することで音響信号Ｓを生成する。音響信号ＳGに対する識別情報Ｄの合成（音響透かし）には公知の方法が任意に採用され得るが、例えば国際公開第２０１０／０１６５８９号に開示された方法が好適である。具体的には、信号処理部３２は、図４に例示される通り、変調処理部３２２と混合処理部３２４とを包含する。変調処理部３２２は、拡散符号を利用した識別情報Ｄの拡散変調と所定の周波数の搬送波を利用した周波数変換とを順次に実行することで、識別情報Ｄを所定の周波数帯域の音響成分として含有する音響信号（以下「変調信号」という）ＳDを生成する。変調信号ＳDの周波数帯域は、放音システム１６による放音と端末装置１２による収音とが可能な周波数帯域であり、かつ、利用者が通常の環境で聴取する音声や楽音等の音響の周波数帯域（例えば可聴域内の約１６ｋＨｚ以下）を上回る周波数帯域（例えば１８ｋＨｚ以上かつ２０ｋＨｚ以下）の範囲内に包含される。なお、変調処理部３２２が変調信号ＳDを生成する方法は以上の例示（拡散変調）に限定されない。例えば、所定の周波数の正弦波等の搬送波を識別情報Ｄで周波数変調することで特定の周波数帯域（例えば１８ｋＨｚ以上かつ２０ｋＨｚ以下）内の変調信号ＳDを生成することも可能である。

　図４の混合処理部３２４は、音響信号取得部２２が取得した音響信号ＳGと変調処理部３２２が生成した変調信号ＳDとを重畳（典型的には加算）することで音響信号Ｓを生成する。以上の説明から理解される通り、音響信号Ｓは、案内音声Ｖの音響成分（音響信号ＳG）と当該案内音声Ｖの識別情報Ｄを含む音響成分（変調信号ＳD）とを含有する。

　図５は、案内音声Ｖの音響信号ＳGと識別情報Ｄを含む変調信号ＳDとの時間的な関係の説明図である。図５に例示される通り、案内音声Ｖの識別情報Ｄを含む変調信号ＳDは、当該案内音声Ｖの音響信号ＳGのうち時間軸上の相異なる区間に複数回にわたり反復的に付加される。すなわち、案内音声Ｖのうち時間軸上の複数の時点に当該案内音声Ｖの識別情報Ｄの音響成分が混合される。なお、各変調信号ＳDを時間軸上で相互に連続させることも可能である。

　第１実施形態の信号処理部３２は、音響信号Ｓを所定の形式（例えばＷＡＶ形式やＭＰ３形式）の音響ファイルとして記憶装置１４４に格納する。以上の処理が複数回にわたり反復されることで、案内の内容（案内対象の展示物）が相違する複数の案内音声Ｖの各々について、当該案内音声Ｖの音響成分（音響信号ＳG）と当該案内音声Ｖの識別情報Ｄを含む音響成分（変調信号ＳD）とを含有する音響信号Ｓが記憶装置１４４に記憶される。

　図２の対応管理部３４は、識別情報設定部２６が案内音声Ｖ毎に設定した識別情報Ｄと、関連情報取得部２４が当該案内音声Ｖについて取得した関連情報Ｑとを対応させて記憶装置１４４に格納する。したがって、図２に例示される通り、記憶装置１４４には、案内音声Ｖの識別情報Ｄ毎に関連情報Ｑが記憶される。以上の説明から理解される通り、展示施設Ｍ内で放音される複数の案内音声Ｖの各々について音響信号Ｓと関連情報Ｑとが生成される。共通の案内音声Ｖに対応する音響信号ＳG（音響信号Ｓ）と関連情報Ｑとが、識別情報Ｄを介して相互に対応付けられる、とも換言され得る。なお、図２では、音響信号Ｓと関連情報Ｑとを記憶装置１４４に格納した構成を例示したが、音響信号Ｓと関連情報Ｑとを別個の記録媒体に格納することも可能である。また、当該情報管理システム１４に接続し、当該システムとの間でデータを授受可能な１以上の外部の装置を、音響信号Ｓと関連情報Ｑとを記憶する記憶装置として採用する構成も可能である。

　図２の情報提供部３６は、識別情報Ｄを含む情報要求Ｒを端末装置１２から受信し、記憶装置１４４に記憶された複数の関連情報Ｑのうち、情報要求Ｒで指定される識別情報Ｄに対応する関連情報Ｑを選択して要求元の端末装置１２に送信する。端末装置１２に対する関連情報Ｑの送信については後述する。

　図６は、音響信号Ｓと関連情報Ｑとを情報管理システム１４が生成する処理（以下「情報生成処理」という）のフローチャートである。例えば入力装置１４６に対する管理者からの操作（具体的には指定文字列ＳＴの指定）を契機として図６の情報生成処理が開始される。情報生成処理を開始すると、制御装置１４２（音響信号取得部２２および関連情報取得部２４）は、指定文字列ＳＴに対応する案内音声Ｖの音響信号ＳGと案内音声Ｖに関連する関連情報Ｑとを取得する（ＳA1）。制御装置１４２（識別情報設定部２６）は、案内音声Ｖの識別情報Ｄを設定する（ＳA2）。また、制御装置１４２（信号処理部３２）は、当該案内音声Ｖの識別情報Ｄを含む変調信号ＳDを案内音声Ｖの音響信号ＳGに重畳した音響信号Ｓを生成して記憶装置１４４に格納する（ＳA3）。そして、制御装置１４２（対応管理部３４）は、案内音声Ｖの関連情報Ｑと識別情報Ｄとを相互に対応させて記憶装置１４４に格納する（ＳA4）。

　以上に例示した情報生成処理で情報管理システム１４が生成した複数の音響信号Ｓ（音響ファイル）は図１の放音システム１６に転送される。複数の音響信号Ｓの転送の方法は任意であるが、例えば、情報管理システム１４から通信網１８を介して放音システム１６に各音響信号Ｓを転送する方法や、半導体記録媒体等の可搬型の記録媒体を介して情報管理システム１４から放音システム１６に各音響信号Ｓを転送する方法が採用され得る。

＜放音システム１６＞
　図７は、放音システム１６の構成図である。図７に例示される通り、第１実施形態の放音システム１６は、制御装置１６２と記憶装置１６４と複数の放音装置１６６とを具備する。記憶装置１６４は、例えば半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せで構成される。情報管理システム１４から転送された複数の音響信号Ｓが記憶装置１６４に格納される。

　制御装置１６２は、放音システム１６の各要素を統括的に制御する。第１実施形態の制御装置１６２は、記憶装置１６４に記憶された各音響信号Ｓを各放音装置１６６に供給する。複数の放音装置１６６の各々は、展示施設Ｍ内の相異なる展示物の近傍にそれぞれ設置される。任意の１個の展示物の近傍に設置された放音装置１６６には、当該展示物の案内音声Ｖに対応する音響信号Ｓが供給される。各放音装置１６６は、制御装置１６２から供給される音響信号Ｓに応じた音響を放音する音響機器である。なお、音響信号Ｓをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略されている。

　図４および図５を参照して前述した通り、音響信号Ｓは、案内音声Ｖを表す音響信号ＳGと当該案内音声Ｖの識別情報Ｄを含む変調信号ＳDとを包含する。したがって、任意の１個の展示物に対応する放音装置１６６からは、当該展示物の案内音声Ｖと識別情報Ｄを示す音響とが放音される。図５に例示した通り、識別情報Ｄの変調信号ＳDは複数回にわたり反復的に音響信号ＳGに付加されるから、案内音声Ｖの再生に並行して、当該案内音声Ｖの識別情報Ｄの音響が複数回にわたり反復的に放音される。すなわち、放音装置１６６の近傍（展示物の近傍）の利用者が展示物の案内音声Ｖを聴取する一方、当該案内音声Ｖの識別情報Ｄが音響通信により当該利用者の端末装置１２に通知される。前述の通り、識別情報Ｄを含む変調信号ＳDの周波数帯域は、利用者が通常の環境で聴取する音響の周波数帯域と比較して高域側（例えば１８ｋＨｚ以上かつ２０ｋＨｚ以下）に位置するから、識別情報Ｄの音響は利用者に殆ど知覚されない。すなわち、利用者による案内音声Ｖの聴取に影響することなく音響通信により識別情報Ｄを端末装置１２に送信することが可能である。

＜端末装置１２＞
　図８は、端末装置１２の構成図である。放音システム１６の１個の放音装置１６６が図８では併記されている。図８に例示される通り、第１実施形態の端末装置１２は、制御装置５０と記憶装置５２と通信装置５４と収音装置５６と出力装置５８とを具備する。記憶装置５２は、制御装置５０が実行するプログラムや制御装置５０が使用するデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置５２として任意に採用される。

　収音装置５６は、周囲の音響を収音する音響機器（マイクロホン）であり、端末装置１２の相互間の音声通話や動画撮影時の音声収録に利用される。図８に例示される通り、第１実施形態の収音装置５６は、展示施設Ｍ内の放音装置１６６から放音された音響を収音し、当該音響の時間波形を表す音響信号（以下「収音信号」という）Ｘを生成する。したがって、収音信号Ｘは、案内音声Ｖの音響成分（音響信号ＳG）と当該案内音声Ｖの識別情報Ｄの音響成分（変調信号ＳD）とを含有する。なお、収音装置５６が生成した収音信号Ｘをアナログからデジタルに変換するＡ/Ｄ変換器の図示は便宜的に省略されている。

　制御装置５０は、端末装置１２の各要素を統括的に制御する。第１実施形態の制御装置５０は、例えばＣＰＵであり、記憶装置５２に記憶されたプログラムを実行することで情報抽出部５１として機能する。情報抽出部５１は、収音装置５６が生成した収音信号Ｘの復調で案内音声Ｖの識別情報Ｄを抽出する。具体的には、情報抽出部５１は、収音信号Ｘのうち識別情報Ｄを含む高域側の周波数帯域（１８ｋＨｚ以上かつ２０ｋＨｚ以下）の帯域成分を例えば高域通過フィルタで選択し、識別情報Ｄの拡散変調に利用された拡散符号を係数とする整合フィルタを通過させることで識別情報Ｄを抽出する。

　通信装置５４は、通信網１８を介して情報提供システム１０と通信する通信機器である。通信装置５４と通信網１８との間の通信の方式は任意であるが、典型的には、放音システム１６から端末装置１２に識別情報Ｄを通知するための音響通信とは相違する無線通信（例えば電波や赤外線を伝送媒体とする情報通信）が採用される。図８に例示される通り、第１実施形態の通信装置５４は送信部５４２と受信部５４４とを包含する。送信部５４２は、情報抽出部５１が収音信号Ｘから抽出した識別情報Ｄを含む情報要求Ｒを情報管理システム１４に送信する。他方、受信部５４４は、情報要求Ｒに応じて情報管理システム１４から送信された関連情報Ｑを受信する。なお、図５を参照して説明した通り、識別情報Ｄの変調信号ＳDは案内音声Ｖの音響信号ＳGに複数回にわたり反復的に付加されるから、情報抽出部５１は１個の識別情報Ｄを相異なる時点で複数回にわたり反復的に抽出し得るが、情報要求Ｒの送信や関連情報Ｑの受信が実行されるのは、新規な識別情報Ｄを情報抽出部５１が最初に抽出した場合のみである。また、以上の例示の通り、第１実施形態では１個の識別情報Ｄが複数回にわたり反復的に送信されるから、例えば端末装置１２の周囲の雑音等に起因して識別情報Ｄの取得に失敗した場合でも当該識別情報Ｄを再取得できるという利点がある。

　図８の出力装置５８は、受信部５４４が情報管理システム１４から受信した関連情報Ｑを出力する。第１実施形態の出力装置５８は、関連情報Ｑが示す第２言語の変換文字列ＣＴを表示する表示装置である。すなわち、放音システム１６の放音装置１６６による第１言語の案内音声Ｖの再生に並行して、端末装置１２では第２言語の変換文字列ＣＴが表示（提示）される。したがって、端末装置１２の利用者は、第１言語を理解できない場合でも第２言語の変換文字列ＣＴを視認することで展示物の案内を把握することが可能である。

　図９は、端末装置１２が関連情報Ｑを取得する動作の説明図である。前述の通り、放音システム１６の各放音装置１６６からは、案内音声Ｖの再生に並行して識別情報Ｄの音響が反復的に放音される。放音装置１６６からの音響が到達する範囲（展示物の近傍）に端末装置１２の利用者が移動すると、端末装置１２の収音装置５６は、案内音声Ｖの音響成分と識別情報Ｄの音響成分とを含有する収音信号Ｘを生成する（ＳB1）。制御装置５０（情報抽出部５１）は、収音信号Ｘの復調で識別情報Ｄを抽出し（ＳB2）、通信装置５４の送信部５４２は、識別情報Ｄを含む情報要求Ｒを情報管理システム１４に送信する（ＳB3）。

　情報管理システム１４の情報提供部３６は、端末装置１２が送信した情報要求Ｒを通信網１８から受信し、記憶装置１４４に記憶された複数の関連情報Ｑのうち、当該情報要求Ｒで指定された識別情報Ｄに対応する関連情報Ｑを選択する（ＳB4）とともに当該関連情報Ｑを要求元の端末装置１２に送信する（ＳB5）。端末装置１２の受信部５４４は、情報管理システム１４から送信された関連情報Ｑを受信し（ＳB6）、出力装置５８は関連情報Ｑを出力する（ＳB7）。以上の説明から理解される通り、案内音声Ｖの再生に並行して放音システム１６の放音装置１６６から放音される識別情報Ｄの音響を端末装置１２が収音すること（すなわち、放音装置１６６からの音波が到達する範囲内に端末装置１２が移動すること）を契機として、識別情報Ｄを含む情報要求Ｒの送信（ＳB3）と識別情報Ｄに対応する関連情報Ｑの取得（ＳB6）とが実行される。

　以上に説明した通り、第１実施形態では、案内音声の音響信号ＳGと当該案内音声の識別情報Ｄを含む変調信号ＳDとを含有する音響信号Ｓに応じた音響が放音される。すなわち、案内音声とともに放音される音響を利用した音響通信で識別情報Ｄが端末装置１２に通知される。したがって、音声通話や音声収録に利用される収音装置５６を識別情報Ｄの取得に流用でき、識別情報Ｄの無線通信に専用される通信機器が不要であるという利点がある。放音システム１６においても、識別情報Ｄの送信に専用される通信機器は不要であり、音声案内に利用される既存の放音装置１６６を端末装置１２に対する識別情報Ｄの通知に利用できるという利点がある。また、識別情報Ｄを音響通信により端末装置１２に通信する構成によれば、識別情報Ｄの音響が到達する範囲の制御が容易であるという利点や、複数の端末装置１２に対して一括的に識別情報Ｄを通知できるという利点もある。

　また、第１実施形態では、案内音声Ｖの放音とともに端末装置１２に通知される識別情報Ｄと当該案内音声Ｖに関連する関連情報Ｑとが情報管理システム１４にて相互に対応付けられ、複数の関連情報Ｑのうち端末装置１２に通知された識別情報Ｄに対応する関連情報Ｑが端末装置１２に提供される。したがって、複数の関連情報Ｑを端末装置１２の記憶装置５２に事前に格納する必要がない。以上の構成によれば、関連情報Ｑの記憶のために端末装置１２に必要な記憶容量が削減されるという利点がある。なお、複数の関連情報Ｑを各端末装置１２に記憶した構成では、関連情報Ｑを更新する必要が発生した場合に、個々の端末装置１２において関連情報Ｑを個別に更新する必要がある。他方、第１実施形態では、複数の関連情報Ｑが情報管理システム１４の記憶装置１４４に保持されて選択的に端末装置１２に提供されるから、記憶装置１４４に保持された関連情報Ｑを更新すれば、更新後の関連情報Ｑを各端末装置１２に提供できる。すなわち、関連情報Ｑを端末装置１２毎に個別に更新する必要がないという利点がある。

　また、第１実施形態では、案内音声Ｖの識別情報Ｄが案内音声Ｖの再生とともに端末装置１２に通知されるから、識別情報Ｄに対応する関連情報Ｑを案内音声Ｖの再生に並行して端末装置１２にて出力することが可能である。したがって、例えば案内音声Ｖの再生の終了後に関連情報Ｑを出力する構成と比較して、案内音声Ｖと関連情報Ｑとの対応を利用者が認識し易いという利点がある。

　ところで、例えば特開２０１１－１０９６２９号公報（以下「先行技術１」という）には、美術館や博物館等の各展示物の近傍に設置された発信装置と、利用者が携帯する携帯受信機とを利用した自動再生音声ガイドシステムが開示されている。発信装置は、展示物に固有の識別符号を電波または赤外線により間欠的に周囲に送信する。携帯受信機は、自身の記録媒体に事前に記憶された複数の案内音声のうち、発信装置から受信した識別符号に対応する案内音声を再生する。先行技術１によれば、発信装置からの電波や赤外線が到達する範囲内（展示物の周囲）に携帯受信機が移動して識別符号を受信することを契機として、当該範囲内の展示物を解説する案内音声が再生される。

　しかし、先行技術１では、各展示物の識別符号が電波または赤外線で発信装置から送信されるから、電波や赤外線を授受するための専用の通信機器を発信装置や携帯受信機に設置する必要がある。他方、第１実施形態では、案内音声Ｖの音響信号ＳGと当該案内音声Ｖの識別情報Ｄを含む変調信号ＳDとを含有する音響信号Ｓに応じた音響が放音される。すなわち、案内音声Ｖとともに放音される音響を利用した音響通信で識別情報Ｄが端末装置１２に通知される。したがって、音声通話や音声収録に利用される収音装置５６を識別情報Ｄの取得に流用でき、識別情報Ｄの無線通信に専用される通信機器が不要であるという利点がある。放音システム１６においても、識別情報Ｄの送信に専用される通信機器は不要であり、音声案内に利用される既存の放音装置１６６を端末装置１２に対する識別情報Ｄの通知に利用できるという利点がある。すなわち、音響を放音および収音する要素を利用した簡便な構成で識別情報Ｄを授受できる。また、識別情報Ｄを音響通信により端末装置１２に通信する構成によれば、識別情報Ｄの音響が到達する範囲の制御が容易であるという利点や、複数の端末装置１２に対して一括的に識別情報Ｄを通知できるという利点もある。

　また、例えば特開２０００－２０７１７０号公報（以下「先行技術２」という）には、再生の対象となる音声信号に対して、その音声信号に応じた音響の聞き取りに影響しない態様で付加情報を付加して出力音声信号を生成する情報処理装置が開示されている。この情報処理装置を用いたアナウンスシステムでは、サーバはスピーカーを介して利用者に対して情報を音声案内として伝達する際に、音声案内に関連する情報（例えば翻訳）を付加情報として付加する。付加情報は例えばスペクトル拡散により音声信号に重畳される。
　ところで、空気振動としての音波を伝送媒体として利用する前掲の音響通信では、例えば電波を伝送媒体として利用する無線通信と比較して通信速度や通信容量が小さいという傾向がある。先行技術２は付加情報（すなわち関連情報）自体を音響通信により送信する。他方、第１実施形態では識別情報Ｄを音響通信により送信する。したがって、第１実施形態の構成は、関連情報よりもデータサイズが小さい識別情報Ｄを送信することにより、音響通信を介して送信されるデータ量を抑制できるという利点がある。また、音響通信では通信容量が小さいので、先行技術２のもとで送信できる付加情報は、実際にはデータ量が小さい情報に制限される。第１実施形態では、音響通信により識別情報を送信し、その識別情報に対応する関連情報が情報管理システム１４から配信されるので、データ量が大きく多様な関連情報（例えば音声や画像）でも利用者に提示できる。

＜第１実施形態の変形例＞
　第１実施形態では、情報管理システム１４の管理者が指示した指定文字列ＳＴを適用した音声合成で音響信号ＳGを生成するとともに指定文字列ＳＴの機械翻訳で関連情報Ｑを生成したが、音響信号ＳGや関連情報Ｑの取得（典型的には生成）の方法は以上の例示に限定されない。音響信号ＳGおよび関連情報Ｑを取得する他の方法を以下に例示する。なお、以下に示す各態様における音響信号ＳGや関連情報Ｑの取得処理において、音響信号ＳGの取得（または生成）処理と関連情報Ｑの取得（または生成）処理の実行順は不問である。

＜変形例の態様１＞
　図１０に例示された態様１において、情報管理システム１４の音響信号取得部２２は、第１実施形態と同様に、指定文字列ＳＴに対する音声合成で案内音声Ｖの音響信号ＳGを生成する。他方、関連情報取得部２４は、管理者が指示した指定文字列ＳＴを関連情報Ｑとして取得する。すなわち、関連情報Ｑは、案内音声Ｖと共通の第１言語で当該案内音声Ｖの発音内容を表現する文字列である。以上の構成では、放音システム１６による案内音声Ｖの再生に並行して端末装置１２では当該案内音声Ｖの発音内容の文字列が表示される。したがって、例えば、難聴者（聴覚障碍者）が案内音声Ｖの内容を確認できるという利点がある。
　この態様では、本実施形態に係る情報生成処理（図６）において、指定文字列ＳＴに対応する案内音声Ｖの音響信号ＳGと案内音声Ｖに関連する関連情報Ｑとを取得するステップ（ＳA1）は、指定文字列ＳＴに対応する案内音声Ｖの音響信号ＳGを音声合成により生成することと、指定文字列ＳＴを関連情報Ｑとして取得すること、とを含むものとして把握される。

＜変形例の態様２＞
　図１１に例示された態様２において、情報管理システム１４の音響信号取得部２２は、第１実施形態と同様に、第１言語の指定文字列ＳＴに対する音声合成で案内音声Ｖの音響信号ＳGを生成する。他方、情報管理システム１４の管理者は、入力装置１４６を適宜に操作することで、案内音声Ｖを第２言語で表現した文字列（変換文字列ＣＴ）を指定する。関連情報取得部２４は、管理者が指示した第２言語の変換文字列ＣＴを関連情報Ｑとして取得する。前掲の図３の構成では、機械翻訳の精度が低い場合に適切な変換文字列ＣＴを生成できないが、図１１に例示された態様２によれば、指定文字列ＳＴの機械翻訳（図３）が不要であるから、例えば人翻訳（human translation）で作成された、適切な第２言語で案内音声Ｖを表現した関連情報Ｑを用意できるという利点がある。
　この態様では、情報生成処理（図６）のステップＳA1は、指定文字列ＳＴに対応する案内音声Ｖの音響信号ＳGを音声合成により生成することと、指定された変換文字列ＣＴ（すなわち、案内音声Ｖの発音内容を第２言語に翻訳した文字列）を関連情報Ｑとして取得すること、とを含むものとして把握される。

＜変形例の態様３＞
　図１２に例示される態様３において、情報管理システム１４の音響信号取得部２２は、第１実施形態と同様に、指定文字列ＳＴに対する音声合成で案内音声Ｖの音響信号ＳGを生成する。他方、関連情報取得部２４は、第１言語の指定文字列ＳＴに対する機械翻訳で第２言語の変換文字列ＣＴを生成するとともに、変換文字列ＣＴに対する音声合成で第２言語の案内音声Ｖの音響信号を関連情報Ｑとして生成する。端末装置１２の出力装置５８は、情報管理システム１４から提供された関連情報Ｑが示す音響信号に応じた音響（第２言語の案内音声Ｖ）を放音する放音装置（スピーカやイヤホン）を包含する。すなわち、放音システム１６による第１言語の案内音声Ｖの再生に並行して、端末装置１２では第２言語の案内音声Ｖが再生される。したがって、端末装置１２の利用者は、第１言語を理解できない場合でも第２言語の案内音声Ｖを聴取することで展示物の案内を理解することが可能である。
　この態様では、情報生成処理（図６）のステップＳA1は、指定文字列ＳＴに対応する案内音声Ｖの音響信号ＳGを音声合成により生成することと、指定された指定文字列ＳＴ（すなわち、案内音声Ｖの発音内容を示す文字列）に対する機械翻訳で案内音声Ｖの翻訳を示す変換文字列ＣＴを生成し、さらに、変換文字列ＣＴを発音した案内音声Ｖを示す音響信号（すなわち、案内音声Ｖの発音内容を第２言語に翻訳した文字列を発音した音声を示す音響信号）を音声合成により生成すること、とを含むものとして把握される。

＜変形例の態様４＞
　図１３に例示される態様４において、情報管理システム１４の音響信号取得部２２は、信号供給装置２００から案内音声Ｖの音響信号ＳGを取得する。信号供給装置２００は、周囲の音響を収音して音響信号ＳGを生成する収音装置や、可搬型または内蔵型の記録媒体から音響信号ＳGを取得して出力する再生装置や、通信網１８から音響信号ＳGを受信して出力する通信装置である。他方、関連情報取得部２４は、前掲の態様１や態様２と同様に、管理者が指示した指定文字列ＳＴを関連情報Ｑとして取得する。したがって、信号供給装置２００が生成した音響信号ＳGに応じた案内音声Ｖが放音装置１６６から放音されるとともに、端末装置１２では管理者からの指示に応じた指定文字列ＳＴが表示される。なお、関連情報取得部２４が信号供給装置２００から音響信号（例えば第２言語の案内音声Ｖの音響信号）を関連情報Ｑとして取得することも可能である。
　この態様では、情報生成処理（図６）のステップＳA1は、信号供給装置２００から案内音声Ｖの音響信号ＳGを取得することと、指定された指定文字列ＳＴ（すなわち、案内音声Ｖの発音内容を示す文字列）を関連情報Ｑとして取得すること、とを含むものとして把握される。

＜変形例の態様５＞
　図１４に例示される態様５において、情報管理システム１４の音響信号取得部２２は、第１実施形態と同様に、指定文字列ＳＴに対する音声合成で案内音声Ｖの音響信号ＳGを生成する。他方、関連情報取得部２４は、案内音声Ｖに関連する画像ＩＭＧ（静止画または動画）を関連情報Ｑとして取得する。したがって、指定文字列ＳＴに対応する第１言語の案内音声Ｖの再生に並行して端末装置１２では案内音声Ｖに関連する画像ＩＭＧが表示される。この態様によれば、案内音声Ｖに関連する画像ＩＭＧが関連情報Ｑとして取得されるから、画像ＩＭＧを予め端末装置１２に記憶する必要がないという利点がある。データサイズの大きな画像データを記憶すると端末装置１２の記憶容量を圧迫するから、本態様によれば、案内音声Ｖに関連する画像ＩＭＧの記憶のために端末装置１２に必要な記憶容量が大きく削減され得る。
　この態様では、情報生成処理（図６）のステップＳA1は、指定文字列ＳＴに対応する案内音声Ｖの音響信号ＳGを音声合成により生成することと、案内音声Ｖに関連する画像ＩＭＧを関連情報Ｑとして取得すること、とを含むものとして把握される。

＜変形例の態様６＞
　図１５に例示される態様６において、情報管理システム１４の音響信号取得部２２は、図１３（態様４）と同様の信号供給装置２００から案内音声Ｖの音響信号ＳGを取得する。他方、関連情報取得部２４は、信号供給装置２００から供給される音響信号ＳGに対する音声認識により、案内音声Ｖの発音内容を表現する文字列を関連情報Ｑとして生成する。音響信号ＳGの音声認識には、例えばＨＭＭ等の音響モデルと言語的な制約を示す言語モデルとを利用した認識技術等の公知の技術が任意に採用され得る。以上の説明から理解される通り、態様６では、前掲の態様１（図１０）と同様に、放音システム１６による案内音声Ｖの再生に並行して端末装置１２では当該案内音声Ｖの発音内容の文字列が表示される。したがって、案内音声Ｖの発音内容を示す文字列を別途取得し記憶する手段を端末装置１２に設けずとも、放音された案内音声Ｖを聞き逃した利用者や、その聴取が困難な利用者（例えば難聴者）が案内音声Ｖの内容を確認できるという利点がある。すなわち、案内音声Ｖの発音内容を示す文字列の記憶のために端末装置１２に必要な記憶容量が削減される。また、情報管理システム１４の関連情報取得部２４は、信号供給装置２００から供給される案内音声Ｖを示す音響信号ＳGから案内音声Ｖの発音内容を示す文字列を音声認識により生成するから、情報管理システム１４においては当該文字列を指定文字列ＳＴとして管理者が別途指定する必要がなくなるという利点がある。
　この態様では、情報生成処理（図６）のステップＳA1は、信号供給装置２００から供給される案内音声Ｖの音響信号ＳGを取得することと、信号供給装置２００から供給される音響信号ＳGに対する音声認識により、案内音声Ｖの発音内容を表現する文字列を関連情報Ｑとして生成すること、とを含むものとして把握される。

＜変形例の態様７＞
　図１６に例示される態様７において、情報管理システム１４の音響信号取得部２２は、態様６と同様に信号供給装置２００から第１言語の案内音声Ｖの音響信号ＳGを取得する。他方、関連情報取得部２４は、態様６と同様に音響信号ＳGに対する音声認識で案内音声Ｖの文字列を生成するとともに、当該文字列に対する機械翻訳により、案内音声Ｖを第２言語で表現した変換文字列ＣＴを関連情報Ｑとして生成する。機械翻訳には公知の技術が任意に採用され得る。すなわち、態様７では、放音システム１６による第１言語の案内音声Ｖの再生に並行して端末装置１２では案内音声Ｖを第２言語に翻訳した変換文字列ＣＴが表示される。したがって、情報管理システム１４においては当該文字列を指定文字列ＳＴとして管理者が別途指定する必要がなくなることに加え、案内音声Ｖの発音内容を示す文字列に対する機械翻訳で関連情報Ｑが生成されるから、案内音声Ｖの言語とは相違する言語の関連情報Ｑを事前に用意する必要がないという利点がある。
　この態様では、情報生成処理（図６）のステップＳA1は、信号供給装置２００から供給される案内音声Ｖの音響信号ＳGを取得することと、信号供給装置２００から供給される音響信号ＳGに対する音声認識により案内音声Ｖの発音内容を表現する文字列を生成し、当該文字列に対する機械翻訳で案内音声Ｖの翻訳を示す関連情報Ｑを生成（すなわち、案内音声Ｖの発音内容を第２言語に翻訳した文字列を関連情報Ｑとして生成）すること、とを含むものとして把握される。

　なお、図１７に例示するように、機械翻訳で生成された変換文字列ＣＴに対する音声合成で第２言語の案内音声Ｖの音響信号を関連情報Ｑとして生成することも可能である。案内音声Ｖの放音に並行して、端末装置１２では、案内音声Ｖの第１言語とは相違する第２言語による案内音声Ｖが再生される。したがって、端末装置１２の利用者が第１言語の案内音声Ｖを理解できない場合でも第２言語の案内音声Ｖを聴取することで再生内容を理解することができるという利点がある。
　この場合、図６のステップＳA1は、信号供給装置２００から供給される案内音声Ｖの音響信号ＳGを取得することと、信号供給装置２００から供給される音響信号ＳGに対する音声認識により案内音声Ｖの発音内容を表現する文字列を生成し、当該文字列に対する機械翻訳で案内音声Ｖの翻訳を示す変換文字列ＣＴを生成し、さらに、変換文字列ＣＴを発音した音声を示す音響信号を音声合成により生成すること、とを含む。

　また、音響信号ＳGの音声認識で生成された第１言語の文字列を表示装置１４８で参照した管理者ＯPが、入力装置１４６を適宜に操作することで案内音声Ｖの第２言語による翻訳文（すなわち管理者ＯP自身が翻訳した文字列）を指示する構成（図１８に例示する構成）では、管理者が指示した第２言語の変換文字列ＣＴを関連情報取得部２４が関連情報Ｑとして取得する。この態様によれば、管理者ＯP自身が第１言語の文字列を人翻訳した結果を示す変換文字列ＣＴを関連情報Ｑとして取得するので、変換文字列ＣＴを機械翻訳で生成する場合と比較して高品質に翻訳された案内音声Ｖの第２言語による翻訳文を取得することが可能になる。
　この場合、図６のステップＳA1は、信号供給装置２００から供給される案内音声Ｖの音響信号ＳGを取得することと、信号供給装置２００から供給される音響信号ＳGに対する音声認識により生成した案内音声Ｖの発音内容を表現する文字列に対し、入力装置１４６への操作により指定された案内音声Ｖの翻訳を示す文字列（すなわち、案内音声Ｖの発音内容を第２言語に翻訳した文字列）を関連情報Ｑとして取得すること、とを含む。

　また、図１９に例示するように、図１６の態様７における機械翻訳で生成された第２言語の変換文字列ＣＴが表示装置１４８に表示されると、管理者ＯPが入力装置１４６に対する操作で変換文字列ＣＴを編集（典型的には修正）した結果を関連情報Ｑとして関連情報取得部２４が取得することも可能である。この構成によれば、機械翻訳で生成した第２言語の変換文字列ＣＴを管理者ＯPが編集した内容が関連情報Ｑとして取得されるので、案内音声Ｖの翻訳を示す文字列を機械翻訳のみで生成する態様と比較して高品質に翻訳された翻訳文を取得することが可能になるとともに、人翻訳のみによる翻訳文を取得する場合と比較して管理者ＯPの作業負担を軽減しつつスピーディに関連情報Ｑの取得が可能になる、という利点がある。
　この場合、図６のステップＳA1は、信号供給装置２００から供給される案内音声Ｖの音響信号ＳGを取得することと、信号供給装置２００から供給される音響信号ＳGに対する音声認識により生成した案内音声Ｖの発音内容を表現する文字列を生成し、当該文字列に対する機械翻訳で案内音声Ｖの翻訳を示す変換文字列ＣＴを生成し、さらに、入力装置１４６への操作により編集された案内音声Ｖの翻訳を示す文字列（すなわち、案内音声Ｖの発音内容を第２言語に翻訳した文字列）を関連情報Ｑとして取得すること、とを含む。
　すなわち、案内音声Ｖの発音内容を第２言語に翻訳した文字列は、例えば、指定された変換文字列ＣＴ（態様２［図１１］）、機械翻訳により生成された変換文字列ＣＴ（態様３［図１２，図１６，図１７］）、人翻訳された変換文字列ＣＴ（態様７［図１８］）、および、機械翻訳により生成された変換文字列ＣＴに対して入力装置１４６への操作により編集された文字列（態様７［図１９］）を含むものとして把握される。

＜変形例の態様８＞
　図２０に例示される態様８において、情報管理システム１４の関連情報取得部２４は、音響信号ＳGに対する自動コンテンツ認識（ＡＣＲ：Automatic Content Recognition）により、音響信号ＳGに関連するコンテンツまたはコンテンツ情報（例えばコンテンツ名）を関連情報Ｑとして取得する。自動コンテンツ認識には種々の技術が任意に採用され得る。例えば、関連情報取得部２４は、音響信号ＳGの特徴量（例えばＭＦＣＣや基本周波数等）を解析し、事前に用意された複数のコンテンツのうち音響信号ＳGの特徴量に整合するコンテンツを関連情報Ｑとして検索および取得する。なお、図２０の自動コンテンツ認識には、音響信号ＳGの特徴量を解析および照合するフィンガープリント技術や、音響信号ＳGの可聴帯域または非可聴帯域に情報を埋込む音響透かし（Audio Watermark）技術を適用することが可能である。この態様においては、関連情報Ｑの取得に自動コンテンツ認識を採用するので、案内音声Ｖに関連した各種の情報（例えば、案内音声Ｖから派生するサービスの情報）に端末装置１２の利用者を簡易な構成で誘導することが可能である。
　この態様では、情報生成処理（図６）のステップＳA1は、信号供給装置２００から供給される案内音声Ｖの音響信号ＳGを取得することと、信号供給装置２００から供給される音響信号ＳGに関連するコンテンツを関連情報Ｑとして取得すること、とを含む。

　音声認識と自動コンテンツ認識とを選択的に実行して関連情報取得部２４が関連情報Ｑを取得することも可能である（図２１）。例えば、音響信号ＳGが表す案内音声Ｖの種類に応じて音声認識と自動コンテンツ認識との何れかが選択される。具体的には、関連情報取得部２４は、音響信号ＳGの音響が人間の発声音（音声）である場合には、音響信号ＳGに対する音声認識で関連情報Ｑを生成し、音響信号ＳGの音響が音楽（例えば歌唱音や楽器の演奏音）である場合には、音響信号ＳGに対する自動コンテンツ認識で関連情報Ｑを取得する。音声認識と自動コンテンツ認識とを併用することも可能である（図２２）。例えば、音響信号ＳGに対する音声認識の結果の文字列に対する自動コンテンツ認識で関連情報取得部２４が関連情報Ｑを取得する構成や、自動コンテンツ認識で特定されたコンテンツに対する音声認識の結果の文字列を関連情報取得部２４が関連情報Ｑとして取得する構成が想定される。

　態様６から態様８において、発音源（例えば発声者）から放射された案内音声Ｖを収音して音響信号ＳGを生成する収音装置や、収音装置が生成した音響信号ＳGを通信網１８から受信する通信装置を信号供給装置２００として利用した構成では、発音源による案内音声Ｖの発音と放音システム１６による当該案内音声Ｖの再生とに並行して実時間的に関連情報Ｑを端末装置１２に提供することが可能である。なお、態様６から態様８では信号供給装置２００から音響信号ＳGが供給される場合を想定したが、各種の音声合成で生成された案内音声Ｖの音響信号ＳGに対する音声認識で関連情報Ｑを生成することも可能である。

＜その他＞
　音響信号取得部２２が音響信号ＳGを取得する方法や、関連情報取得部２４が関連情報Ｑを取得する方法は以上の例示に限定されない。例えば、関連情報取得部２４が第１言語の指定文字列ＳＴの機械翻訳により第２言語の変換文字列ＣＴを関連情報Ｑとして生成し、機械翻訳で生成された変換文字列ＣＴに対する音声合成で音響信号取得部２２が第２言語の案内音声Ｖの音響信号ＳGを生成することも可能である。

　以上の例示から理解される通り、音響信号取得部２２は、案内音声Ｖの音響信号ＳGを取得する要素として包括され、音声合成等の音響処理で自身が音響信号ＳGを生成する要素と、図１３の信号供給装置２００等の外部装置から音響信号ＳGを取得する要素との双方を包含する。同様に、関連情報取得部２４は、案内音声Ｖに関連する関連情報Ｑを取得する要素として包括され、音声認識、機械翻訳、または音声合成等の情報処理、またはこれらのうち２以上の処理を組み合わせることにより、関連情報取得部２４自体が関連情報Ｑを生成する要素と、文字列（指定文字列ＳＴまたは変換文字列ＣＴ）または案内音声Ｖに関連する画像等の関連情報Ｑを外部装置から取得する要素、およびこれら２つの要素の組み合わせのすべてを包含する。

＜第２実施形態＞
　本発明の第２実施形態を説明する。以下に例示する各態様において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

　図２３は、第２実施形態における情報管理システム１４の信号処理部３２が音響信号Ｓを生成する処理の説明図である。図２３に例示される通り、音響信号取得部２２が取得した案内音声Ｖの音響信号ＳGには、時間軸上の位置が相違する複数の区間（以下「再生区間」という）Ｔが設定される。具体的には、案内音声Ｖの内容（趣旨や対象）毎に音響信号ＳGが複数の再生区間Ｔ（Ｔ1，Ｔ2，……）に区分される。例えば、案内対象が相違する複数のシーンで案内音声Ｖが構成される場合には、音響信号ＳGがシーン毎に各再生区間Ｔに区分される。再生区間Ｔの始点または終点（相前後する再生区間Ｔの境界）は、典型的には、入力装置１４６に対する管理者からの操作に応じて指示されるが、例えば音響信号Ｓの無音区間を境界として複数の再生区間Ｔを画定することも可能である。なお、時間軸上で相前後する各区間を任意の間隔で相互に離間させることも可能である。また、図２３では各再生区間Ｔの時間長を便宜的に同等としたが、各再生区間Ｔの時間長を相違させることも可能である。

　第２実施形態の識別情報設定部２６は、音響信号ＳGの再生区間Ｔ毎に相異なる識別情報Ｄ（Ｄ1，Ｄ2，……）を設定する。信号処理部３２は、音響信号ＳGの再生区間Ｔ毎に、識別情報設定部２６が設定した相異なる識別情報Ｄを付加する。すなわち、信号処理部３２は、図２３に例示される通り、音響信号ＳGの複数の再生区間Ｔの各々に、識別情報設定部２６が当該再生区間Ｔについて設定した識別情報Ｄの変調信号ＳDを反復的に付加することで音響信号Ｓを生成する。すなわち、案内音声Ｖの任意の１個の再生区間Ｔのうち複数の時点に、当該再生区間Ｔの識別情報Ｄの音響成分が反復的に混合される。信号処理部３２が生成した音響信号Ｓは、第１実施形態と同様に放音システム１６に転送される。

　他方、第２実施形態の関連情報取得部２４は、音響信号ＳGの再生区間Ｔ毎に関連情報Ｑを取得する。例えば、関連情報取得部２４は、案内音声Ｖの再生区間Ｔ毎に指定文字列ＳＴを区分して機械翻訳を実行することで、第２言語の変換文字列ＣＴを示す関連情報Ｑを再生区間Ｔ毎に生成する。対応管理部３４は、識別情報設定部２６が設定した識別情報Ｄと関連情報取得部２４が取得した関連情報Ｑとを案内音声Ｖの再生区間Ｔ毎に相互に対応させる。すなわち、対応管理部３４は、識別情報設定部２６が設定した各再生区間Ｔの識別情報Ｄと、当該再生区間Ｔについて関連情報取得部２４が取得した関連情報Ｑとを、相互に対応させて記憶装置１４４に格納する。

　放音システム１６の放音装置１６６は、第１実施形態と同様に、情報管理システム１４から転送された音響信号Ｓに応じた音響を放音する。すなわち、音響信号ＳGに応じた案内音声Ｖの再生に並行して、音響信号ＳGの再生区間Ｔ毎に相異なる識別情報Ｄの音響が反復的に放音される。したがって、案内音声Ｖの再生地点が任意の再生区間Ｔから直後の再生区間Ｔに遷移するたびに、端末装置１２に通知される識別情報Ｄが変更される。他方、端末装置１２の情報抽出部５１は、案内音声Ｖの各再生区間Ｔの識別情報Ｄを順次に収音信号Ｘから抽出する。そして、識別情報Ｄの抽出毎（再生区間Ｔ毎）に、識別情報Ｄを指定した情報要求Ｒの送信（送信部５４２）と、情報要求Ｒに応じた関連情報Ｑの受信（受信部５４４）とが実行される。したがって、出力装置５８が出力する関連情報Ｑは、案内音声Ｖの再生の進行とともに順次に変更される。具体的には、案内音声Ｖのうち任意の１個の再生区間Ｔの開始（再生区間Ｔの遷移）を契機として、出力装置５８による出力内容（関連情報Ｑ）が変更される。

　第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、案内音声Ｖを時間軸上で区分した複数の再生区間Ｔの各々について、識別情報Ｄの設定や識別情報Ｄおよび関連情報Ｑの対応付けとが実行されるから、端末装置１２の利用者に提示される関連情報Ｑを案内音声Ｖの再生の進行に連動して変化させることが可能である。

＜第３実施形態＞
　図２４は、本発明の第３実施形態の動作の説明図である。図２４に例示される通り、第３実施形態における情報管理システム１４の記憶装置１４４には、音響信号ＳGで表現される案内音声Ｖの識別情報Ｄ毎に複数（Ｎ個）の関連情報Ｑ（Ｑ1，Ｑ2，……）が記憶される。具体的には、第１言語の案内音声Ｖを第１言語以外の相異なる複数の言語で表現した文字列を発音した音声を表すＮ個の関連情報Ｑが、当該案内音声Ｖの１個の識別情報Ｄに対応付けて記憶される。相異なる複数の言語のＮ個の関連情報Ｑを用意する方法は任意であるが、例えば、前掲の図１２に例示した通り、第１言語の指定文字列ＳＴに対する機械翻訳で相異なる複数の言語で表現されたＮ個の変換文字列ＣＴを生成し、各変換文字列ＣＴに対する音声合成で相異なるＮ種類の言語の案内音声Ｖを表すＮ個の関連情報Ｑを生成することが可能である。また、例えば、前掲の図１７に例示するように、信号供給装置２００から供給される案内音声Ｖの音響信号ＳGに対する音声認識で案内音声Ｖの文字列を生成するとともに、当該文字列に対する機械翻訳により相異なる複数の言語で表現されたＮ個の変換文字列ＣＴを生成し、各変換文字列ＣＴに対する音声合成で相異なるＮ種類の言語の案内音声Ｖを表すＮ個の関連情報Ｑを生成することも可能である。

　他方、放音システム１６が放音した音響を収音した収音信号Ｘから情報抽出部５１が識別情報Ｄを抽出すると、端末装置１２の送信部５４２は、識別情報Ｄと言語情報Ｌとを包含する情報要求Ｒを情報管理システム１４に送信する（ＳB3）。言語情報Ｌは、端末装置１２にて使用される言語を指定する情報である。言語情報Ｌを取得する方法は任意であるが、例えば、端末装置１２のＯＳ（Operating System）の言語設定を参照して送信部５４２が言語情報Ｌを生成する構成が採用され得る。この場合には、利用者が言語を指定する必要がないという利点がある。また、端末装置１２の利用者が任意に指定した言語を示す言語情報Ｌを生成する構成も採用され得る。

　情報管理システム１４の情報提供部３６は、端末装置１２から情報要求Ｒを受信すると、情報要求Ｒで指定される識別情報Ｄに対応して記憶装置１４４に記憶されたＮ個の関連情報Ｑのうち、情報要求Ｒで指定される言語情報Ｌが示す言語の関連情報Ｑを選択し（ＳB4）、当該関連情報Ｑを要求元の端末装置１２に送信する（ＳB5）。端末装置１２の受信部５４４は、情報管理システム１４から送信された関連情報Ｑを受信し（ＳB6）、出力装置５８（放音装置１６６）は、関連情報Ｑが示す案内音声Ｖを放音することにより利用者に提示する（ＳB7）。以上の説明から理解される通り、第１言語の案内音声Ｖの再生に並行して、第１言語以外のＮ種類の言語のうち言語情報Ｌで指定された１種類の言語の案内音声Ｖが端末装置１２の出力装置５８から出力される。したがって、例えば案内音声Ｖの再生の終了後に関連情報Ｑを出力する構成と比較して、案内音声Ｖと関連情報Ｑとの対応を利用者が認識し易いという利点がある。

　第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、言語が相違するＮ個の関連情報Ｑの何れかが選択的に端末装置１２に提供されるから、使用言語が相違する多様な利用者が理解可能な関連情報Ｑを提供できるという利点がある。なお、以上の説明では、各言語の音声を表す関連情報Ｑを例示したが、案内音声Ｖを各言語で表現した文字列（変換文字列ＣＴ）を表す関連情報Ｑを利用する構成も採用され得る。この場合、関連情報Ｑの生成方法は任意であるが、前掲の図１６に例示した通り、信号供給装置から供給される案内音声Ｖの音響信号ＳGから音声認識で生成した第１言語の文字列に対する機械翻訳で、相異なるＮ個の言語で表現されたＮ個の変換文字列をＮ個の関連情報Ｑとして生成することが可能である。関連情報Ｑが文字列を表す構成では、端末装置１２の出力装置５８（表示装置）が当該文字列を表示することにより利用者に関連情報Ｑを提示する。この場合、図１６に例示する生成方法のほか、図１１（入力された変換文字列ＣＴを取得する構成）、図１８（管理者ＯP自身が翻訳した文字列を取得する構成）または図１９（機械翻訳で生成した変換文字列ＣＴを管理者ＯPが編集した文字列を取得する構成）に示す生成（取得）方法も採用し得る。
　また、第２実施形態の構成を第３実施形態に適用することも可能である。

＜変形例＞
　以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の各形態では、識別情報Ｄの音響の収音毎（利用者が各展示物に接近するたび）に端末装置１２が当該識別情報Ｄに対応する関連情報Ｑを順次に取得する構成を例示したが、展示施設Ｍ内の相異なる展示物に対応する複数の関連情報Ｑを対応管理部３４が１個の識別情報Ｄに対応させ、放音システム１６の放音装置１６６から放音される識別情報Ｄの音響を端末装置１２が収音した場合に、当該識別情報Ｄに対応する複数の関連情報Ｑを端末装置１２が一括的に情報提供部３６から取得することも可能である。例えば、特定の展示施設Ｍ内に利用者が入館した時点や展示施設Ｍ内で最初に識別情報Ｄを取得した時点で、当該展示施設Ｍの各展示物に関する複数の関連情報Ｑを端末装置１２が一括的に取得する構成が採用され得る。

　なお、利用者が携帯する端末装置に事前に記憶された複数の情報が選択的に再生される構成においては、情報を更新する必要が発生した場合に、個々の端末装置において情報を個別に更新する必要があるという問題がある。本変形例の構成によれば、情報管理システム１４の記憶装置１４４に保持された関連情報Ｑが端末装置１２に提供されるから、記憶装置１４４に保持された関連情報Ｑを更新すれば、更新後の関連情報Ｑを各端末装置１２に提供できる。すなわち、関連情報Ｑを端末装置１２毎に個別に更新する必要がないという利点がある。

（２）関連情報Ｑの内容は前述の各形態での例示に限定されない。例えば、前述の各形態で関連情報Ｑとして例示した音響と画像と文字列とのうちの少なくとも２種類の組合せを関連情報Ｑとして情報提供部３６から端末装置１２に提供することも可能である。また、例えば、案内音声Ｖに関連する情報（例えば前述の各形態で例示した関連情報Ｑ）の所在を示すリンク情報（例えばＵＲＬ）を関連情報Ｑとして情報提供部３６から端末装置１２に提供する構成も採用され得る。

（３）第２実施形態では、図２３を参照して説明した通り、案内音声Ｖの相異なる再生区間Ｔに対応する複数の識別情報Ｄ（Ｄ1，Ｄ2，Ｄ3，……）の各々を再生区間Ｔ内で複数回にわたり反復的に端末装置１２に送信する構成を例示した。以上の構成では、例えば再生区間Ｔ1の末尾に近い時点で送信された識別情報Ｄ1と、直後の再生区間Ｔ2の先頭に近い時点で送信された識別情報Ｄ2とを端末装置１２が取得した場合に、識別情報Ｄ1に対応する関連情報Ｑの再生の途中で、識別情報Ｄ2に対応する関連情報Ｑを端末装置１２が受信する可能性がある。以上の状況では、識別情報Ｄ1に対応する関連情報Ｑの再生を途中（識別情報Ｄ2に対応する関連情報Ｑの受信まで）で中断したうえで識別情報Ｄ2の関連情報Ｑの再生を開始する、という動作が好適である。なお、相異なる識別情報Ｄに対応する複数の関連情報Ｑの間で端末装置１２による再生の期間が相互に重複しないように、各識別情報Ｄを再生区間Ｔのうち先頭側の期間（例えば前半期間）のみで端末装置１２に送信することも可能である。

　前述の例示のように、識別情報Ｄ1に対応する関連情報Ｑの再生の途中で識別情報Ｄ2の関連情報Ｑを端末装置１２が受信した場合に、識別情報Ｄ1の関連情報Ｑの再生が完了してから識別情報Ｄ2の関連情報Ｑの再生を開始する構成も採用され得る。また、識別情報Ｄ1に対応する関連情報Ｑの再生の途中で識別情報Ｄ2の関連情報Ｑを端末装置１２が受信した場合に、利用者からの操作を契機として識別情報Ｄ2の関連情報Ｑの再生を開始（識別情報Ｄ1の関連情報の再生を中断）することも可能である。例えば、識別情報Ｄ2に対応する関連情報Ｑを受信した時点で「次へ」ボタンを表示し、利用者が当該ボタンを操作した場合に識別情報Ｄ2の関連情報Ｑの再生を開始する。

（４）関連情報Ｑの出力方法（例えば表示方法）は任意である。例えば画像（静止画や動画）を撮像する撮像装置（図示略）を端末装置１２が具備する構成では、撮像装置が撮像した画像と関連情報Ｑが示す画像（静止画，動画，文字列等）とを合成して出力装置５８の表示装置に表示することも可能である。

　例えば、図２５に例示される通り、案内音声等の各種の再生対象音を放音する放音機能を搭載したロボット３００が展示物として博物館等の展示施設Ｍで展示された状況を想定する。情報管理システム１４の記憶装置１４４には、再生対象音の音響信号ＳGと識別情報Ｄの変調信号ＳDとを含有する音響信号Ｓが記憶されるとともに、再生対象音の発音内容を表現する文字列の関連情報Ｑが識別情報Ｄに対応して記憶される。端末装置１２の制御装置５０は、図２５に例示される通り、撮像装置が撮像したロボット３００の画像（典型的には動画像）Ｇと、情報管理システム１４から提供される関連情報Ｑの文字列とを出力装置５８の表示装置に重ねて実時間的に表示（オーバーレイ表示）させる。

　関連情報Ｑのみが表示装置に表示される構成では、利用者は、表示装置による表示画像（関連情報Ｑ）と現実の展示物であるロボット３００との間で視線を頻繁に移動させる必要がある。他方、図２５を参照して説明した構成では、画像Ｇと関連情報Ｑとが単体の表示画面に重ねて表示されるから、表示装置とロボット３００との間で視線を頻繁に移動させる必要がないという利点がある。特に、再生対象音の文字列を画像Ｇとともに表示する構成によれば、例えば難聴者が、ロボット３００の動作と再生対象音の内容との双方を容易に確認できるという格別の効果が実現される。

（５）前述の各形態では、展示施設Ｍでの案内に情報提供システム１０を利用したが、情報提供システム１０が利用される場面は以上の例示に限定されない。例えば、電車やバス等の交通機関の音声案内に情報提供システム１０を利用することも可能である。具体的には、電車やバス等の車輌に放音システム１６が設置され、停車場（電車駅や停留所）を案内する案内音声Ｖの音響信号ＳGに識別情報Ｄを付加した音響信号Ｓが情報管理システム１４にて生成されたうえで放音システム１６に転送される。任意の停車場に車輌が接近すると、当該停車場に対応する音響信号Ｓが放音システム１６の放音装置１６６に供給され、停車場への到着等を案内する案内音声Ｖとともに識別情報Ｄが放音される。車輌内の端末装置１２は、識別情報Ｄを含む情報要求Ｒに応じて情報管理システム１４から提供される関連情報Ｑを出力装置５８から出力する。例えば、前述の各形態と同様に第１言語の案内音声Ｖを第２言語に翻訳した音声のほか、例えば直後の停車場の付近の観光案内を示す音声または画像（静止画または動画）が関連情報Ｑとして用意され得る。

（６）前述の各形態では、再生対象音の音響信号ＳGおよび識別情報Ｄの変調信号ＳDを含有する音響信号Ｓと、識別情報Ｄ毎の関連情報Ｑとを記憶装置１４４に記憶した構成（共通の案内音声Ｖに対応する音響信号ＳGと関連情報Ｑとが識別情報Ｄを介して相互に対応付けられた構成）を例示したが、音響信号ＳGと関連情報Ｑとを相互に対応させるための具体的な方法は適宜に変更され得る。例えば、関連情報Ｑを提供すべき位置および時刻（または各々の範囲）を指定する補助情報を当該関連情報Ｑに対応付けて記憶装置１４４に記憶させた構成を想定する。補助情報は、例えば、音響信号ＳGが再生される位置および時刻を指定する。端末装置１２は、ＧＰＳ（Global Positioning System）等の位置検出手段が検出した自装置の位置情報と現在時刻とを含む情報要求Ｒを情報管理システム１４に送信する。情報管理システム１４の情報提供部３６は、記憶装置１４４に記憶された複数の関連情報Ｑのうち、情報要求Ｒで指定された位置情報および現在時刻に近い位置および時間に対応する関連情報Ｑを選択する（ＳB4）とともに当該関連情報Ｑを要求元の端末装置１２に送信する（ＳB5）。以上の構成では、識別情報Ｄを利用せずに、前述の各形態と同様に音響信号ＳGに対応する関連情報Ｑを端末装置１２に提供することが可能である。

（７）前述の各形態では、案内音声Ｖの音響信号ＳGと識別情報Ｄの変調信号ＳDとを含む音響信号Ｓの音響を放音装置１６６から放音したが、案内音声Ｖの放音とともに端末装置１２に識別情報Ｄを通知するための方法は以上の例示に限定されない。例えば、案内音声Ｖを収音した収音信号Ｘの特徴量（実質的には音響信号ＳGの特徴量）から識別情報Ｄを特定することも可能である。具体的には、図２６に例示される通り、前述の各形態と同様の情報提供システム１０に照合部１５が追加される。照合部１５は、例えば通信網１８を介して端末装置１２と通信可能なサーバで実現される。放音システム１６の放音装置１６６から放音される案内音声Ｖの音響信号ＳGの特徴量を表す認識情報Ｗ（Ｗ1，Ｗ2，……）と、当該案内音声Ｖの識別情報Ｄ（Ｄ1，Ｄ2，……）とを対応させた検索テーブルＴBLを、照合部１５は保持する。

　図２６の構成において、放音システム１６の放音装置１６６は、音響信号ＳGが表す案内音声Ｖを放音するが、識別情報Ｄの音響成分は放音しない。端末装置１２の制御装置５０は、収音装置５６が収音した案内音声Ｖの収音信号Ｘを所定の時間（例えば数秒）にわたり記憶装置５２に記憶し、通信装置５４の送信部５４２は、当該収音信号Ｘを照合部１５に送信する。すなわち、端末装置１２は、収音装置５６が収音した案内音声Ｖの識別情報Ｄを照合部１５に照会する。

　照合部１５は、端末装置１２から通信網１８を介して受信した収音信号Ｘの特徴量を解析し、当該特徴量に類似または合致する特徴量の認識情報Ｗを検索テーブルＴBLから検索する。認識情報Ｗの検索の方法は任意であるが、例えば自動コンテンツ認識の技術が好適に利用される。照合部１５は、検索された認識情報Ｗに対応する識別情報Ｄを検索テーブルＴBLから取得して端末装置１２に送信する。すなわち、放音装置１６６から放音された案内音声Ｖの識別情報Ｄが端末装置１２に通知される。照合部１５から通知された識別情報Ｄに対応した関連情報Ｑを端末装置１２が情報管理システム１４から取得する動作は前述の各形態と同様である。

　なお、以上の説明では、音響信号ＳGの特徴量を表す認識情報Ｗを例示したが、認識情報Ｗの内容は適宜に変更される。例えば、音響信号ＳG自体（例えば波形データ）を認識情報Ｗとして検索テーブルＴBLに登録することも可能である。照合部１５は、端末装置１２から受信した収音信号Ｘに類似または合致する波形の認識情報Ｗを検索テーブルＴBLから検索する。また、情報管理システム１４や端末装置１２に照合部１５を搭載することも可能である。

　案内音声Ｖの放音に並行して音響通信で識別情報Ｄを端末装置１２に通知する前述の各形態の構成では、識別情報Ｄを含む変調信号ＳDの周波数帯域（例えば１８ｋＨｚ以上かつ２０ｋＨｚ以下）を再生可能な放音装置１６６が必要である。図２６の構成では、放音装置１６６の再生可能帯域に関わらず端末装置１２に識別情報Ｄを通知できるという利点がある。したがって、例えば可聴帯域の高域側を再生できない既存の放音装置１６６を利用する状況では図２６の構成が好適である。他方、識別情報Ｄを音響通信で端末装置１２に通知する構成では、端末装置１２から照合部１５に収音信号Ｘを送信する必要がない（したがって通信量が削減される）という利点や、収音信号Ｘから識別情報Ｄを検索する照合部１５が不要であるという利点がある。

（８）前述の各形態における情報管理システム１４は、単体の装置として実現されるほか、相互に別体で構成された複数の装置（サーバ）としても実現され得る。例えば、前述の各形態の情報管理システム１４を、識別情報設定部２６を含む第１サーバと、識別情報設定部２６以外の各要素を含む第２サーバとに分散し、第１サーバと第２サーバとが例えば通信網１８を介して相互に通信する構成も採用され得る。以上の説明から理解される通り、本発明の情報提供システム１０は、単体の装置と複数の装置の集合体との双方を包含する。また、情報管理システム１４と放音システム１６とを含む情報提供システム１０の全体を単体の装置として実現することも可能である。

（９）前述の各形態では、展示施設Ｍの案内を目的とした案内音声Ｖの再生を例示したが、放音システム１６の放音装置１６６が放音する音響の種類は案内音声Ｖに限定されない。例えば、音楽等の各種の音響を再生する場合にも前述の各形態は採用され得る。以上の説明から理解される通り、前述の各形態の音響信号ＳGは、再生対象となる音響（再生対象音）を示す信号として包括的に表現される。

（１０）前述の各形態では、案内音声Ｖを表す音響信号ＳGと識別情報Ｄを含む変調信号ＳDとを含有する音響信号Ｓに応じた音響を放音システム１６の放音装置１６６が放音する構成を例示したが、案内音声Ｖ（再生対象音）の再生は省略され得る。具体的には、情報管理システム１４の信号処理部３２は、識別情報設定部２６が設定した識別情報Ｄを含む変調信号ＳDを音響信号Ｓ（音響ファイル）として放音システム１６に転送する。放音システム１６は、音響信号Ｓを放音装置１６６に供給することで識別情報Ｄの音響を放音する。端末装置１２は、放音システム１６が放音した音響の収音で収音装置５６が生成した収音信号Ｘから識別情報Ｄを抽出し、当該識別情報Ｄに対応する関連情報Ｑを情報管理システム１４の情報提供部３６から受信する。以上の説明から理解される通り、収音装置５６は、識別情報Ｄを含む変調信号ＳDを含有する音響信号Ｓに応じて放音された音響を収音して収音信号Ｘを生成する要素として包括的に表現され、音響信号Ｓにおける案内音声Ｖの音響信号ＳGの有無は不問である。

（１１）前述の各形態では、端末装置１２に対する識別情報Ｄの通知に音響通信を利用したが、識別情報Ｄを端末装置１２に通知する通信の方式は以上の例示に限定されない。例えば、赤外線や電波を利用した無線通信（例えば近距離無線通信）で端末装置１２に識別情報Ｄを通知することも可能である。

（１２）案内音声の音響信号ＳGや関連情報Ｑを生成する方法は、前述の各形態で例示した方法（図３，図１０－図２２）に限定されない。また、第３実施形態においては、情報管理システム１４は、情報提供部３６および記憶装置１４４さえ備えていればよく、音響信号取得部２２、関連情報取得部２４、識別情報設定部２６、信号処理部３２、および対応管理部３４は必須の要素ではない。すなわち、これらの要素を別途の装置に具備させることにより、別途の装置から記憶装置１４４に対して音響信号Ｓおよび関連情報Ｑを記憶させる構成も採用し得る。

（１３）以上の各態様に係る情報管理システム、放音システム、及び端末装置は、制御装置とプログラムとの協働によって実現されるほか、専用の電子回路でも実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、上記の実施形態で例示した半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。

１００……通信システム、１０……情報提供システム、１２……端末装置、１４……情報管理システム、１４２……制御装置、１４４……記憶装置、１４６……入力装置、１４８……表示装置、１６……放音システム、１６２……制御装置、１６４……記憶装置、１６６……放音装置、１８……通信網、２２……音響信号取得部、２４……関連情報取得部、２６……識別情報設定部、３２……信号処理部、３２２……変調処理部、３２４……混合処理部、３４……対応管理部、３６……情報提供部、５０……制御装置、５１……情報抽出部、５２……記憶装置、５４……通信装置、５４２……送信部、５４４……受信部、５６……収音装置、５８……出力装置、２００……信号供給装置。

Claims

　再生対象音を表す音響信号と当該再生対象音の識別情報を含む変調信号とを含有する音響信号に応じて放音された音響を収音して収音信号を生成する収音手段と、
　前記収音手段が生成した収音信号から識別情報を抽出する情報抽出手段と、
　前記情報抽出手段が抽出した識別情報を含む情報要求を情報提供手段に送信する送信手段と、
　前記情報要求に含まれる識別情報に対応するとともに前記再生対象音に関連する複数の関連情報の何れかを前記情報提供手段から受信する受信手段と、
　前記受信手段が受信した関連情報を出力する出力手段と
　を具備する端末装置。
　前記送信手段は、当該端末装置にて指定された言語を示す言語情報を含む前記情報要求を送信し、
　前記受信手段は、前記情報要求の識別情報に対応するとともに相異なる複数の言語に対応する複数の関連情報のうち前記情報要求の言語情報で指定された言語に対応する関連情報を受信する
　請求項１の端末装置。
　前記言語情報は、当該端末装置のＯＳの言語設定で指定された言語を示す
　請求項２の端末装置。
　前記言語情報は、当該端末装置の利用者が指定した言語を示す
　請求項２の端末装置。
　前記情報要求の言語情報で指定された言語に対応する関連情報は、前記再生対象音の発音内容を当該指定された言語に翻訳した文字列を発音した音声を表す音響信号である
　請求項２から請求項４の何れかの端末装置。
　前記情報要求の言語情報で指定された言語に対応する関連情報は、前記再生対象音の発音内容を当該指定された言語に翻訳した文字列である
　請求項２から請求項４の何れかの端末装置。
　前記複数の言語のうち第１言語で表現された前記再生対象音の放音に並行して、前記出力手段は、前記情報要求の言語情報で指定された、前記第１言語以外の言語に対応する関連情報を出力する
　請求項２から請求項６の何れかの端末装置。
　再生対象音を表す音響信号と当該再生対象音の識別情報を含む変調信号とを含有する音響信号に応じた音響を放音する放音手段と、
　前記放音手段が放音した音響から抽出される識別情報を含む情報要求を端末装置から受信し、前記情報要求に含まれる識別情報に対応するとともに前記再生対象音に関連する複数の関連情報の何れかを前記端末装置に送信する情報提供手段と
　を具備する情報提供システム。
　前記情報提供手段は、前記端末装置にて指定された言語を示す言語情報を含む前記情報要求を受信し、前記情報要求の識別情報に対応するとともに相異なる複数の言語に対応する複数の関連情報のうち当該情報要求の言語情報で指定された言語に対応する関連情報を前記端末装置に送信する
　請求項８の情報提供システム。
　前記情報要求の言語情報で指定された言語に対応する関連情報は、前記再生対象音の発音内容を当該指定された言語に翻訳した文字列を発音した音声を表す音響信号である
　請求項９の情報提供システム。
　前記情報要求の言語情報で指定された言語に対応する関連情報は、前記再生対象音の発音内容を当該指定された言語に翻訳した文字列を発音した音声を表す文字列である
　請求項９の情報提供システム。
　端末装置において、
　再生対象音を表す音響信号と当該再生対象音の識別情報を含む変調信号とを含有する音響信号に応じて放音された音響を収音して収音信号を生成し、
　前記収音信号から識別情報を抽出し、
　前記識別情報を含む情報要求を情報提供手段に送信し、
　前記情報要求に含まれる識別情報に対応するとともに前記再生対象音に関連する複数の関連情報の何れかを前記情報提供手段から受信し、
　前記受信した関連情報を出力する
　情報提示方法。
　前記情報要求は、当該端末装置にて指定された言語を示す言語情報を含み、
　前記情報要求の識別情報に対応するとともに相異なる複数の言語に対応する複数の関連情報のうち前記情報要求の言語情報で指定された言語に対応する関連情報を受信する
　請求項１２の情報提示方法。
　再生対象音を表す音響信号と当該再生対象音の識別情報を含む変調信号とを含有する音響信号に応じた音響を放音し、
　前記放音した音響から抽出される識別情報を含む情報要求を端末装置から受信し、前記情報要求に含まれる識別情報に対応するとともに前記再生対象音に関連する複数の関連情報の何れかを前記端末装置に送信する
　情報提供方法。
　前記情報要求は、前記端末装置にて指定された言語を示す言語情報を含み、
　前記情報要求の識別情報に対応するとともに相異なる複数の言語に対応する複数の関連情報のうち前記情報要求の言語情報で指定された言語に対応する関連情報を前記端末装置に送信する
　請求項１４の情報提供方法。
　コンピュータに、
　再生対象音を表す音響信号と当該再生対象音の識別情報を含む変調信号とを含有する音響信号に応じて放音された音響を収音して収音信号を生成する収音処理と、
　前記収音処理で生成した収音信号から識別情報を抽出する情報抽出処理と、
　前記情報抽出処理で抽出した識別情報を含む情報要求を情報提供手段に送信する送信処理と、
　前記情報要求に含まれる識別情報に対応するとともに前記再生対象音に関連する複数の関連情報の何れかを前記情報提供手段から受信する受信処理と、
　前記受信処理で受信した関連情報を出力する出力処理と
　を実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
　前記情報要求は、当該端末装置にて指定された言語を示す言語情報を含み、
　前記受信処理は、前記情報要求の識別情報に対応するとともに相異なる複数の言語に対応する複数の関連情報のうち前記情報要求の言語情報で指定された言語に対応する関連情報を受信する
　請求項１６のコンピュータ読み取り可能な記録媒体。