WO2020080204A1

WO2020080204A1 - 音響コンテンツ生成装置、音響コンテンツ生成方法、音響コンテンツ再生装置、音響コンテンツ再生方法、音響コンテンツ再生用プログラム、音響コンテンツ提供装置および音響コンテンツ配信システム

Info

Publication number: WO2020080204A1
Application number: PCT/JP2019/039723
Authority: WO
Inventors: 理絵子鈴木; 靖佐藤
Original assignee: 株式会社ティーオースウィング
Priority date: 2018-10-19
Filing date: 2019-10-08
Publication date: 2020-04-23

Abstract

振動情報と、当該振動情報に対応する周波数帯域の音声情報との少なくとも一方に対し、加工後における振動情報に基づく音声が音声情報に基づく音声によってマスキングされるように加工を行う加工部１３と、加工された音声情報と振動情報とをミキシングするミキシング部１４とを備え、音声情報および振動情報を含む音響コンテンツであって、振動音が音声によってマスキングされるように加工された音響コンテンツを生成することにより、振動情報が厳然として存在しながらも、その振動情報がスピーカに供給されることによって音声となって現れたとしても、振動情報に基づき発生する音声がマスキング効果によってユーザに聴取し難いものとなるようにする。

Description

音響コンテンツ生成装置、音響コンテンツ生成方法、音響コンテンツ再生装置、音響コンテンツ再生方法、音響コンテンツ再生用プログラム、音響コンテンツ提供装置および音響コンテンツ配信システム

　本発明は、音響コンテンツ生成装置、音響コンテンツ生成方法、音響コンテンツ再生装置、音響コンテンツ再生方法、音響コンテンツ再生用プログラム、音響コンテンツ提供装置および音響コンテンツ配信システムに関し、特に、音声情報と振動情報とを含む音響コンテンツの生成、再生、提供および配信に関するものである。

　従来、人間が有する五感のうち、視覚を利用した映像コンテンツや、聴覚を利用した音声コンテンツが様々な産業分野において広く提供されている。また、視覚（映像）および／または聴覚（音声）に触覚（振動）を第３の感覚として用いたコンテンツを提供することで、ユーザに対して何らかのメッセージを伝えたり、映像または音声に関するリアリティや臨場感を高めたりすることができるようにした技術も広く提供されている（例えば、特許文献１～３参照）。

　特許文献１には、取得した映像コンテンツに対応させて触覚情報を含む感覚情報をユーザに提示する感覚提示装置が開示されている。この感覚提示装置では、番組コンテンツを視聴するユーザの状態に基づいて、番組コンテンツに含まれる各被写体の中から所定の被写体を選択し、選択した被写体に対応する映像情報と音声情報と振動情報とを記憶部から取得して合成し、合成された情報をユーザに提示するように構成されている。ここで、映像情報はモニタやディスプレイ等の画面に表示され、音声情報はスピーカやイヤホン等から出力され、振動情報はボイスコイルモータや偏心モータ、リニア共振アクチュエータ等に出力される。

　この特許文献１には、テニスの試合中継の番組コンテンツ（マルチモーダルコンテンツ）が具体例として説明されている。すなわち、番組コンテンツを制作するときに、選手のラケットに設けられた振動センサ、選手の靴に設けられた振動センサ、観客席に設けられた振動センサ、ボール内に設けられた振動センサ、ネットに設けられた振動センサなどを用いて振動情報を取得し、各被写体（人物やボール、ラケット、ネット等）と振動情報とを関連付けて記憶部に記憶する。そして、このように制作された番組コンテンツをユーザが視聴しているときに、カメラによる撮影画像からユーザの状態（視線）を検出して、注視している被写体に関連付けられた振動情報を提示する。

　特許文献２には、音楽の再生音に合わせて振動を発生させることができる振動発生装置が開示されている。この特許文献２に記載の振動発生装置では、複数の楽器の音が混在したアナログの音楽情報から、ベースの再生音の音域に対応する音データと、ドラムの再生音の音域に対応する音データとをバンドパスフィルターによって抽出し、ベース音の音データが所定のレベル以上となるデータ区間の期間内に低域の周波数の駆動パルスを発生させる一方、ドラム音の音データが所定のレベル以上となるデータ区間の期間内に高域の周波数の駆動パルスを発生させることにより、音楽の再生音に合わせて振動を発生するようにしている。ここで、音楽情報はスピーカまたはイヤホンのいずれかから再生され、振動情報は振動機構部の振動体に供給される。

　特許文献３には、音楽再生の邪魔になったり、音楽再生を中断させたりすることなく、必要な情報を振動によってユーザに伝達できるようにした携帯機器の情報伝達システムが開示されている。この特許文献３に記載の情報伝達システムでは、ユーザが耳に装着する振動子付きイヤホンと、携帯情報端末と振動子付きイヤホンとの間に設けられた振動駆動装置とを備え、音楽の音声信号と振動信号とを合成した音声振動合成信号を携帯情報端末から出力する。振動駆動装置では、音声信号と振動信号とを周波数分離し、音声信号を振動子付きイヤホンのスピーカに供給する一方、振動信号（例えば、ジョギングやサイクリング、ウォーキングといった運動のペース配分を知らせる情報）を振動子付きイヤホンの振動子に供給する。振動子の振動は、音としては出力されないので、音楽再生の邪魔にならないとされている。

　以上のように、音声情報と振動情報とを同時に出力することに関する技術が種々提供されているが、それらは何れも、音声情報が主コンテンツであり、振動情報はあくまでも補助的かつ、適宜のタイミングで発生する断続的なものである。そして、何れの技術においても、音声はスピーカやイヤホンから出力され、振動はそれとは別の振動発生体から出力されるようになっている。特に、音声情報が音楽などの場合、振動は音楽再生の邪魔（ノイズ）になるものと考えられており、いかに音楽再生の邪魔とならないように振動を付与するかが課題とされて、その課題を解決するための工夫を凝らしているものが殆どである。

　例えば、特許文献４には、音声波形の周波数帯域のうち、振動波形の周波数帯域を抑制することによってビビリ現象（スピーカから出力された音声によって筐体が共振する現象で、異音あるいは音の歪み等が発生して音質を損なう一因となる）の発生を防ぐことが開示されている。この特許文献４に記載の技術はまさに、音楽再生において振動は異音の発生につながる邪魔なものという前提のもと、振動に起因するビビリ現象をいかに抑制するかを課題としたものと言える。ただし、この特許文献４に記載の技術では、ビビリ現象による異音の発生は抑制できるものの、音声波形の周波数帯域の一部を抑制する処理を行っているので、再生音声自体に音質の劣化が生じるという問題がある。

　なお、特許文献５には、高音の音声と低音の振動とを出力することにより、臨場感のある快適な音声信号を再生することができるようにした音声再生装置（携帯型の音声再生プレーヤ）が開示されている。この特許文献５に記載の音声再生装置において、体感モードが選択されたときには、ＤＳＰ（Digital Signal Processor）では、入力されたＬｃｈ信号およびＲｃｈ信号を加算器により加算し、ローパスフィルタにより音声信号に含まれる低周波成分を取り出してＭＢＳ（Mobile Body Sonic）信号を生成する。

　この特許文献５に記載の音声再生装置は、そのジャックにヘッドホンのプラグを接続して使用される。ヘッドホンのプラグは、Ｌｃｈ信号を入力するＬｃｈ接続端子部と、Ｒｃｈ信号を入力するＬｃｈ接続端子部と、ＭＢＳ信号を入力するＭＢＳ接続端子部と、ＧＮＤ信号を入力するＧＮＤ接続端子部とを有する４端子構造の接続端子である。音声再生装置のＬ－ＲアンプおよびＭＢＳアンプからヘッドホンのプラグに入力されたＬｃｈ信号、Ｒｃｈ信号およびＭＢＳ信号は、それぞれＬｃｈスピーカ、Ｒｃｈスピーカおよびトランスデューサに出力される。そして、ＭＢＳ信号は、ユーザの衣服などに取り付けられたトランスデューサによって機械的振動に変換される。

　この特許文献５に記載の技術では、音楽再生中の音声信号から低周波の振動信号（ＭＢＳ信号）が生成され、音声と共に振動が連続的に出力される。この点において、特許文献５に記載の技術は特許文献１～３に記載の技術とは異なる。ただし、音声がスピーカから出力される一方で、振動が振動付与体から出力されるという点で、特許文献１～３，５は全て共通している。これは、音声と振動とは一緒に出力することができない（振動が音声の邪魔をする）という従来の技術常識に基づいたものであると考えられる。特に、特許文献５では、音声信号とＭＢＳ信号とを分離するために、４端子構造のプラグを備えたヘッドホンを使用するものとしており、市販品のヘッドホンを汎用的に使用できないという犠牲を払ってでも、音声と振動とを分離しようとする意図が伺われる。

特開２０１６－２１３６６７号公報特開２０１３－５６３０９号公報特開２０１１－１７１９５４号公報特開２０１５－４１８０３号公報特開２００６－３３５９１号公報

　上述したように、従来の各種電子機器では、スピーカやイヤホン、ヘッドホンなどの音声出力部から音楽等の音声を出力する際に、同時に出力される振動は音声の邪魔（ノイズ）になるものであるとの思考のもと、あくまでも振動は音声に対する補助的なものとして、音声出力部とは異なる振動付与体を通じて振動を呈示するように構成されてきた。そのため、例えば特許文献２，５のように、再生される音楽に合わせて、当該音楽の音声信号に基づいて生成された振動をユーザに呈示するとしても、ユーザが音声を感じる部分（耳）と振動を感じる部分（耳以外の身体の一部）とが異なっているため、音楽は音楽、振動は振動として別々に体感されるに過ぎないという問題があった。

　本発明は、このような問題を解決するために成されたものであり、ユーザが音声と振動とをより一体のものとして体感でき、振動が音声の邪魔をせず、むしろ振動が音声に対して直接的に相乗効果を与えるような、今までに全く存在しない画期的な音響コンテンツを提供することを目的とする。

　上記した課題を解決するために、本発明の音響コンテンツ生成装置では、音声情報と、当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報との少なくとも一方に対し、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように加工を行い、加工された音声情報と振動情報とをミキシングすることにより、音声情報および振動情報を含む音響コンテンツを生成するようにしている。

　上記のように構成した本発明によれば、音声情報および振動情報を含む音響コンテンツであって、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように加工された音響コンテンツを生成することができる。本発明により生成される音響コンテンツをスピーカやイヤホンまたはヘッドホン等の音声出力部に供給した場合、音声と振動とが同じ音声出力部から発生するので、これをユーザは一体のものとして体感することができる。しかも、音響コンテンツに含まれる振動情報が音声となって現れたとしても、同じ音響コンテンツに含まれる音声情報に基づき発生される音声よるマスキング効果によって、振動情報に基づき発生する音声はユーザに聴取し難いものとなっている。これにより、本発明によれば、ユーザが音声と振動とをより一体のものとして体感でき、振動が音声の邪魔をせず、むしろ振動が音声に対して直接的に相乗効果を与えるような、今までに全く存在しない画期的な音響コンテンツを提供することができる。

第１の実施形態による音響コンテンツ生成装置の機能構成例を示すブロック図である。音声情報および振動情報のそれぞれについて、周波数毎の音圧を表した周波数特性を示す図である。音声情報および振動情報の加工後の周波数特性を示す図である。音声情報の加工に関する変形例を示す図である。振動情報の加工に関する変形例を示す図である。音声情報の波形情報および振動情報の波形情報の一例を示す図である。図６に示す波形情報に対して音声情報および振動情報の双方を加工した結果の波形情報を示す図である。第１の実施形態による音響コンテンツ生成装置の動作例を示すフローチャートである。本発明の一実施形態に係る音響コンテンツ再生装置の機能構成例を示すブロック図である。第２の実施形態による音響コンテンツ生成装置の機能構成例を示すブロック図である。第２の実施形態による振動情報加工部の具体的な機能構成を示すブロック図である。第２の実施形態による特徴抽出部および重み情報生成部の処理内容を説明するための図である。第２の実施形態による重み加工部により加工された振動情報の波形情報を音声情報の波形情報と共に示す図である。第２の実施形態による振動情報加工部の変形例を示すブロック図である。振動情報の加工に関する変形例を示す図である。

（第１の実施形態）
　以下、本発明の第１の実施形態を図面に基づいて説明する。図１は、第１の実施形態による音響コンテンツ生成装置の機能構成例を示すブロック図である。図１に示すように、第１の実施形態による音響コンテンツ生成装置１０は、その機能構成として、音声情報取得部１１、振動情報取得部１２、加工部１３およびミキシング部１４を備えている。加工部１３には音声情報加工部１３Ａと振動情報加工部１３Ｂとが含まれる。

　上記各機能ブロック１１～１４は、ハードウェア、ＤＳＰ（Digital Signal Processor）、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック１１～１４は、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。

　音声情報取得部１１は、音声情報を取得する。ここで取得する音声情報は、例えば音楽、発話、効果音、アラーム音などに関するものである。なお、ここに挙げたものは一例であり、スピーカやイヤホン、またはヘッドホン等の音声出力部から音声が出力される情報であれば何れも用いることが可能である。以下では、音楽の音声情報を用いる場合を例にとって説明する。

　例えば、音声情報取得部１１は、ユーザによる所定の選択操作に応じて、ユーザが所望する音声情報、すなわち、振動情報と一緒にして音響コンテンツを生成したいと考える所望の音声情報を取得する。例えば、音声情報が記憶された外部装置（例えば、パーソナルコンピュータ、サーバ、スマートフォン等の携帯端末、リムーバル記憶媒体など）を音響コンテンツ生成装置１０に接続し、音声情報取得部１１は、ユーザ操作により選択された音声情報を外部装置から取得する。なお、音響コンテンツ生成装置１０が音声情報を内部の記憶媒体に記憶していて、音声情報取得部１１は、ユーザ操作により選択された音声情報を内部の記憶媒体から取得するようにしてもよい。

　音声情報取得部１１により取得された音声情報は、音響コンテンツ生成装置１０にあらかじめ用意されている複数のトラックのうち何れか１つまたは複数に記録される。音声情報が音楽の場合、その音声情報の中には、複数の楽器の音声、ボーカルの音声、コーラスの音声といった様々なパートの音声情報が含まれている。これらの各パートの音声情報は、異なる周波数帯域に属している。音響コンテンツ生成装置１０は、いくつかの周波数帯域毎に音声情報を複数のトラックに分けて記録することが可能である。もちろん、全ての周波数帯域をまとめて１つの音声情報として１つのトラックに記録することも可能である。また、パート毎の音声情報を複数のトラックに分けて記録することも可能である。なお、音声情報が２チャンネルから成るステレオ音声の場合、Ｌチャンネルの音声情報とＲチャンネルの音声情報とを２つのトラックに分けて記録することも可能であるし、さらに各チャンネルの音声情報を上述のように複数のトラックに分けて記録することも可能である。

　振動情報取得部１２は、音声情報取得部１１により取得される音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報を取得する。振動情報が有する周波数帯域は、２０～２０ｋＨｚの可聴周波数帯域の中でも比較的低い周波数帯域、例えば１００Ｈｚ以下の周波数帯域とするのが好ましい。具体的には、２０～８０Ｈｚ、好ましくは３０～６０Ｈｚ、更に好ましくは３５～５０Ｈｚ程度の周波数帯域から成る振動情報を用いるのがよい。

　これから詳しく説明するように、第１の実施形態では、音声情報取得部１１により取得された音声情報と、振動情報取得部１２により取得された振動情報とを含む音響コンテンツを生成する。この音響コンテンツをスピーカ等の音声出力部に供給すると、音声情報からだけでなく、振動情報からも音声が発生することになる。後述するように、この振動情報に基づき発生する音声は、音声情報に基づき発生する音声によってマスキングされてユーザには聴取され難くなるようにすることができるが、元々人間の耳に聴取されにくい低周波帯域の振動情報を用いることにより、マスキングの効果をより大きくすることが可能である。

　単純に、２０Ｈｚ以下の非可聴周波数帯域の振動情報を用いれば、その振動情報に基づいて仮に音声が発生しても、ユーザには聞こえない。しかし、周波数が低くなるほど振動波のエネルギーが小さくなるため、振動をユーザに伝えることも難しくなる。そこで、本実施形態では、ユーザに振動を伝えるのに十分なエネルギーを持った周波数帯域で、かつ、マスキングの効果を得やすい周波数帯域の振動情報を用いて音響コンテンツを生成するようにしている。

　なお、上述の周波数帯域は、マスキング効果が得られやすい周波数帯域を例示したものであり、これに限定されるものではない。使用する音声情報との組み合わせでマスキング効果が得られる場合には、上述した周波数帯域以外の振動情報を用いてもよい。

　ここで、振動情報取得部１２は、ユーザによる所定の選択操作に応じて、ユーザが所望する振動情報、すなわち、音声情報と一緒にして音響コンテンツを生成したいと考える所望の振動情報を取得する。例えば、振動情報が記憶された外部装置を音響コンテンツ生成装置１０に接続し、振動情報取得部１２は、ユーザ操作により選択された振動情報を外部装置から取得する。なお、音響コンテンツ生成装置１０が振動情報を内部の記憶媒体に記憶していて、振動情報取得部１２は、ユーザ操作により選択された振動情報を内部の記憶媒体から取得するようにしてもよい。

　ユーザが所望する振動情報は、例えば、本出願の発明者が開発した情報伝達メディアとして使用可能な振動情報である（例えば、ＷＯ２０１８／２１１７６７号公報の記載を参照）。すなわち、本実施形態において用いる振動情報の一例は、振動波形の強度および分割区間の長さに基づいて特定される触質特徴量に由来する固有の触覚効果を持った振動情報である。例えば、触感のリズムが早いもの（または遅いもの）、触感の多様度が大きいもの（または小さいもの）といった異なる性質を有する多様な振動情報をあらかじめ用意しておき、その中からユーザが所望の振動情報を選択して用いるようにすることが可能である。

　また、振動を受けるユーザに与えられることが期待される振動効果として、身体的効果または心理的効果が異なる多様な振動情報をあらかじめ用意しておき、その中からユーザが所望の振動情報を選択して用いるようにすることも可能である。振動情報がどのような身体的効果または心理的効果を奏するかは、触質特徴量を決定する触質パラメータ（振動波形の強度、分割区間の長さ）の組み合わせに応じて定まる。

　触質パラメータとして用いる振動波形の強度と分割区間の長さは、＜硬い－柔らかい＞、＜粗い－滑らか＞のように対立する触質（以下、触質対という）の程度を表すパラメータといえる。例えば、＜硬い－柔らかい＞という触質対に関する触質パラメータとして、振動波形の強度を用いることが可能であり、この場合、強度が大きいほど硬いことを表し、強度が小さいほど柔らかいことを表す。また、＜粗い－滑らか＞という触質対に関する触質パラメータとして、振動波形の分割区間の長さを用いることが可能であり、この場合、分割区間が長いほど滑らかであることを表し、分割区間が短いほど粗いことを表す。

　この他、＜大きい－小さい＞、＜鋭い－鈍い＞、＜重い－軽い＞、＜ざらざら－つるつる＞、＜揺らぎのある－安定した＞、＜消えるような－残るような＞などの様々な触質対に基づいて２つの触質パラメータ（振動波形の強度、分割区間の長さ）を任意に用いることが可能である。

　このような触質パラメータによって特徴付けられる振動情報を生成することにより、任意の身体的効果または心理的効果を有する振動情報を得ることが可能である。例えば、「ふわふわ」した触感を与える身体的効果を有する振動情報、「さらさら」した触感を与える身体的効果を有する振動情報、「安心」や「リラックス」等の心理的効果を有する振動情報、「興奮」や「モチベーションアップ」等の心理的効果を有する振動情報などの多様な振動情報をあらかじめ用意しておき、その中からユーザが所望の振動情報を選択して用いるようにすることが可能である。

　振動情報取得部１２により取得された振動情報は、音響コンテンツ生成装置１０にあらかじめ用意されている複数のトラックのうち何れか１つまたは複数に記録される。振動情報が記録されるトラックは、音声情報が記録されるトラックとは異なるトラックである。基本的に、振動情報取得部１２により取得された振動情報は１つのトラックに記録すればよいが、振動情報のカバーする周波数帯域が比較的広い場合は、１つの振動情報を周波数分離して複数のトラックに分けて記録するようにしてもよい。

　なお、一般的に、多くの人間にとって耳障りあるいは不快と言われている音が存在する。そのような不快な音の周波数帯域（例えば、２ｋ～４ｋＨｚ）を部分的に加工しやすくするために、当該不快な音の周波数帯域の振動情報を分離して１つのトラックに記録するようにしてもよい。以下に述べる加工部１３による音声情報および振動情報に対する加工は、トラックごとに行うことが可能である。

　加工部１３は、音声情報取得部１１により取得された音声情報と、振動情報取得部１２により取得された振動情報との少なくとも一方を加工する。ここで、音声情報加工部１３Ａは、音声情報取得部１１により取得された音声情報を加工する。振動情報加工部１３Ｂは、振動情報取得部１２により取得された振動情報を加工する。加工の具体的内容については後述するが、加工部１３は、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように、音声情報の加工および振動情報の加工の少なくとも一方を行う。

　マスキングとは、２つの音が重なったときに、一方の音にもう一方の音がかき消されて聞こえなくなる現象をいう。すなわち、マスキングとは、物理的には存在する音なのに、人には知覚することのできない現象と言える。加工部１３は、加工された（または加工されていない）振動情報を音声出力部に供給した場合に発生する音声が、加工された（または加工されていない）音声情報を音声出力部に供給した場合に発生する音声によってマスキングされるような態様で、音声情報および振動情報の少なくとも一方を加工する。

　ミキシング部１４は、加工部１３により加工された音声情報と振動情報とをミキシングすることにより、音声情報および振動情報を含む音響コンテンツを生成する。すなわち、ミキシング部１４は、１つまたは複数のトラックに記録された音声情報（音声情報加工部１３Ａにより必要に応じて加工されたもの）と、音声情報のトラックとは別の１つまたは複数のトラックに記録された振動情報（振動情報加工部１３Ｂにより必要に応じて加工されたもの）とをミキシングすることにより、１つの音響コンテンツを生成する。

　ミキシング部１４により生成される音響コンテンツは、１つまたは複数のトラック（チャンネル）の情報として記録される。例えば、モノラルの音響コンテンツを生成する場合、ミキシング部１４は、複数のトラックに記録された音声情報および振動情報を１つのトラックにトラック・ダウンする処理を行うことにより、１チャンネルから成るモノラルの音響コンテンツを生成する。この１チャンネルの音響コンテンツには、音声情報と振動情報とが含まれる。

　また、ステレオの音響コンテンツを生成する場合、ミキシング部１４は、複数のトラックに記録された音声情報および振動情報を２つのトラックにトラック・ダウンする処理を行うことにより、２チャンネルから成るステレオの音響コンテンツを生成する。ここで、第１チャンネルにはＬチャンネルの音声情報と振動情報とが含まれる。また、第２チャンネルにはＲチャンネルの音声情報と振動情報とが含まれる。２つのチャンネルにそれぞれ含まれる振動情報は、同じものであってもよいし、異なるものであってもよい。Ｌチャンネル用およびＲチャンネル用に異なる振動情報を用いる場合は、各チャンネル用の振動情報を振動情報加工部１３Ｂによる加工によって生成する。

　次に、加工部１３の具体的な処理内容について説明する。加工部１３は、振動情報取得部１２により取得された振動情報の振動圧力または振動量が、音声情報取得部１１により取得された音声情報の周波数帯域のうち、振動情報の周波数帯域と同等の周波数帯域における音圧または音量よりも小さくなるように、音声情報の加工および振動情報の加工の少なくとも一方を行う。ここで、振動情報は、音声出力部に供給された場合には音声となって現れることから、振動情報の振動圧力または振動量は、振動情報の音圧または音量と言い換えることが可能である。以下では、説明の便宜上、振動情報についても音圧または音量という用語を用いるものとする。

　なお、音圧は、音の圧力のことであり、人間の聴覚特性に合わせ、基準となる値に対して音がどれだけ大きいかをデシベル[ｄＢ]によって表現される音圧レベルを用いて表したものである。一方、音量は、いわゆるボリュームで設定される音の大きさのことをいう。どちらも音の強さを表すものとしてほぼ等価なものであり、以下では「音圧」を用いて説明する。

　図２は、音声情報および振動情報のそれぞれについて、周波数毎の音圧を表した周波数－音圧特性（以下、単に周波数特性という）を示す図である。図２（ａ）が音声情報の周波数特性、図２（ｂ）が振動情報の周波数特性である。図２に示す周波数特性は、時系列的な音声情報および振動情報の一時点における周波数特性を示したものであるとする。なお、ここでは便宜上、周波数特性を包絡形状として模式的に示している。図２において、横軸は周波数、縦軸は音圧である。

　図２（ｂ）に示すように、振動情報の全周波数帯域の中で音圧の最大値はＶＰである。一方、図２（ａ）に示す音声情報の全周波数帯域のうち、振動情報の周波数帯域と同等の周波数帯域における音圧の最小値はＭＰである。ここで、ＭＰ＜ＶＰであるものとする。加工部１３は、例えば、この振動情報の最大音圧ＶＰが、当該振動情報の周波数帯域と同等の周波数帯域（以下、特定周波数帯域という）における音声情報の最小音圧ＭＰよりも小さくなるように、音声情報および振動情報の少なくとも一方に対して加工を行う。

　ここで、加工後における音声情報の最小音圧をＭＰ’、加工後における振動情報の最大音圧をＶＰ’とした場合、ＭＰ’＞ＶＰ’となるようにするための加工の方法は、３パターンある。第１のパターンは、振動情報は加工せず、音声情報を加工して最小音圧ＭＰを引き上げるという方法である（ＶＰ’＝ＶＰ、ＭＰ’＞ＭＰ）。第２のパターンは、音声情報は加工せず、振動情報を加工して最大音圧ＶＰを引き下げるという方法である（ＶＰ’＜ＶＰ、ＭＰ’＝ＭＰ）。第３のパターンは、音声情報を加工して最小音圧ＭＰを引き上げるとともに、振動情報を加工して最大音圧ＶＰを引き下げるという方法である（ＶＰ’＜ＶＰ、ＭＰ’＞ＭＰ）。本実施形態では、第１～第３のパターンの何れを適用してもよい。

　図３は、第３のパターンを適用して音声情報および振動情報の双方を加工することにより、加工後の振動情報の最大音圧ＶＰ’が、加工後の音声情報の特定周波数帯域における最小音圧ＭＰ’よりも小さくなるようにした結果の周波数特性を示す図である。振動情報加工部１３Ｂは、図３（ｂ）に示すように、振動情報の周波数帯域の全体を加工することにより、加工前の最大音圧ＶＰを加工後の最大音圧ＶＰ’に引き下げている。一方、音声情報加工部１３Ａは、図３（ａ）に示すように、音声情報の特定周波数帯域のみを加工し、当該特定周波数帯域における加工前の最小音圧ＭＰを加工後の最小音圧ＭＰ’に引き上げている。これにより、ＭＰ’＞ＶＰ’となるようにしている。ＭＰ’＞ＶＰ’となる関係は、特許請求の範囲における「所定の関係」の一態様である。

　なお、振動情報に関しては全周波数帯域が１つのトラックに記録されるのに対し、音声情報に関しては複数の周波数帯域毎に複数のトラックに分けて記録され得る。この場合、振動情報の周波数帯域と完全に一致する周波数帯域の音声情報が何れか１つのトラックに記録されているとは限らない。この場合、音声情報加工部１３Ａは、例えば、振動情報の周波数帯域に最も近い周波数帯域が記録されたトラックの音声情報を加工する。あるいは、振動情報の周波数帯域が音声情報の複数のトラックにまたがって存在する場合に、その複数のトラックの音声情報を加工するようにしてもよい。このように、振動情報の周波数帯域と完全に一致しないものの、振動情報の周波数帯域を含む音声情報の周波数帯域も「振動情報の周波数帯域と同等の周波数帯域」である。

　図３（ａ）のように、音声情報について特定周波数帯域のみを加工の対象とする場合、加工の第１のパターンでは、ＭＰ’＞ＶＰ’となるようにするために、音声情報における特定周波数帯域の音圧を比較的大きな変化量をもって上げなければならない場合が起こり得る。この場合、加工前後で音声情報の音質の違いがユーザに聴取されるほどに音質が変わってしまう可能性がある。一方、第２のパターンは、音声情報を加工しないので音質に変化はないが、ＭＰ’＞ＶＰ’となるようにするために、振動情報の音圧を比較的大きな変化量をもって下げなければならない場合が起こり得る。この場合、振動がユーザに与える体感の大きさが小さくなってしまう可能性がある。これに対し、第３のパターンであれば、音声情報の変化量も振動情報の変化量も必要最小限に抑えることができるというメリットがある。実際には、どの程度の音圧の変化量が必要となるかや、音質または振動をどの程度重視するかなどに応じて、第１～第３のパターンの何れかを適宜適用すればよい。

　ここでは、振動情報の音圧が音声情報の特定周波数帯域における音圧よりも小さくなるようにするために、図３（ａ）のように音声情報加工部１３Ａが音声情報の特定周波数帯域を加工する例を示したが、本発明はこれに限定されない。例えば、図４に示すように、音声情報加工部１３Ａは、音声情報の周波数帯域の全体を加工するようにしてもよい。

　また、ここでは、振動情報の音圧が音声情報の特定周波数帯域における音圧よりも小さくなるようにするために、図３（ｂ）のように振動情報加工部１３Ｂが振動情報の周波数帯域の全体を加工する例を示したが、本発明はこれに限定されない。例えば、振動情報も複数のトラックに分けて記録されている場合には、振動情報加工部１３Ｂは、図５に示すように、振動情報の周波数帯域のうち、所定の周波数よりも大きい周波数帯域を加工するようにしてもよい。

　一般的に、マスキングされる音声の周波数が低くなるほど、マスキング効果が高くなることが知られている。そのため、振動情報の周波数帯域の中でも特に低周波領域の振動情報については音圧を下げなくても、当該低周波領域の振動情報から発生する低周波の音声が、音声情報に基づき発生する音声によって有効にマスキングされる可能性がある。そこで、振動情報も複数のトラックに分けて記録されている場合には、周波数が高い方の周波数帯域の振動情報のみを対象として音圧を下げる加工を行うようにしてもよい。このようにすれば、振動情報の全体的な音圧を極力下げることなく、振動情報に基づく音声がマスキング効果によってユーザに知覚されないようにすることができる。

　なお、ここでは、音声情報の最小音圧ＭＰ’が振動情報の最大音圧ＶＰ’よりも小さくなるように加工する例を示したが、本発明はこれに限定されない。例えば、音声情報の最小音圧に代えて、音声情報の最大音圧を用いるようにしてもよい。あるいは、音声情報の最小音圧に代えて、音声情報の最小音圧と最大音圧との中間値を用いるようにしてもよい。ただし、音声情報の最小音圧を用いた場合は、振動情報が有する周波数帯域の全体において、振動情報の音圧が音声情報の音圧よりも小さくなるので、マスキング効果を得やすくなるというメリットを有する。

　また、ここでは説明の便宜上、時系列的な音声情報および振動情報の一時点における周波数特性を示して音圧の加工内容を説明したが、他の時点における周波数特性は異なるものとなる。この場合、音声情報および振動情報の開始時点から終了時点までの各時点毎に（所定のサンプリング周期で）、音声情報の特定周波数帯域における最小音圧と振動情報の最大音圧との関係を踏まえて個別の加工を行うようにしてもよいが、これでは処理が煩雑となる。そこで、例えば、音声情報について開始時点から終了時点までの特定周波数帯域における最小音圧（または、最大音圧や中間値でもよい）を求めるとともに、振動情報についても開始時点から終了時点までの最大音圧を求め、このようにして求めた音声情報の最小音圧と振動情報の最大音圧との関係を踏まえて、開始時点から終了時点まで一律の加工を行うようにしてもよい。

　図６は、特定振動情報における音声情報の時系列的な波形情報（図６（ａ））と、振動情報の時系列的な波形情報（図６（ｂ））とを示す図である。ここでは、音声情報および波形情報の両方とも、全体の中の一部を示している。図６において、横軸は時間、縦軸は振幅である。

　図６に示す波形情報は、音響コンテンツ生成装置１０が備える操作子（図示せず）を用いてユーザがトラックを指定する操作を行うことにより、音響コンテンツ生成装置１０が備えるディスプレイ（図示せず）に表示させることが可能である。すなわち、図６（ａ）は、特定周波数帯域における音声情報が記録されているトラックを指定したときに表示される波形情報であり、図６（ｂ）は、振動情報が記録されているトラックを指定したときに表示される波形情報である。

　ここで、時系列的な波形情報の振幅は、各時点における音の大きさ、つまり音圧を実質的に示していると言える。したがって、図６に示す波形情報を画面に表示させることにより、指定したトラックの周波数帯域における音声情報および振動情報について、各時点における音圧の変化を確認することが可能である。ユーザは、この波形情報を目視しながら、音響コンテンツ生成装置１０が備える操作子を操作することにより、音声情報の音圧および振動情報の音圧の少なくとも一方を加工することが可能である。

　例えば、図６（ａ）に示す波形情報を確認することにより、特定周波数帯域の音声情報について開始時点から終了時点までの最小音圧を把握することができる。ここで、音声情報の波形は、音が発生した時点で振幅が大きくなり、時間の経過と共に振幅が徐々に減衰していく。複数の音が時系列的に発生すると、音が発生する毎に振幅が大きくなっては減衰することを繰り返す。図６（ａ）の波形情報はそのような状態を示している。この場合において、音声情報の開始時点から終了時点までの最小音圧は、例えば、繰り返し発生する音に関して音が発生した時点における振幅のうち最小値と定義することが可能である。図６（ａ）に示す波形情報の場合、ＭＰ_minがその最小音圧となる。

　図６（ｂ）に示す振動情報についても同様に、画面に表示された波形情報を確認することにより、振動情報について開始時点から終了時点までの最大音圧を把握することができる。図６（ｂ）の波形情報は、振幅があまり大きく変化しない振動が連続的に与えられ続けることを示している。この場合において、振動情報の開始時点から終了時点までの最大音圧はＶＰ_maxなる。

　ユーザは、音響コンテンツ生成装置１０が備える操作子を操作して、図６（ａ）に示す音声情報の音圧および図６（ｂ）に示す振動情報の音圧の少なくとも一方を加工することにより、振動情報の最大音圧ＶＰ_maxが音声情報の特定周波数帯域における最小音圧ＭＰ_minより小さくなるようにする。なお、このように加工した場合、ある音が発生してから次の音が発生するまでの間に音声情報の振幅が徐々に減衰していく期間において、振動情報の振幅が音声情報の振幅よりも大きくなることがある。

　そこで、振動情報については、開始時点から終了時点までの全期間において一律に同じ圧縮率で音圧を下げるのではなく、複数に分割した区間ごとに異なる圧縮率で音圧を調整するようにしてもよい。あるいは、基本的には開始時点から終了時点までの全期間において一律に同じ圧縮率で音圧を下げることとし、特定の区間のみ例外的に異なる圧縮率で音圧を下げるようにしてもよい。なお、音声情報についても同様に区間ごとに音圧を調整するようにしてもよいが、区間ごとに音圧の調整率を大きく変えすぎると音質に影響を与える可能性があるので、区間ごとの音圧の調整率は大きく変えないようにするのが好ましい。

　図７は、図６に示す波形情報に対して、音声情報および振動情報の双方を加工することにより、加工後の振動情報の最大音圧ＶＰ_max’が、加工後の音声情報の特定周波数帯域における最小音圧ＭＰ_min’より小さくなるようにした結果の波形情報を示す図である。すなわち、振動情報加工部１３Ｂは、図６（ｂ）に示すように、振動情報の開始時点から終了時点までの全期間において一律に同じ圧縮率で音圧を引き下げることにより、加工前の最大音圧ＶＰ_maxを加工後の最大音圧ＶＰ_max’に引き下げている。一方、音声情報加工部１３Ａは、図６（ａ）に示すように、音声情報の開始時点から終了時点までの全期間において一律に同じ上昇率で音圧を引き上げることにより、加工前の最小音圧ＭＰ_minを加工後の最小音圧ＭＰ_min’に引き上げている。これにより、ＭＰ_min’＞ＶＰ_max’となるようにしている。

　なお、図７では、振動情報の最大音圧ＶＰ_maxが音声情報の最小音圧ＭＰ_minよりも小さくなるように音声情報および振動情報の少なくとも一方を加工する例について説明したが、上述したように、音声情報の最小音圧ＭＰ_minに代えて、音声情報の最大音圧を用いるようにしてもよいし、音声情報の最小音圧と最大音圧との中間値を用いるようにしてもよい。

　また、上記実施形態では、ユーザが音響コンテンツ生成装置１０の操作子を操作することによって音声情報および振動情報の波形情報を画面上に表示させ、この波形情報をユーザが目視しながら音響コンテンツ生成装置１０の操作子を操作することによって音声情報および振動情報の少なくとも一方に関する音圧を調整する例について説明したが、これを音響コンテンツ生成装置１０の処理として自動的に行うようにしてもよい。

　すなわち、音声情報加工部１３Ａは、特定周波数帯域における音声情報について、開始時点から終了時点までの最小音圧をＭＰ_minを検出する。一方、振動情報加工部１３Ｂは、振動情報の開始時点から終了時点までの最大音圧ＶＰ_maxを検出する。そして、加工部１３は、ＭＰ_min＜ＶＰ_maxとなっているか否かを判定し、ＭＰ_min＜ＶＰ_maxとなっている場合に、音声情報加工部１３Ａが音声情報の音圧を引き上げるとともに、振動情報加工部１３Ｂが振動情報の音圧を引き下げることにより、調整後の音圧がＭＰ_min’＞ＶＰ_max’となるようにする。例えば、音声情報の音圧の上昇と振動情報の音圧の下降とをステップ処理として段階的に行っていき、ＭＰ_min’＞ＶＰ_max’となった時点でステップ処理を終了するという方法で処理することが可能である。

　図８は、加工部１３における加工を自動的に行うようにした場合における音響コンテンツ生成装置１０の動作例を示すフローチャートである。図８において、まず、音声情報取得部１１は、音響コンテンツ生成装置１０の操作子を操作することによってユーザにより選択された音声情報を取得する（ステップＳ１）。また、振動情報取得部１２は、音響コンテンツ生成装置１０の操作子を操作することによってユーザにより選択された振動情報を取得する（ステップＳ２）。ここでは、振動情報取得部１２により取得された振動情報は１つのトラックに記録されるものとする。

　次いで、音声情報加工部１３Ａは、特定周波数帯域における音声情報について、開始時点から終了時点までの最小音圧をＭＰ_minを検出する（ステップＳ３）。また、振動情報加工部１３Ｂは、振動情報の開始時点から終了時点までの最大音圧ＶＰ_maxを検出する（ステップＳ４）。そして、加工部１３は、ＭＰ_min＜ＶＰ_maxとなっているか否かを判定する（ステップＳ５）。ＭＰ_min＜ＶＰ_maxとなっていなければ、図８に示すフローチャートの処理は終了する。

　一方、ＭＰ_min＜ＶＰ_maxとなっている場合、音声情報加工部１３Ａは、音声情報の音圧をｘ[ｄＢ]だけ引き上げる（ステップＳ６）。ここで、音圧を引き上げる量ｘは、あらかじめ任意の量として設定しておくことが可能である。すなわち、音声情報加工部１３Ａは、調整後の最小音圧ＭＰ_min’の値が（ＭＰ_min’＋ｘ）となるように、音声情報の音圧を引き上げる。

　また、振動情報加工部１３Ｂは、振動情報の音圧をｘ[ｄＢ]だけ引き下げる（ステップＳ７）。すなわち、振動情報加工部１３Ｂは、調整後の最大音圧ＶＰ_max’の値が（ＶＰ_max’－ｘ）となるように、振動情報の音圧を引き下げる。なお、ここでは音声情報の音圧の上昇量と振動情報の音圧の下降量とを同じｘ[ｄＢ]としているが、異なる量としてもよい。

　次に、加工部１３は、ステップＳ６，Ｓ７で調整した後の音声情報および振動情報の音圧が、ＭＰ_min’＞ＶＰ_max’となったか否かを判定する（ステップＳ８）。ＭＰ_min’＞ＶＰ_max’となっていない場合、処理はステップＳ６に戻り、音声情報および振動情報の音圧の調整を継続する。一方、ＭＰ_min’＞ＶＰ_max’となった場合は、音圧の調整が完了したことになるので、図８に示すフローチャートの処理は終了する。なお、ステップＳ８の判定において、所定量のマージンαを持たせて、ＭＰ_min’＞ＶＰ_max’＋αとなったか否かを判定するようにしてもよい。

　図９は、以上のように構成した音響コンテンツ生成装置１０により生成された音響コンテンツを再生する音響コンテンツ再生装置２０の機能構成例を示すブロック図である。音響コンテンツ再生装置２０としては、例えば、スマートフォン、携帯型音楽再生プレイヤ、パーソナルコンピュータなどを用いることが可能である。あるいは、音響コンテンツ再生装置２０は、任意の機器に組み込んだものであってもよい。

　図９に示すように、本実施形態の音響コンテンツ再生装置２０は、その機能構成として、音響コンテンツ取得部２１および音響コンテンツ供給部２２を備えている。これら各機能ブロック２１，２２は、ハードウェア、ＤＳＰ、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック２１，２２は、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。

　音響コンテンツ取得部２１は、図１に示した音響コンテンツ生成装置１０により生成された音響コンテンツを取得する。例えば、音響コンテンツ生成装置１０を音響コンテンツ再生装置２０に接続し、音響コンテンツ取得部２１は、ユーザ操作により選択された音響コンテンツを音響コンテンツ生成装置１０から取得する。なお、ここでは、音響コンテンツ生成装置１０により複数種類の音響コンテンツが生成されているとの前提である。

　あるいは、音響コンテンツ生成装置１０により生成された複数種類の音響コンテンツが記憶された外部装置を音響コンテンツ再生装置２０に接続し、音響コンテンツ取得部２１は、ユーザ操作により選択された音響コンテンツを外部装置から取得するようにしてもよい。この場合の外部装置は、音響コンテンツ再生装置２０に対して有線または無線で直接的に接続されたもの（例えば、パーソナルコンピュータ、スマートフォン等の携帯端末、リムーバル記憶媒体など）であってもよいし、音響コンテンツ再生装置２０に対して通信ネットワークを介して接続可能に構成されたサーバ装置であってもよい。サーバ装置を用いる場合、音響コンテンツ取得部２１は、サーバ装置から音響コンテンツをストリーミング的に取得して音響コンテンツ供給部２２に提供することが可能である。

　また、別の例として、音響コンテンツ生成装置１０により生成された複数種類の音響コンテンツを音響コンテンツ再生装置２０が内部の記憶媒体に記憶していて、音響コンテンツ取得部２１は、ユーザ操作により選択された音響コンテンツを内部の記憶媒体から取得するようにしてもよい。音響コンテンツ再生装置２０が内部の記憶媒体に音響コンテンツを記憶する形態として、音響コンテンツ再生装置２０に対して通信ネットワークを介して接続可能に構成されたサーバ装置から、音響コンテンツ取得部２１が音響コンテンツをダウンロードして内部の記憶媒体に記憶させるようにしてもよい。

　上記のように、サーバ装置が音響コンテンツ再生装置２０に対して音響コンテンツをダウンロード可能に構成した場合や、サーバ装置が音響コンテンツ再生装置２０に対して音響コンテンツをストリーミング配信可能に構成した場合、サーバ装置は特許請求の範囲の音響コンテンツ提供装置に相当する。すなわち、この場合のサーバ装置は、音響コンテンツ生成装置１０により生成された音響コンテンツを記憶し、音響コンテンツ再生装置２０からの要求に応じて音響コンテンツを音響コンテンツ再生装置２０に提供する。また、サーバ装置と音響コンテンツ再生装置２０とが通信ネットワークを介して接続可能に構成されたシステムによって、特許請求の範囲の音響コンテンツ配信システムが構成される。なお、サーバ装置が記憶する音響コンテンツは、第２の実施形態で説明する音響コンテンツ生成装置１０’により生成されるものであってもよい。

　音響コンテンツ供給部２２は、音響コンテンツ取得部２１により取得された音響コンテンツを、当該音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部１００に供給する。ここで、音声出力部１００は、据置型または携帯型のスピーカであってもよいし、イヤホンであってもよいし、ヘッドホンであってもよい。これらの音声出力部１００は、音響コンテンツ再生装置２０に対して有線または無線で接続される。また、音声出力部１００は、音響コンテンツ再生装置２０が内蔵しているスピーカであってもよい。

　なお、音響コンテンツ供給部２２は、音響コンテンツ取得部２１により取得された音響コンテンツの音声情報および振動情報に対して、Ｄ／Ａ変換、アンプを用いた増幅処理、波形整形処理などの一般的な音声信号処理を行った上で、信号処理後の情報を音声出力部１００に供給することを含んでもよい。

　このように、音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部１００に供給すると、音声出力部１００が有する振動板から、音声情報に基づく音声と振動情報に基づく音声とが発生することになる。ただし、振動情報に基づく音声が音声情報に基づく音声によってマスキングされるように音声情報の音圧と振動情報の音圧とが調整されているので、振動情報に基づく音声は、音声情報に基づく音声によってかき消され、ユーザの耳には聴取しにくいものとなっている。しかも、振動情報が存在しないわけではなく、厳然として存在する振動情報が音声出力部１００の振動板に伝わることにより、振動情報に固有の振動が発生する。これにより、音声情報に基づき発生する音楽の音声を、振動情報に基づき発生する音声によって邪魔されない状態で音質を保ったままユーザに伝えつつ、振動情報に基づく振動も同じ振動板からユーザに同時に伝えることが可能となる。

　以上詳しく説明したように、第１の実施形態では、音声情報と、当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報との少なくとも一方に対し、加工後における振動情報に基づく音声が音声情報に基づく音声によってマスキングされるように加工を行い、加工された音声情報と振動情報とをミキシングすることにより、音声情報および振動情報を含む音響コンテンツを生成するようにしている。そして、このようにして生成した音響コンテンツを、当該音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部に供給するようにしている。

　上記のように構成した第１の実施形態によれば、音声情報および振動情報を含む音響コンテンツであって、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように加工された音響コンテンツを生成することができる。第１の実施形態により生成される音響コンテンツを音声出力部１００に供給した場合、音声と振動とが同じ音声出力部１００から発生するので、これをユーザは一体のものとして体感することができる。しかも、音響コンテンツに含まれる振動情報が音声となって現れたとしても、同じ音響コンテンツに含まれる音声情報に基づき発生される音声よるマスキング効果によって、振動情報に基づき発生する音声はユーザに聴取し難いものとなっている。

　これにより、第１の実施形態によれば、ユーザが音声と振動とをより一体のものとして体感でき、振動が音声の邪魔をせず、むしろ振動が音声に対して直接的に相乗効果を与えるような、今までに全く存在しない画期的な音響コンテンツを提供することができる。特に、第１の実施形態によれば、振動情報に基づく振動が音声出力部とは異なる振動付与体から発生するように構成された従来技術とは異なり、同じ音声出力部１００の振動板から発生する振動が音声に対して直接的に相乗効果を与えることにより、音響的な奥行き感や厚み感、あるいは立体感などが増したような振動付き音声をユーザに提供することができる。また、上述したように所定の触覚効果を持った振動情報、所定の身体的効果または心理的効果を奏する振動情報を用いることにより、情報伝達メディアとして音声情報との相乗効果の発揮も期待できる。

（第２の実施形態）
　次に、本発明の第２の実施形態を図面に基づいて説明する。図１０は、第２の実施形態による音響コンテンツ生成装置１０’の機能構成例を示すブロック図である。なお、この図１０において、図１に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。

　図１０に示すように、第２の実施形態による音響コンテンツ生成装置１０’は、その機能構成として、加工部１３に代えて加工部１３’を備えている。特に、第２の実施形態では、振動情報加工部１３Ｂに代えて振動情報加工部１３Ｂ’を備え、振動情報の加工の仕方が第１の実施形態と異なっている。

　図１１は、振動情報加工部１３Ｂ’の具体的な機能構成例を示すブロック図である。図１１に示すように、振動情報加工部１３Ｂ’は、その機能構成として、特徴抽出部１３１、重み情報生成部１３２、重み加工部１３３および振動調整部１３４を備えている。

　特徴抽出部１３１は、音声情報取得部１１により取得された音声情報の周波数帯域のうち特定周波数帯域の波形情報において、他の箇所と区別し得る複数の特徴箇所を抽出する。例えば、特徴抽出部１３１は、音声情報の波形情報において、所定時間の間に振幅値が所定値以上大きくなる箇所を特徴箇所として抽出する。所定時間の間に振幅値が所定値以上大きくなる箇所は、典型的には、時系列な音声情報の開始時点から終了時点までの中で繰り返し発生する複数の音のそれぞれの発生時点である。

　重み情報生成部１３２は、特徴抽出部１３１により抽出された複数の特徴箇所に基づいて、特徴箇所間の時間区間において経時的に値が変化する重み情報を生成する。例えば、重み情報生成部１３２は、特徴抽出部１３１により抽出された複数の特徴箇所に基づいて、一の特徴箇所が抽出された時間から次の特徴箇所が抽出された時間まで値が経時的に徐々に小さくなる重み情報を生成する。

　図１２は、特徴抽出部１３１および重み情報生成部１３２の処理内容を説明するための図である。ここで、図１２（ａ）は、音声情報取得部１１により取得された音声情報の特定周波数帯域における波形情報の一部を示している。図１２（ｂ）は、振動情報取得部１２により取得された振動情報の波形情報に対し、重み情報生成部１３２により生成された重み情報を模式的に重ねて示した状態を示している。なお、図１２（ａ）に示す音声情報の波形情報は、図６（ａ）に示したものと同じである。

　特徴抽出部１３１は、図１２（ａ）に示す音声情報の波形情報において、所定時間（例えば、０．１秒）の間に振幅値が所定値以上大きくなる箇所を複数の特徴箇所Ｆ_１，Ｆ_２，Ｆ_３，・・・として抽出する。すなわち、特徴抽出部１３１は、音声情報の波形情報の振幅値が急激に大きくなる箇所を特徴箇所Ｆ_１，Ｆ_２，Ｆ_３，・・・として抽出する。これは、図６で説明したように、音が発生した時点で振幅が急激に大きくなる箇所を抽出することに相当する。

　重み情報生成部１３２は、特徴抽出部１３１により抽出された複数の特徴箇所Ｆ_１，Ｆ_２，Ｆ_３，・・・に基づいて、一の特徴箇所Ｆ_ｉ（ｉ＝１，２，・・・）が抽出された時間から、次の特徴箇所Ｆ_ｉ＋１が抽出された時間まで、値が経時的に徐々に小さくなる重み情報を生成する。この重み情報は、重み値（何れも正の値）が最小値から最大値までの間をとる情報であり、図１２（ｂ）においてノコギリ波として模式的に示されている。

　図１２（ｂ）の例では、一の特徴箇所Ｆ_ｉが抽出された時間において重み値が最大となり、そこから線形的あるいは段階的に値が経時的に徐々に小さくなり、次の特徴箇所Ｆ_ｉ＋１が抽出された時間において重み値が再び最大となるような重み情報を生成している。ここで、重み情報生成部１３２は、一の特徴箇所Ｆ_ｉが抽出された時間において重み値が最大となり、次の特徴箇所Ｆ_ｉ＋１が抽出された時間に達する時点で重み値がちょうど最小値となるような重み情報を生成している。

　なお、ここに示した重み情報の生成処理は一例であり、これに限定されるものではない。例えば、図１２（ｂ）では、重み値が一定の割合で直線的に徐々に小さくなる例を示したが、一の特徴箇所Ｆ_ｉが抽出された時間から次の特徴箇所Ｆ_ｉ＋１が抽出された時間まで、所定の２次関数あるいは対数関数などに従って値が曲線的に徐々に小さくなるような重み情報を生成するようにしてもよい。

　また、重み値が徐々に小さくなる割合（ノコギリ波で示される斜線部の傾斜角）を、どの区間も同じとするようにしてもよい。この場合、一の特徴箇所Ｆ_ｉと次の特徴箇所Ｆ_ｉ＋１との間が長い区間があると、次の特徴箇所Ｆ_ｉ＋１に至る前に重み値が最小値に達する。この場合、重み情報生成部１３２は、例えば、重み値が最小値に達した後、次の特徴箇所Ｆ_ｉ＋１に至るまで、重み値が最小値に固定するような重み情報を生成する。

　また、重み値の最大値と最小値とを固定値とせず、所定の条件に応じて変動する変動値とするようにしてもよい。例えば、特徴箇所における振幅値の大きさに応じて、重み値の最大値を可変とするようにしてもよい。この場合、重み情報生成部１３２は、一の特徴箇所Ｆ_ｉにおける振幅値が大きいほど重み値が大きくなるようにし、そこから次の特徴箇所Ｆ_ｉ＋１まで値が徐々に小さくなるような重み情報を生成する。このようにすれば、所定時間の間に振幅値が所定値以上大きくなる複数の特徴箇所Ｆ_ｉのうち、その特徴箇所Ｆ_ｉの振幅値が大きいほど大きな重み値が設定されるようになる。

　重み加工部１３３は、振動情報取得部１２により取得された振動情報を、重み情報生成部１３２により生成された重み情報によって加工する。例えば、重み加工部１３３は、振動情報の波形情報の振幅値に対して重み情報の重み値を乗算することにより、振動情報の振動情報を加工する。

　すなわち、重み加工部１３３は、図１２（ｂ）に示している振動情報の波形情報の各時間における振幅値に対し、同じく図１２（ｂ）にノコギリ波として模式的に示している各時間における重み値を乗算する。図１２（ｂ）において、振動情報の波形情報と重み情報とを重ねて示しているのは、各時刻における波形情報の振幅値と、これに対して乗算する重み値との対応関係を明示するためである。

　図１３は、重み加工部１３３により加工された振動情報の波形情報を音声情報の波形情報と共に示す図である。図１３（ａ）は、音声情報取得部１１により取得された音声情報の特定周波数帯域における波形情報を示し、図１３（ｂ）は、重み加工部１３３により加工された振動情報の波形情報を示している。図１３（ａ）に示す音声情報の波形情報は、図１２（ａ）に示す音声情報の波形情報と同じである。

　このようにして加工される図１３（ｂ）の振動情報は、音声情報の波形情報における特徴箇所と同調する態様で重み値が変動する重み情報によって波形の振幅値が加工されたものである。このため、重み加工部１３３により加工された振動情報は、音声情報の振幅の変化と同調した態様で振幅が変化するものとなる。すなわち、図１２（ａ）のように、加工前の振動情報が、時間と共に振幅値が大きく変動しないものであれば、これを上述した重み情報によって加工することにより、音声情報において音が発生した時点で振幅が大きくなり、次に音が発生する時点までの間に振幅が徐々に小さくなっていくような波形を有する振動情報が得られる。

　振動調整部１３４は、重み加工部１３３により加工された振動情報の音圧を調整することにより、調整後の振動情報の音圧が、音声情報の特定周波数帯域における音圧よりも小さくなるようにする。なお、この振動調整部１３４の処理は、第１の実施形態で説明した処理と同じであるので、詳細な説明は割愛する。また、第１の実施形態で説明したのと同様に、音声情報加工部１３Ａによる音声情報の加工のみを行い、振動情報加工部１３Ｂ’による振動情報の加工は行わないようにすることも可能である。あるいは、振動情報の加工に関しては、重み加工部１３３の加工は行う一方で、振動調整部１３４の調整は行わないようにすることも可能である。

　なお、特徴抽出部１３１が音声情報の波形情報から抽出する複数の特徴箇所は、以上に説明した例に限定されない。例えば、特徴抽出部１３１は、音声情報の波形情報において、振幅値が所定値以上となる箇所を特徴箇所として抽出するようにしてもよい。あるいは、音声情報の波形情報を時間ごとに周波数解析し、含まれる周波数成分が急激に変わる箇所を特徴箇所として抽出するようにしてもよい。

　また、上記実施形態では、重み情報生成部１３２は、一の特徴箇所Ｆ_ｉが抽出された時間から次の特徴箇所Ｆ_ｉ＋１が抽出された時間まで値が徐々に小さくなるような重み情報を生成したが、本発明はこれに限定されない。例えば、特徴抽出部１３１が、音声情報の波形情報において所定時間の間に振幅値が急激に小さくなる箇所を特徴箇所として抽出するようにし、重み情報生成部１３２が、一の特徴箇所Ｆ_ｉが抽出された時間から次の特徴箇所Ｆ_ｉ＋１が抽出された時間まで値が徐々に大きくなるような重み情報を生成するようにしてもよい。

　以上のように構成した第２の実施形態による音響コンテンツ生成装置１０’により生成された音響コンテンツを再生する場合も、図９に示した音響コンテンツ再生装置２０を用いることが可能である。

　このように構成した第２の実施形態によれば、音声情報の時系列的な波形情報における振幅の増減と同調する態様で振幅が増減するような振動情報を得て、そのような振動情報に対して音圧の加工を行うことができる。これにより、ある音が発生してから次の音が発生するまでの間に音声情報の振幅が徐々に減衰していく期間において、振動情報の振幅が音声情報の振幅よりも大幅に大きくなるようなことを回避することができる。このため、音声情報に基づく音声による振動情報に基づく音声のマスキング効果をより高めることができる。

　なお、図１１に示した構成に代えて、図１４のような構成を採用してもよい。図１４に示す振動情報加工部１３Ｂ’は、図１１に示した特徴抽出部１３１および重み情報生成部１３２に代えて、エンベロープ生成部１３５および重み情報生成部１３２’を備えている。

　エンベロープ生成部１３５は、音声情報取得部１１により取得された音声情報の特定周波数帯域における波形情報に対するエンベロープ波形を生成する。例えば、エンベロープ生成部１３５は、音声情報取得部１１により取得された音声情報の特定周波数帯域における波形情報に対してローパスフィル処理を施すことにより、音声情報のエンベロープ波形を生成する。

　重み情報生成部１３２’は、エンベロープ生成部１３５により生成されたエンベロープ波形の振幅と同調するように値が変化する重み情報を生成する。例えば、重み情報生成部１３２’は、エンベロープ波形と同じカーブで値が変動する重み情報を生成する。このようにすれば、音声情報の時系列的な波形情報における振幅の増減とより合致する態様で振幅が増減するような振動情報を得て、そのような振動情報に対して音圧の加工を行うことができる。これにより、ある音が発生してから次の音が発生するまでの間に音声情報の振幅が徐々に減衰していく期間において、振動情報の振幅が音声情報の振幅よりも大幅に大きくなるようなことをより効果的に回避することができる。このため、音声情報に基づく音声による振動情報に基づく音声のマスキング効果をより高めることができる。

　なお、上述した第１の実施形態において、図１１または図１４の構成により加工した振動情報を振動情報取得部１２から取得するようにしてもよい。すなわち、第１の実施形態において、振動情報取得部１２は、音声情報取得部１１により取得される音声情報の特定周波数帯域における波形情報において他の箇所と区別し得る複数の特徴箇所間の時間区間ごとに経時的に値が変化する重み情報によって所定の振動情報が加工されてなる振動情報を取得するようにしてもよい。または、振動情報取得部１２は、音声情報取得部１１により取得された音声情報の特定周波数帯域におけるエンベロープ波形の振幅と同調するように値が変化する重み情報によって所定の振動情報が加工されてなる振動情報を取得するようにしてもよい。

　上記第１および第２の実施形態では、振動情報の音圧が音声情報の特定周波数帯域における音圧よりも小さくなるように、音声情報および振動情報の少なくとも一方を加工する例について説明したが、振動情報の音圧が音声情報の音圧よりも小さくなるようにすることを必須とするものではない。マスキング現象は、マスキングされる音の周波数が低くなるほど起こりやすく、低周波領域においてマスキング効果が高くなる傾向にある。よって、振動情報取得部１２により取得される振動情報の周波数がかなり小さい場合には、振動情報の音圧が音声情報の音圧よりも小さくなくても、すなわち、両者の音圧が同等程度あるいは振動情報の音圧が音声情報の音圧より若干大きい状態でも、ある程度のマスキング効果は期待できる。

　したがって、振動情報の音圧と、特定周波数帯域における音圧との関係が所定の関係となるように、音声情報の加工および振動情報の加工の少なくとも一方を行うようにすればよい。例えば、振動情報の周波数（周波数帯域の最小周波数または最大周波数）と、マスキング効果が現れるときの音圧差（音声情報の音圧と振動情報の音圧との差で、前者の方が大きい場合と、後者の方が大きい場合との両方を含み得る）との関係をあらかじめ試行的に求め、その結果をテーブル情報や機械学習の学習モデル等として音響コンテンツ生成装置１０、１０’に記憶しておく。この場合の音圧差（音声情報の音圧と振動情報の音圧のどちらの方が高いかを示す情報を含む）が上述の「所定の関係」に相当する。そして、振動情報取得部１２により取得された振動情報の周波数に応じて、加工部１３，１３’が上記の記憶情報を参照または利用し、記憶情報から求められる音圧差の関係となるように、音声情報および振動情報の少なくとも一方を加工する。

　テーブル情報を用いる例において、例えば、音声情報の音圧の方が振動情報の音圧よりも大きい場合にのみマスキング効果が現れるような振動情報の場合は、マスキング効果が現れるときの音圧差のうち最小の音圧差を振動情報の周波数と関係付けてテーブル情報に記憶しておく。一方、振動情報の音圧の方が音声情報の音圧よりも大きい場合でもマスキング効果が現れるような振動情報の場合は、振動情報の音圧の方が音声情報の音圧よりも大きい場合にマスキング効果が現れるときの音圧差のうち最大の音圧差を振動情報の周波数と関係付けてテーブル情報に記憶しておく。このようにすれば、振動情報の音圧をできるだけ大きくした状態でマスキング効果を得るようにすることができる。

　また、学習モデルを用いる場合は、振動情報の周波数を入力した際にマスキング効果が現れる音圧差の情報が出力されるように機械学習によってパラメータが調整された学習モデルを記憶しておく。この場合の学習モデルは、例えば、上述のテーブル情報で説明したような関係となる音圧差を出力するようにパラメータが調整されたモデルとすることが可能である。この場合も、振動情報の音圧をできるだけ大きくした状態でマスキング効果を得るようにすることができる。なお、ここに説明したテーブル情報および学習モデルは一例であり、これに限定されるものではない。

　また、上記第１および第２の実施形態では、振動情報の加工に関して、図３（ｂ）または図５に例示したように振動情報の音圧を引き下げる例について説明したが、本発明はこれに限定されない。例えば、図１５（ａ）に示すように、振動情報の音圧をＶＰからＶＰ’に所定量引き下げるとともに、加工後の音圧ＶＰ’が閾値の音圧ＶＰ”より大きい場合に、振動情報の音圧が閾値の音圧ＶＰ”を超えないようにリミット処理するようにしてもよい。

　ここで、閾値の音圧ＶＰ”は、あらかじめ定めた値とすることが可能である。または、加工後または未加工の音声情報の特定周波数帯域における最小音圧値またはそれより所定値だけ小さい値を閾値の音圧ＶＰ”として設定するようにしてもよい。この例の場合、振動情報の音圧をＶＰからＶＰ’に引き下げる際に、振動情報の下降後の最大音圧が、加工後または未加工の音声情報の特定周波数帯域における最小音圧よりも小さくなるところまで引き下げることは必須ではない。

　このようにすると、図１５（ｂ）に示すように、経時的に音圧が変動する振動情報を用いる場合に、全体として音圧をΔＶ（＝ＶＰ－ＶＰ’）引き下げるだけで閾値ＶＰ”以下となる時間区間Ｔ_Ａではその音圧のままとなり、音圧をΔＶ引き下げるだけだと下降後の音圧が閾値ＶＰ”を超える時間区間Ｔ_Ｂでは音圧が閾値ＶＰ”を超えないようにリミット処理されることとなる。これにより、振動情報の音圧を引き下げる量をできるだけ少なくした上で、マスキング効果を利用することが可能となる。

　また、上記第１および第２の実施形態では、所望の振動情報を音声情報に加えてミキシングする例について説明し、所望の振動情報の一例として、振動波形の強度および分割区間の長さに基づいて特定される触質特徴量に由来する固有の触覚効果を持った振動情報を用いる例について説明したが、本発明はこれに限定されない。例えば、振動情報取得部１２は、中心周波数の音圧が０ｄＢよりも小さい低周波（例えば、１００Ｈｚ以下）の振動情報を取得するようにしてもよい。

　中心周波数の音圧が０ｄＢよりも小さい低周波の振動情報を音声情報に合成すると、その影響を受けて音声情報の中心周波数の音圧が０ｄＢを下回るため、振動情報の周波数領域よりも高域側の中高周波領域（特に中周波領域）の音声情報の音圧が低下する。このため、このように音声情報と振動情報とが合成された音響コンテンツを再生するときに、音量を大きくしても音割れが生じにくくなる。一般に、音声情報を再生するときの音量がかなり大きくなると、音割れが生じることがある。これに対し、中心周波数の音圧が０ｄＢ以下の低周波振動情報を音声情報に加えてミキシングすることにより、大きな音量で再生したときの音割れを生じにくくすることが可能となる。

　また、一般的に、音声情報の全体的な周波数のバランスが悪く、中周波数域の音圧が大きすぎると、再生音はこもった音になる傾向がある。これに対し、中心周波数の音圧が０ｄＢ以下の低周波振動情報を音声情報に加えると、中高周波領域の音声情報の音圧が低下するため、低音部から高音部までの全体の周波数領域をバランスよく含んだ再生音が得られる。その結果、音割れを生じることなく大きな音量で再生することが可能で、そのときの再生音がクリアになるというメリットを有する。

　また、上記第１および第２の実施形態では、音声情報取得部１１により取得された音声情報を１つまたは複数のトラックに記録するとともに、振動情報取得部１２により取得された振動情報を１つまたは複数のトラックに記録し、トラック単位で音声情報および振動情報の加工を行う例について説明したが、本発明はこれに限定されない。例えば、音声情報および振動情報の何れもトラックに関係なく、あるいは１つのトラックに記録し、任意の周波数帯域を指定して加工を行うことができるようにしてもよい。

　また、上記第１および第２の実施形態では、音声情報取得部１１により取得される音声情報と、振動情報取得部１２により取得される振動情報とが元々別のものである例について説明したが、本発明はこれに限定されない。例えば、振動情報取得部１２は、音声情報取得部１１により取得される音声情報に含まれる振動情報を分離することによって振動情報を取得するようにしてもよい。例えば、音声情報に含まれる比較的大きな振幅の振動情報を分離して取り出し、これに対して上記実施形態で説明した加工を施すことにより、元々は耳障りとなり得る振動情報を心地よい振動情報に変えた状態にして音響コンテンツを生成することが可能である。

　その他、上記第１および第２の実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。

　１０，１０’　音響コンテンツ生成装置
　１１　音声情報取得部
　１２　振動情報取得部
　１３，１３’　加工部
　１３Ａ　音声情報加工部
　１３Ｂ，１３Ｂ’　振動情報加工部
　１４　ミキシング部
　２０　音響コンテンツ再生装置
　２１　音響コンテンツ取得部
　２２　音響コンテンツ供給部
　１００　音声出力部
　１３１　特徴抽出部
　１３２，１３２’　重み情報生成部
　１３３　重み加工部
　１３４　振動調整部
　１３５　エンベロープ生成部

Claims

　音声情報を取得する音声情報取得部と、
　上記音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報を取得する振動情報取得部と、
　上記音声情報取得部により取得された音声情報および上記振動情報取得部により取得された振動情報の少なくとも一方を加工する加工部と、
　上記加工部により加工された音声情報と振動情報とをミキシングすることにより、音声情報および振動情報を含む音響コンテンツを生成するミキシング部とを備え、
　上記加工部は、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように、上記音声情報の加工および上記振動情報の加工の少なくとも一方を行うことを特徴とする音響コンテンツ生成装置。
　上記加工部は、振動情報の振動圧力または振動量と、音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域における音圧または音量との関係が所定の関係となるように、上記音声情報の加工および上記振動情報の加工の少なくとも一方を行うことを特徴とする請求項１に記載の音響コンテンツ生成装置。
　上記加工部は、振動情報の振動圧力または振動量が、音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域における音圧または音量よりも小さくなるように、上記音声情報の加工および上記振動情報の加工の少なくとも一方を行うことを特徴とする請求項２に記載の音響コンテンツ生成装置。
　上記加工部は、上記振動情報に対する加工を行う場合、上記振動情報の振動圧力または振動量を所定量引き下げるとともに、下降後の振動圧力または振動量が閾値より大きい場合に、振動情報の振動圧力または振動量が上記閾値を超えないようにリミット処理することを特徴とする請求項１に記載の音響コンテンツ生成装置。
　上記振動情報取得部は、所定周波数より低い低周波帯域から成り、かつ、中心周波数の振動圧力が０ｄＢよりも小さい振動情報を取得することを特徴とする請求項１に記載の音響コンテンツ生成装置。
　上記加工部は、上記音声情報に対する加工を行う場合、上記音声情報取得部により取得された音声情報の周波数帯域のうち、上記振動情報の周波数帯域と同等の周波数帯域を加工することを特徴とする請求項１～５の何れか１項に記載の音響コンテンツ生成装置。
　上記加工部は、上記音声情報に対する加工を行う場合、上記音声情報取得部により取得された音声情報の周波数帯域の全体を加工することを特徴とする請求項１～５の何れか１項に記載の音響コンテンツ生成装置。
　上記加工部は、上記振動情報に対する加工を行う場合、上記振動情報取得部により取得された振動情報の周波数帯域の全体を加工することを特徴とする請求項１～７の何れか１項に記載の音響コンテンツ生成装置。
　上記加工部は、上記振動情報に対する加工を行う場合、上記振動情報取得部により取得された振動情報の周波数帯域のうち、所定の周波数よりも大きい周波数帯域を加工することを特徴とする請求項１～７の何れか１項に記載の音響コンテンツ生成装置。
　上記加工部は、振動情報の振動圧力または振動量と、音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域における音圧または音量との関係が所定の関係となるように、上記音声情報および上記振動情報の双方に対して加工を行うことを特徴とする請求項２～９の何れか１項に記載の音響コンテンツ生成装置。
　上記加工部は、
　上記音声情報取得部により取得された音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域の波形情報において、他の箇所と区別し得る複数の特徴箇所を抽出する特徴抽出部と、
　上記特徴抽出部により抽出された複数の特徴箇所に基づいて、特徴箇所間の時間区間において経時的に値が変化する重み情報を生成する重み情報生成部と、
　上記振動情報取得部により取得された振動情報を、上記重み情報生成部により生成された上記重み情報によって加工する重み加工部と、
　上記重み加工部により加工された振動情報の振動圧力または振動量を調整することにより、調整後の振動情報の振動圧力または振動量と、上記音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域における音圧または音量との関係が所定の関係となるようにする振動調整部とを備えたことを特徴とする請求項１～１０の何れか１項に記載の音響コンテンツ生成装置。
　上記加工部は、
　上記音声情報取得部により取得された音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域の波形情報に対するエンベロープ波形を生成するエンベロープ生成部と、
　上記エンベロープ生成部により生成されたエンベロープ波形の振幅と同調するように値が変化する重み情報を生成する重み情報生成部と、
　上記振動情報取得部により取得された振動情報を、上記重み情報生成部により生成された上記重み情報によって加工する重み加工部と、
　上記重み加工部により加工された振動情報の振動圧力または振動量を調整することにより、調整後の振動情報の振動圧力または振動量と、上記音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域における音圧または音量との関係が所定の関係となるようにする振動調整部とを備えたことを特徴とする請求項１～１０の何れか１項に記載の音響コンテンツ生成装置。
　上記振動情報取得部は、上記音声情報取得部により取得される音声情報の周波数帯域のうち上記振動情報の周波数帯域と同等の周波数帯域の波形情報において他の箇所と区別し得る複数の特徴箇所間の時間区間ごとに経時的に値が変化する重み情報によって所定の振動情報が加工されてなる振動情報を取得することを特徴とする請求項１～１０の何れか１項に記載の音響コンテンツ生成装置。
　音響コンテンツ生成装置の加工部が、音声情報および当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報のうち少なくとも一方を加工する第１のステップと、
　上記音響コンテンツ生成装置のミキシング部が、上記加工部により加工された音声情報と振動情報とをミキシングすることにより、音声情報および振動情報を含む音響コンテンツを生成する第２のステップとを有し、
　上記第１のステップにおいて、上記加工部は、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように、上記音声情報の加工および上記振動情報の加工の少なくとも一方を行うことを特徴とする音響コンテンツ生成方法。
　音声情報と、当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報とがミキシングされて成る音響コンテンツであって、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように調整された音響コンテンツを取得する音響コンテンツ取得部と、
　上記音響コンテンツ取得部により取得された音響コンテンツを、当該音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部に供給する音響コンテンツ供給部とを備えたことを特徴とする音響コンテンツ再生装置。
　音響コンテンツ再生装置の音響コンテンツ取得部が、音声情報と、当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報とがミキシングされて成る音響コンテンツであって、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように調整された音響コンテンツを取得する第１のステップと、
　上記音響コンテンツ再生装置の音響コンテンツ供給部が、上記音響コンテンツ取得部により取得された音響コンテンツを、当該音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部に供給する第２のステップとを有することを特徴とする音響コンテンツ再生方法。
　音声情報と、当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報とがミキシングされて成る音響コンテンツであって、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように調整された音響コンテンツを取得する音響コンテンツ取得手段、
　上記音響コンテンツ取得手段により取得された音響コンテンツを、当該音響コンテンツに含まれる音声情報と振動情報とを分離しない状態のまま音声出力部に供給する音響コンテンツ供給手段
としてコンピュータを機能させるための音響コンテンツ再生用プログラム。
　音声情報と、当該音声情報が有する周波数帯域のうち一部の周波数帯域から成る振動情報とがミキシングされて成る音響コンテンツであって、振動情報に基づき発生する音声が音声情報に基づき発生する音声によってマスキングされるように調整された音響コンテンツを記憶し、請求項１５に記載の音響コンテンツ再生装置からの要求に応じて上記音響コンテンツを上記音響コンテンツ再生装置に提供する音響コンテンツ提供装置。
　請求項１５に記載の音響コンテンツ再生装置と、請求項１８に記載の音響コンテンツ提供装置とが通信ネットワークを介して接続可能に構成された音響コンテンツ配信システム。