WO2021111965A1

WO2021111965A1 - 音場生成システム、音声処理装置および音声処理方法

Info

Publication number: WO2021111965A1
Application number: PCT/JP2020/043951
Authority: WO
Inventors: 理絵子鈴木; 靖佐藤
Original assignee: 株式会社ティーオースウィング
Priority date: 2019-12-04
Filing date: 2020-11-26
Publication date: 2021-06-10
Also published as: JP2023027416A

Abstract

可聴周波数帯域の音声である可聴音が存在する空間１００に対して、ユーザにより非可聴周波数帯域の低周波音声である非可聴音を出力する第１の音声処理装置１０１を備え、可聴音に対して非可聴音が適用された音場を生成することにより、非可聴音が人の耳には聞こえない低周波の振動として作用し、可聴音が人の耳に聞こえる音声として作用するようにして、可聴音による聴覚的効果と振動による触覚的効果との相乗効果を有する音場を提供することができるようにする。

Description

音場生成システム、音声処理装置および音声処理方法

　本発明は、音場生成システム、音声処理装置および音声処理方法に関するものである。

　従来、人間が有する五感のうち、視覚を利用した映像コンテンツや、聴覚を利用した音声コンテンツが様々な産業分野において広く提供されている。また、視覚（映像）および／または聴覚（音声）に触覚（振動）を第３の感覚として用いたコンテンツを提供することで、ユーザに対して何らかのメッセージを伝えたり、映像または音声に関するリアリティや臨場感を高めたりすることができるようにした技術も広く提供されている（例えば、特許文献１，２参照）。

　特許文献１には、音楽の再生音に合わせて振動を発生させることができる振動発生装置が開示されている。この特許文献１に記載の振動発生装置では、複数の楽器の音が混在したアナログの音楽情報から、ベースの再生音の音域に対応する音データと、ドラムの再生音の音域に対応する音データとをバンドパスフィルターによって抽出し、ベース音の音データが所定のレベル以上となるデータ区間の期間内に低域の周波数の駆動パルスを発生させる一方、ドラム音の音データが所定のレベル以上となるデータ区間の期間内に高域の周波数の駆動パルスを発生させることにより、音楽の再生音に合わせて振動を発生するようにしている。ここで、音楽情報はスピーカまたはイヤホンのいずれかから再生され、振動情報は振動機構部の振動体に供給される。

　特許文献２には、高音の音声と低音の振動とを出力することにより、臨場感のある快適な音声信号を再生することができるようにした音声再生装置（携帯型の音声再生プレーヤ）が開示されている。この特許文献２に記載の音声再生装置において、体感モードが選択されたときには、ＤＳＰ（Digital Signal Processor）では、入力されたＬｃｈ信号およびＲｃｈ信号を加算器により加算し、ローパスフィルタにより音声信号に含まれる低周波成分を取り出してＭＢＳ（Mobile Body Sonic）信号を生成する。

　この特許文献２に記載の音声再生装置は、そのジャックにヘッドホンのプラグを接続して使用される。ヘッドホンのプラグは、Ｌｃｈ信号を入力するＬｃｈ接続端子部と、Ｒｃｈ信号を入力するＬｃｈ接続端子部と、ＭＢＳ信号を入力するＭＢＳ接続端子部と、ＧＮＤ信号を入力するＧＮＤ接続端子部とを有する４端子構造の接続端子である。音声再生装置のＬ－ＲアンプおよびＭＢＳアンプからヘッドホンのプラグに入力されたＬｃｈ信号、Ｒｃｈ信号およびＭＢＳ信号は、それぞれＬｃｈスピーカ、Ｒｃｈスピーカおよびトランスデューサに出力される。そして、ＭＢＳ信号は、ユーザの衣服などに取り付けられたトランスデューサによって機械的振動に変換される。

　一般に、振動によって音が発生すると、それはスピーカやイヤホンから出力される音声にとって邪魔になるもの（ノイズ）と考えられており、いかに音楽再生の邪魔とならないように振動を付与するかが課題とされて、その課題を解決するための工夫を凝らしているものが殆どである。従来、振動は騒音の一種とされ、その防音または制振に関する研究および技術開発がなされてきた。これに対し、特許文献１，２には、音声情報と振動情報とを同時に出力することに関する技術が開示されている。何れの技術も、音楽の再生音に合わせて振動を発生させることにより、利アリティや臨場感を高めた音声の視聴ができるようにしたものである。

特開２０１３－５６３０９号公報特開２００６－３３５９１号公報

　本発明は、従来とは全く異なる方法によって、可聴音と振動とにより相乗効果を有する音場を提供できるようにすることを目的とする。

　上記した課題を解決するために、本発明では、可聴周波数帯域の音声である可聴音が存在する空間に対して、ユーザにより選択された非可聴周波数帯域の低周波音声である非可聴音を出力することにより、可聴音に対して非可聴音が適用された音場を生成するようにしている。

　上記のように構成した本発明によれば、ユーザにより選択された非可聴音が人の耳には聞こえない低周波の振動として作用し、可聴音が人の耳に聞こえる音声として作用する。本発明によれば、このような非可聴音の振動と可聴音とにより音場が生成されることにより、可聴音による聴覚的効果と非可聴音の振動による触覚的効果との相乗効果を有する音場を提供することができる。

本実施形態による音場生成システムの構成例を示す図である。自然界に存在する音を解析することによって非可聴音を得ることを説明するための図である。本実施形態による第１の音声処理装置の機能構成例を示すブロック図である。様々なパワースポットで採取した自然音の分析結果を示す図である。様々なパワースポットで採取した自然音の分析結果を示す図である。本実施形態による音場生成システムの他の構成例を示す図である。本実施形態による音響コンテンツ出力装置の機能構成例を示すブロック図である。可聴音と非可聴音との融合音である音響コンテンツの生成方法を説明するための図である。可聴音と非可聴音との融合について説明するための図である。本実施形態による音響コンテンツ出力装置の他の機能構成例を示すブロック図である。音響コンテンツの他の生成方法を説明するための図である。

　以下、本発明の一実施形態を図面に基づいて説明する。図１は、本実施形態による音場生成システムの構成例を示す図である。図１に示すように、本実施形態の音場生成システムは、第１の音声処理装置１０１（特許請求の範囲の音声処理装置に相当）と、第２の音声処理装置１０２とを備え、可聴周波数帯域の音声である可聴音が存在する空間１００に対して、ユーザにより選択された非可聴周波数帯域の低周波音声である非可聴音（本実施形態では、これを深層振動とも呼ぶ）を出力することにより、可聴音に対して非可聴音が適用された音場を生成する。

　非可聴音および可聴音が出力される空間１００は、例えば部屋、コンサート会場、劇場、会議室、車内などの屋内の閉空間であってもよいし、屋外の開空間であってもよい。

　第１の音声処理装置１０１は、非可聴音を空間１００に出力する装置である。第２の音声処理装置１０２は、可聴音を空間１００に出力する装置である。本実施形態の音場生成システムは、第２の音声処理装置１０２によって出力された可聴音が存在する空間１００に対して、第１の音声処理装置１０１から非可聴音を出力することにより、可聴音に対して非可聴音が適用された音場を生成する。

　第１の音声処理装置１０１は、キーボードやマウス、タッチパネル等の入力デバイスと、ディスプレイ等の第１出力デバイスと、音声（振動）を出力するスピーカまたは振動呈示機構等の第２出力デバイスとを備えた端末、またはこれらのデバイスを接続可能な端末であり、例えばスマートフォン、タブレット、パーソナルコンピュータ、テレビ、オーディオ装置などにより構成される。第２の音声処理装置１０２は、音声を出力するスピーカを備えた装置であり、例えばスマートフォン、タブレット、パーソナルコンピュータ、テレビ、オーディオ装置などにより構成される。

　図１に示すように、人は、第２の音声処理装置１０２から出力された可聴音を耳から受け、第１の音声処理装置１０１から出力された非可聴音を深層振動として身体で受ける。深層振動を人間の身体に当てることにより、自律神経系の変化（リラックスまたは興奮）を促したり、人間の肉体的状態または精神的状態の改善または悪化抑止を誘起させたりすることが期待できる。

　本実施形態の非可聴音は、自然界に存在する音を解析することによって得ることが可能である。本実施形態では、非可聴音の一例として、パワースポットの自然音から生成された非可聴周波数帯域の低周波音声を用いる。図２は、パワースポットの音を解析することによって非可聴音を得ることを説明するための図である。図２（ａ）は、パワースポットにおいて発生している自然音の波形データを示す図である。図２（ｂ）は、図２（ａ）に示す波形データを解析することによって得た周波数スペクトルを示す図である。

　パワースポットの自然音について、図２（ｂ）のように周波数スペクトルを解析したところ、人間の耳には聞こえない低域の音が強く出ていることが分かった。周波数スペクトルから明らかな通り、４０Ｈｚ以下の低周波域において、人の耳には聞こえないが大きなパワーを持った音が存在している（２０～４０Ｈｚは一般的に可聴音域の一部と言われているが、この音域の音は殆ど聞こえない。本明細書では、この２０～４０Ｈｚも非可聴の音域として説明する）。このような低域の強い音は身体を揺らすので、深層心理に影響を与え、人がパワースポットで景色を見たり、自然音を聞いたりする際の感動に繋がっている。

　このようなパワースポットの自然音を音響分析することにより、本実施形態の深層振動として使える非可聴音を得ることが可能である。例えば、パワースポットの自然音から４０Ｈｚ以下（好ましくは２０Ｈｚ以下、更に好ましくは１０Ｈｚ以下、更に好ましくは５Ｈｚ以下（図４参照））の低周波成分を抽出し、抽出した低周波成分の音声を非可聴音（深層振動）として用いることが可能である。または、抽出した低周波成分の音声を加工して非可聴音を生成するようにしてもよい。ここでいう加工は、周波数の変動を伴わない加工である。例えば、パワースポットの自然音から抽出した４０Ｈｚ以下の低周波音声を複製して時間軸方向に連結することにより、非可聴音を生成するようにしてもよい。このとき、音圧を調整するようにしてもよい。

　図３は、本実施形態による第１の音声処理装置１０１の機能構成例を示すブロック図である。ここでは２つのタイプの機能構成例を示している。図３（ａ）に示す第１タイプに係る第１の音声処理装置１０１は、機能構成として、パワースポット選択部１１および非可聴音出力部１２を備えている。また、第１タイプに係る第１の音声処理装置１０１は、記憶媒体として、非可聴音記憶部１０を備えている。

　また、図３（ｂ）に示す第２タイプの第１の音声処理装置１０１は、機能構成としてパワースポット選択部１１および非可聴音出力部１２を備える一方、記憶媒体としての非可聴音記憶部１０は備えていない。非可聴音記憶部１０は、インターネットまたは携帯電話網等の通信ネットワーク５００を介して第１の音声処理装置１０１と接続されるサーバ２００が備えており、サーバ２００は機能構成として非可聴音提供部２１を備えている。

　上記各機能ブロック１１～１２は、ハードウェア、ＤＳＰ、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック１１～１２は、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。

　非可聴音記憶部１０は、複数箇所のパワースポットで採取した自然音から生成した複数の非可聴音のデータを、パワースポットの識別情報に関連付けて記憶する。パワースポットの識別情報としては、例えばパワースポットの名称を用いることが可能である。ただし、これに限定されるものではない。

　図４および図５は、様々なパワースポットで採取した自然音の分析結果を示す図である。図４では、様々なパワースポットで採取した自然音の周波数スペクトルを示している。図４に示すように、どのパワースポットにおいて発生している自然音の中にも非可聴音が含まれている。図５では、様々なパワースポットで採取した自然音から生成した非可聴音の波形に対して触質特徴量を用いた解析を行うことによって作成したグラフを示している。

　図５に示すグラフの解析は、例えば以下のようにして行う。まず、非可聴音の音声波形を時間軸方向に複数の等区間に分割し、複数の等区間のそれぞれにおいて２種類の触質特徴量を算出する。そして、当該２種類の触質特徴量をそれぞれ座標軸とする座標空間上に、２種類の触質特徴量の組み合わせに基づく座標位置を複数組の触質特徴量ごとにマッピングすることによってグラフを作成する。２種類の触質特徴量は、例えば、ＷＯ２０１８／２１１７６７号公報に記載の方法によって算出する。

　例えば、非可聴音の音声波形を複数の等区間に分割し、当該分割した複数の等区間のそれぞれにおいて、それぞれが触感の一要素を表した第１の触質パラメータと第２の触質パラメータとの組み合わせを２組以上生成する。第１の触質パラメータは波形の強度に関するパラメータ、第２の触質パラメータは波形の分割区間の長さに関するパラメータであり、何れも触感の一要素（触感の強さ、長さ）を成すものである。

　そして、このように生成した第１の触質パラメータおよび第２の触質パラメータの２組以上の組み合わせに基づいて、第１の触質パラメータと第２の触質パラメータとを用いた四則演算値を算出し、同じ四則演算値が現れる区間の長さを第１の触質特徴量Ｐ１として算出する。また、四則演算値の多様度を第２の触質特徴量Ｐ２として算出する。このように求められる第１の触質特徴量Ｐ１は、波形情報が潜在的に持っている触感のリズムを表している。また、第２の触質特徴量Ｐ２は、波形情報が潜在的に持っている触感の多様度を表している。

　この触感のリズムおよび多様度を示唆する２種類の触質特徴量Ｐ１，Ｐ２を、非可聴音の音声波形から分割された複数の等区間ごとに算出することにより、これら複数組の触質特徴量によって非可聴音の波形情報を特徴付けることが可能である。図４および図５の分析結果は、様々なパワースポットで採取した自然音から生成した非可聴音が、触感のリズムや多様度の点で異なる特徴を有していることを示している。

　パワースポット選択部１１は、所望のパワースポットをユーザに選択させる。このパワースポット選択部１１は、非可聴音をユーザに選択させる非可聴音選択部に相当するものである。

　例えば、第１の音声処理装置１０１が図３（ａ）に示す第１タイプの場合、パワースポット選択部１１は、非可聴音記憶部１０に記憶されている複数の非可聴音に対応するパワースポットの名称をディスプレイに表示させ、その中から何れかをユーザに選択させる。ユーザは、ディスプレイに表示された複数箇所のパワースポットの名称の中から、希望するパワースポットの名称を入力デバイスを用いて選択する。

　第１の音声処理装置１０１が図３（ｂ）に示す第２タイプの場合、パワースポット選択部１１は、サーバ２００にアクセスしてパワースポットの一覧表示を要求する。この要求を受けて、非可聴音提供部２１は、非可聴音記憶部１０に記憶されている複数の非可聴音に対応するパワースポットの名称を第１の音声処理装置１０１に提供してディスプレイに表示させる。ユーザは、ディスプレイに表示された複数箇所のパワースポットの名称の中から、希望するパワースポットの名称を入力デバイスを用いて選択する。

　非可聴音出力部１２は、非可聴音記憶部１０に記憶されている複数箇所のパワースポットの自然音から生成された複数の非可聴音のうち、ユーザにより選択されたパワースポットの非可聴音を空間１００に出力する。例えば、第１の音声処理装置１０１が図３（ａ）に示す第１タイプの場合、非可聴音出力部１２は、パワースポット選択部１１により選択された非可聴音のデータを非可聴音記憶部１０から取得し、第２出力デバイスから非可聴音を出力する。

　第１の音声処理装置１０１が図３（ｂ）に示す第２タイプの場合、非可聴音出力部１２は、パワースポット選択部１１により選択された非可聴音の取得をサーバ２００に要求する。この要求を受けて、非可聴音提供部２１は、対応する非可聴音のデータを非可聴音記憶部１０から取得し、第１の音声処理装置１０１に送信する。非可聴音出力部１２は、サーバ２００から送信された非可聴音のデータを受信して、第２出力デバイスから非可聴音を出力する。

　以上詳しく説明したように、本実施形態では、可聴周波数帯域の音声である可聴音が存在する空間１００に対して、パワースポットの自然音から生成された非可聴周波数帯域の低周波音声である非可聴音を出力することにより、可聴音に対して非可聴音が適用された音場を生成するようにしている。

　このように構成した本実施形態によれば、パワースポットの自然音から生成された非可聴音が人の耳には聞こえない低周波の振動として作用し、可聴音が人の耳に聞こえる音声として作用する。パワースポットの自然音から生成された非可聴音は、大地の気がみなぎる場所に存在する振動であり、気の力（人を癒す力または活動の源となるエネルギーを与える力など）が潜在し、人の深層心理に影響を与える深層振動と言える。本実施形態によれば、このような深層振動と可聴音とにより音場が生成されることにより、可聴音による聴覚的効果と気の力が潜在する深層振動による触覚的効果との相乗効果を有する音場を提供することができる。

　なお、上記実施形態では、第２の音声処理装置１０２によって可聴音を空間１００に出力する例について説明したが、本発明はこれに限定されない。例えば、第２の音声処理装置１０２は設けず、人の会話、ペットの鳴き声、風や山川草木等の自然の音、調理音やものづくりをするときの工作音など、自然音が存在する空間１００に対して、第１の音声処理装置１０１から非可聴音を出力するようにしてもよい。

　また、可聴音として、パワースポットの自然音を用いるようにすることも可能である。この場合、ユーザは、パワースポットの自然音を耳から受けると同時に、パワースポットの深層振動を身体で受けることができる。これにより、パワースポット以外の場所で、あたかもパワースポットにいるようなリアルな体験を楽しむことができる。音声を聞くと同時に、パワースポットで撮影した映像を観ることにより、パワースポットでの感動的な体験を遠隔地に居ながら得ることも可能である。

　また、上記実施形態では、パワースポットを選択することを通じて非可聴音を選択する例について説明したが、これに限定されない。例えば、第１の触質特徴量Ｐ１が示唆する触質のリズムと、第２の触質特徴量Ｐ２が示唆する触質の多様度との組み合わせをユーザが選択できるようにして、選択された組み合わせに応じた非可聴音を選択するようにしてもよい。ここで、選択された組み合わせに応じた非可聴音が複数ある場合はそれらをリスト表示し、その中から何れかをユーザが選択するようにしてもよい。あるいは、触質のリズムと多様度とに基づいて任意のネーミングを行い、そのネーミングをディスプレイに表示してユーザに選択させるようにしてもよい。その他、これ以外の方法で非可聴音を選択するようにしてもよい。

　また、上記実施形態では、パワースポットにおいて採取した自然音から４０Ｈｚ以下の低周波音声を抽出して非可聴音を生成する例について説明したが、非可聴音はこのようなものに限定されない。例えば、非可聴音は、パワースポットの自然音に含まれる低周波音声を模擬するように生成された人工音の低周波音声であってもよい。例えば、イコライザ等の音響機器を用いて、４０Ｈｚより大きい周波数帯域では音圧をゼロとし、４０Ｈｚ以下の周波数帯域ではスペクトル波形がパワースポットにおいて採取した自然音のスペクトル波形と同等となるように音圧を調整することにより、パワースポットの低周波音声を模擬した非可聴音を生成することが可能である。

　また、上記実施形態では、第１の音声処理装置１０１から非可聴音を出力し、第２の音声処理装置１０２から可聴音を出力する例について説明したが、本発明はこれに限定されない。例えば、図６に示すように、第１の音声処理装置１０１に代えて音響コンテンツ出力装置１０３を備え、可聴音と非可聴音とをミキシングすることによって生成された、可聴音の周波数の性質と非可聴音の周波数の性質とを有する波形の融合音である音響コンテンツを空間１００に出力するようにしてもよい。

　音響コンテンツ出力装置１０３は、キーボードやマウス、タッチパネル等の入力デバイスと、ディスプレイ等の第１出力デバイスと、音声（振動）を出力するスピーカまたは振動呈示機構等の第２出力デバイスとを備えた端末、またはこれらのデバイスを接続可能な端末であり、例えばスマートフォン、タブレット、パーソナルコンピュータ、テレビ、オーディオ装置などにより構成される。

　図６に示す例において、第２の音声処理装置１０２を備えることは必須ではなく、自然音が存在する空間１００に対して、音響コンテンツ出力装置１０３から音響コンテンツを出力するようにすることが可能である。図６に示すように、人は、音響コンテンツ出力装置１０３から出力された音響コンテンツにおける可聴音の成分を耳から受け、音響コンテンツ出力装置１０３から出力された音響コンテンツにおける非可聴音の成分を深層振動として身体で受ける。

　図７は、本実施形態による音響コンテンツ出力装置１０３の機能構成例を示すブロック図である。ここでは２つのタイプの機能構成例を示している。図７（ａ）に示す第１タイプに係る音響コンテンツ出力装置１０３は、機能構成として、パワースポット選択部１１（非可聴音選択部）、可聴音選択部１３、音響コンテンツ生成部１４および音響コンテンツ出力部１５を備えている。また、第１タイプに係る音響コンテンツ出力装置１０３は、記憶媒体として、非可聴音記憶部１０Ａおよび可聴音記憶部１０Ｂを備えている。

　また、図７（ｂ）に示す第２タイプの音響コンテンツ出力装置１０３は、機能構成としてパワースポット選択部１１、可聴音選択部１３、音響コンテンツ生成部１４および音響コンテンツ出力部１５を備える一方、記憶媒体としての非可聴音記憶部１０Ａおよび可聴音記憶部１０Ｂは備えていない。非可聴音記憶部１０Ａおよび可聴音記憶部１０Ｂは、通信ネットワーク５００を介して音響コンテンツ出力装置１０３と接続されるサーバ２０１が備えており、サーバ２０１は機能構成として非可聴音提供部２１および可聴音提供部２２を備えている。

　非可聴音記憶部１０Ａは、図３に示した非可聴音記憶部１０と同様のものである。可聴音記憶部１０Ｂは、複数の可聴音のデータを、可聴音の識別情報に関連付けて記憶する。可聴音の識別情報としては、例えば可聴音の名称を用いることが可能であるが、これに限定されない。パワースポット選択部１１は、図３に示したものと同様の機能を有するものである。

　可聴音選択部１３は、所望の可聴音をユーザに選択させる。例えば、音響コンテンツ出力装置１０３が図７（ａ）に示す第１タイプの場合、可聴音選択部１３は、可聴音記憶部１０Ｂに記憶されている複数の可聴音に対応する名称をディスプレイに表示させ、その中から何れかをユーザに選択させる。ユーザは、ディスプレイに表示された複数の可聴音の名称の中から、希望する可聴音の名称を入力デバイスを用いて選択する。

　音響コンテンツ出力装置１０３が図７（ｂ）に示す第２タイプの場合、可聴音選択部１３は、サーバ２０１にアクセスして可聴音の一覧表示を要求する。この要求を受けて、可聴音提供部２２は、可聴音記憶部１０Ｂに記憶されている複数の可聴音に対応する名称を音響コンテンツ出力装置１０３に提供してディスプレイに表示させる。ユーザは、ディスプレイに表示された複数の可聴音の名称の中から、希望する可聴音の名称を入力デバイスを用いて選択する。

　音響コンテンツ生成部１４は、ユーザにより選択された可聴音と、ユーザにより選択された非可聴音とをミキシングすることにより、可聴音の周波数の性質と非可聴音の周波数の性質とを有する波形の融合音である音響コンテンツを生成する。

　例えば、音響コンテンツ出力装置１０３が図７（ａ）に示す第１タイプの場合、音響コンテンツ生成部１４は、パワースポット選択部１１により選択された非可聴音のデータを非可聴音記憶部１０Ａから取得するとともに、可聴音選択部１３により選択された可聴音のデータを可聴音記憶部１０Ｂから取得し、これらをミキシングすることによって音響コンテンツを生成する。

　音響コンテンツ出力装置１０３が図７（ｂ）に示す第２タイプの場合、音響コンテンツ生成部１４は、パワースポット選択部１１により選択された非可聴音の取得をサーバ２０１に要求する。この要求を受けて、非可聴音提供部２１は、対応する非可聴音のデータを非可聴音記憶部１０Ａから取得し、音響コンテンツ出力装置１０３に送信する。また、音響コンテンツ生成部１４は、可聴音選択部１３により選択された可聴音の取得をサーバ２０１に要求する。この要求を受けて、可聴音提供部２２は、対応する可聴音のデータを可聴音記憶部１０Ｂから取得し、音響コンテンツ出力装置１０３に送信する。音響コンテンツ生成部１４は、このようにしてサーバ２０１から取得した非可聴音のデータと可聴音のデータとミキシングすることによって音響コンテンツを生成する。

　音響コンテンツ出力部１５は、音響コンテンツ生成部１４により生成された音響コンテンツを第２出力デバイスから空間１００に出力する。

　図８は、可聴音と非可聴音との融合音である音響コンテンツの生成方法を説明するための図である。図９は、可聴音と非可聴音（深層振動）との融合について説明するための図である。図８（ａ）に示す可聴音と図８（ｂ）に示す非可聴音とをミキシングすることにより、図８（ｃ）に示すような融合音の音響コンテンツを生成することが可能である。融合音の音響コンテンツは、可聴音の高周波成分を有しながら、ミキシングされる低周波の非可聴音によって全体的なエンベロープが形成された音声情報である。言い換えると、融合音の音響コンテンツは、非可聴音による低周波のエンベロープ波形に沿って可聴音の高周波成分が重畳した音声情報であり、可聴音の周波数の性質と非可聴音の周波数の性質とを有する波形の音声と言える。

　ここで、図９に示すように、非可聴音を含むパワースポットの自然音と可聴音とをミキシングするようにしてもよい。この場合、非可聴音の音圧と可聴音の音量とを適切に調整して融合音を生成することにより、図９に示すように、パワースポットの自然音から発生する倍音が可聴音に付加され、可聴音の音質がクリアで豊かになる。また、低周波音のエネルギーを利用して可聴音を遠くまで伝達することが可能となる。これを利用して、防災音声をより遠くまで届けたり、コンサート会場で演奏音や歌唱音を聴者に対してより強く響くように届けたりすることが可能である。

　なお、非可聴音の音圧を可聴音の音量よりも大きくすることにより、可聴音の音声（例えば、環境ノイズ）を消す（非可聴化する）ことが可能である（非可聴音が可聴音をマスクすることによる消音）。

　可聴音に融合する非可聴音の音圧が小さい場合は、非可聴音を加えた後の融合音は全体的にレベルが下がり、いわゆるサウンドマスキングが生じる。これに対し、非可聴音の音圧を上げていくと、非可聴音が融合音の全体の音圧を上げて、可聴音に倍音が加えられて音がクリアになる。さらに非可聴音の音圧を上げて、非可聴音の音圧が可聴音の音量より大きくなると、非可聴音によって可聴音が完全にマスキングされるので、無音化する。このようなことが可能なのは、非可聴音だからである。

　ここでは、音響コンテンツ出力装置１０３において可聴音と非可聴音とをミキシングすることによって融合音の音響コンテンツを生成し、生成した音響コンテンツを出力する例について説明したが、この構成に限定されない。例えば、図１０に示すように、音響コンテンツ出力装置１０３’の内部で音響コンテンツを生成するのではなく、あらかじめ生成した音響コンテンツを音響コンテンツ出力装置１０３’の音響コンテンツ記憶部１０Ｃまたはサーバ２０１’の音響コンテンツ記憶部１０Ｃに記憶しておき、音響コンテンツ選択部１６を通じてユーザにより選択された音響コンテンツを音響コンテンツ出力部１７が音響コンテンツ記憶部１０Ｃから取得して出力するようにしてもよい。

　また、上記実施形態では、図８に示したように、可聴音と非可聴音とをミキシングすることによって融合音の音響コンテンツを生成する例について説明したが、本発明はこれに限定されない。例えば、図１１に示すように、可聴周波数帯域の音声である可聴音の音圧または振幅を加工することにより、加工後の音声のエンベロープ波形により規定される周波数が非可聴周波数帯域の周波数となるようにして音響コンテンツを生成するようにしてもよい。そして、図１０と同様に、以上のようにしてあらかじめ生成した音響コンテンツを音響コンテンツ出力装置１０３’の音響コンテンツ記憶部１０Ｃまたはサーバ２０１’の音響コンテンツ記憶部１０Ｃに記憶しておき、音響コンテンツ選択部１６を通じてユーザにより選択された音響コンテンツを音響コンテンツ出力部１７が音響コンテンツ記憶部１０Ｃから取得して出力するようにしてもよい。

　その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。

　１０，１０Ａ　非可聴音記憶部
　１０Ｂ　可聴音記憶部
　１０Ｃ　音響コンテンツ記憶部
　１１　パワースポット選択部（非可聴音選択部）
　１２　非可聴音出力部
　１３　可聴音選択部
　１４　音響コンテンツ生成部
　１５　音響コンテンツ出力部
　１６　音響コンテンツ選択部
　１７　音響コンテンツ出力部
　１００　空間
　１０１　第１の音声処理装置（音声処理装置）
　１０２　第２の音声処理装置
　１０３，１０３’　音響コンテンツ出力装置

Claims

　可聴周波数帯域の音声である可聴音が存在する空間に対して、ユーザにより選択された非可聴周波数帯域の低周波音声である非可聴音または当該非可聴音の周波数の性質を有する波形の音声を出力することにより、上記可聴音に対して上記非可聴音が適用された音場を生成することを特徴とする音場生成システム。
　上記非可聴音を上記空間に出力する音声処理装置を備えたことを特徴とする請求項１に記載の音場生成システム。
　上記可聴音を上記空間に出力する第２の音声処理装置を更に備えたことを特徴とする請求項２に記載の音場生成システム。
　上記音声処理装置は、
　上記非可聴音をユーザに選択させる非可聴音選択部と、
　上記ユーザにより選択された上記非可聴音を上記空間に出力する非可聴音出力部とを備えた
ことを特徴とする請求項２または３に記載の音場生成システム。
　上記可聴音と上記非可聴音とをミキシングすることによって生成された、上記可聴音の周波数の性質と上記非可聴音の周波数の性質とを有する波形の融合音である音響コンテンツを上記空間に出力する音響コンテンツ出力装置を備えた
ことを特徴とする請求項１に記載の音場生成システム。
　上記音響コンテンツ出力装置は、
　上記可聴音をユーザに選択させる可聴音選択部と、
　上記非可聴音をユーザに選択させる非可聴音選択部と、
　上記ユーザにより選択された上記可聴音と、上記ユーザにより選択された上記非可聴音とをミキシングすることにより、上記音響コンテンツを生成する音響コンテンツ生成部と、
　上記音響コンテンツ生成部により生成された上記音響コンテンツを上記空間に出力する音響コンテンツ出力部とを備えた
ことを特徴とする請求項５に記載の音場生成システム。
　上記音響コンテンツ生成部は、上記非可聴音を含むパワースポットの自然音と上記可聴音とをミキシングし、その際に上記非可聴音の音圧と上記可聴音の音量とを調整して上記融合音の音響コンテンツを生成することを特徴とする請求項６に記載の音場生成システム。
　上記音響コンテンツをユーザに選択させる音響コンテンツ選択部と、
　上記ユーザにより選択された上記音響コンテンツを上記空間に出力する音響コンテンツ出力部とを備えた
ことを特徴とする請求項５に記載の音場生成システム。
　上記非可聴音は、パワースポットの自然音から生成された低周波音声であることを特徴とする請求項１～８の何れか１項に記載の音場生成システム。
　上記非可聴音は、パワースポットの自然音に含まれる低周波音声を模擬するように生成された人工音の低周波音声であることを特徴とする請求項１～８の何れか１項に記載の音場生成システム。
　上記非可聴音は、４０Ｈｚ以下の低周波音声であることを特徴とする請求項１～１０の何れか１項に記載の音場生成システム。
　上記非可聴音は、上記パワースポットの自然音から抽出した４０Ｈｚ以下の低周波音声または当該低周波音声に対して周波数の変化を伴わない加工を施した低周波音声であることを特徴とする請求項９の何れか１項に記載の音場生成システム。
　上記可聴音の音圧または振幅が加工されて、加工後の音声のエンベロープ波形により規定される周波数が非可聴周波数帯域の周波数となるように生成された、上記可聴音の周波数の性質と上記非可聴音の周波数の性質とを有する波形の音響コンテンツを上記空間に出力する音響コンテンツ出力装置を備えた
ことを特徴とする請求項１に記載の音場生成システム。
　上記音響コンテンツをユーザに選択させる音響コンテンツ選択部と、
　上記ユーザにより選択された上記音響コンテンツを上記空間に出力する音響コンテンツ出力部とを備えた
ことを特徴とする請求項１３に記載の音場生成システム。
　非可聴周波数帯域の低周波音声である非可聴音をユーザに選択させる非可聴音選択部と、
　上記ユーザにより選択された上記非可聴音を、可聴周波数帯域の音声である可聴音が存在する空間に出力する非可聴音出力部とを備えた
ことを特徴とする音声処理装置。
　可聴周波数帯域の音声である可聴音を上記ユーザに選択させる可聴音選択部と、
　上記ユーザにより選択された上記可聴音と、上記ユーザにより選択された上記非可聴音とをミキシングすることにより、上記可聴音の周波数の性質と上記非可聴音の周波数の性質とを有する波形の融合音である音響コンテンツを生成する音響コンテンツ生成部とを更に備え、
　上記音響コンテンツ生成部により生成された上記音響コンテンツを上記空間に出力する音響コンテンツ出力部を上記非可聴音出力部に代えて備えた
ことを特徴とする請求項１５に記載の音声処理装置。
　可聴周波数帯域の音声である可聴音と、非可聴周波数帯域の低周波音声である非可聴音とがミキシングされて成る、上記可聴音の周波数の性質と上記非可聴音の周波数の性質とを有する波形の融合音である音響コンテンツをユーザに選択させる音響コンテンツ選択部と、
　上記ユーザにより選択された上記音響コンテンツを、上記可聴音が存在する空間に出力する音響コンテンツ出力部とを備えた
ことを特徴とする音声処理装置。
　上記非可聴音は、パワースポットの自然音から生成された低周波音声であることを特徴とする請求項１５～１７の何れか１項に記載の音声処理装置。
　上記非可聴音は、パワースポットの自然音に含まれる低周波音声を模擬するように生成された人工音の低周波音声であることを特徴とする請求項１５～１７の何れか１項に記載の音声処理装置。
　可聴周波数帯域の音声である可聴音の周波数の性質と非可聴周波数帯域の低周波音声である非可聴音の周波数の性質とを有する波形の音響コンテンツをユーザに選択させる音響コンテンツ選択部と、
　上記ユーザにより選択された上記音響コンテンツを、上記可聴音が存在する空間に出力する音響コンテンツ出力部とを備え、
　上記音響コンテンツは、上記可聴音の音圧または振幅が加工されて、加工後の音声のエンベロープ波形により規定される周波数が上記非可聴音の周波数となるように生成された音声である
ことを特徴とする音声処理装置。
　コンピュータの非可聴音選択部が、非可聴周波数帯域の低周波音声である非可聴音をユーザに選択させる非可聴音選択ステップと、
　上記コンピュータの非可聴音出力部が、上記ユーザにより選択された上記非可聴音を、可聴周波数帯域の音声である可聴音が存在する空間に出力する非可聴音出力ステップとを有する
ことを特徴とする音声処理方法。
　上記コンピュータの可聴音選択部が、可聴周波数帯域の音声である可聴音を上記ユーザに選択させる可聴音選択ステップと、
　上記コンピュータの音響コンテンツ生成部が、上記ユーザにより選択された上記可聴音と、上記ユーザにより選択された上記非可聴音とをミキシングすることにより、上記可聴音の周波数の性質と上記非可聴音の周波数の性質とを有する波形の融合音である音響コンテンツを生成する音響コンテンツ生成ステップとを更に有し、
　上記音響コンテンツ生成部により生成された上記音響コンテンツを上記空間に出力する音響コンテンツ出力ステップを上記非可聴音出力ステップに代えて有する
ことを特徴とする請求項２１に記載の音声処理方法。
　コンピュータの音響コンテンツ選択部が、可聴周波数帯域の音声である可聴音と、非可聴周波数帯域の低周波音声である非可聴音とがミキシングされて成る、上記可聴音の周波数の性質と上記非可聴音の周波数の性質とを有する波形の融合音である音響コンテンツをユーザに選択させる音響コンテンツ選択ステップと、
　上記コンピュータの音響コンテンツ出力部が、上記ユーザにより選択された上記音響コンテンツを、上記可聴音が存在する空間に出力する音響コンテンツ出力ステップとを有する
ことを特徴とする音声処理方法。
　コンピュータの音響コンテンツ選択部が、可聴周波数帯域の音声である可聴音の周波数の性質と非可聴周波数帯域の低周波音声である非可聴音の周波数の性質とを有する波形の音響コンテンツをユーザに選択させる音響コンテンツ選択ステップと、
　上記コンピュータの音響コンテンツ出力部が、上記ユーザにより選択された上記音響コンテンツを、上記可聴音が存在する空間に出力する音響コンテンツ出力ステップとを有し、
　上記音響コンテンツは、上記可聴音の音圧または振幅が加工されて、加工後の音声のエンベロープ波形により規定される周波数が上記非可聴音の周波数となるように生成された音声である
ことを特徴とする音声処理方法。