WO2023119451A1

WO2023119451A1 - 生成装置、生成方法及び生成プログラム

Info

Publication number: WO2023119451A1
Application number: PCT/JP2021/047419
Authority: WO
Inventors: リドウィナアユアンダリニ; 徹西村; 貴司久保; 和哉松尾; 克洋鈴木
Original assignee: 日本電信電話株式会社
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2023-06-29

Abstract

生成装置（１００）は、サイバー空間上に写像された物体のインタラクションを検知した場合に、物体の素材情報を基にして、物体の係数情報を取得する係数取得部（１２０）と、物体の位置情報、形状情報、係数情報を、機械学習モデルに入力することで、物体のインタラクションに対応する音源の種別と音源の強度とを関連付けた統計情報を算出し、統計情報に対応する音源情報を選択する音源選択部（１３０）と、統計情報および音源情報を基にして、音源情報を合成した合成音源情報を生成し、合成音源情報に対して、位置情報に基づく３次元音レンダリングを実行することで、合成音源情報を３次元化した３次元音源情報を生成する音声合成部（１４０）とを有する。

Description

生成装置、生成方法及び生成プログラム

　本発明は、生成装置、生成方法及び生成プログラムに関する。

　実空間上の対象物をサイバー空間上に写像するデジタルツイン（ＤＴ:Digital　Twin）技術が、ＩＣＴ（Information　and　Communication　Technology）技術の進展により実現され、注目されている。ＤＴは、例えば工場における生産機械、航空機のエンジン、自動車などの実世界の対象物を、形状、状態、機能などをサイバー空間上へ写像し、正確に表現したものである。

　このＤＴを用いることによって、サイバー空間内で対象物に関する現状分析、将来予測、可能性のシミュレーションなどを行うことが可能となる。さらに、その結果に基づいて実世界の対象をインテリジェントに制御するなど、サイバー空間の恩恵、例えば、ＩＣＴ技術を活用しやすいといった恩恵を、実世界の対象にフィードバックさせることが可能になる。

　今後、実世界の様々な対象のＤＴ化が進むことにより、産業を超えた異種・多様なＤＴを相互作用（インタラクション）させたり、それらを組み合わせたりすることによる産業間の連携や、大規模なシミュレーションに対する需要が高まるものと考えられる。

　ＤＴをユーザ自身が用いる場合、または、ＤＴをユーザのＤＴ（ヒトＤＴ）が用いる場合には、ＤＴ同士のインタラクションを、現実世界と同様にユーザやヒトＤＴが認識する必要がある。

　人間は五感を用いて、現実世界の事象を認識する。そのため、ＤＴ同士のインタラクションを認識するためには、インタラクションの視覚的・聴覚的・嗅覚的・味覚的情報をデジタル化する必要がある。ここでは、聴覚的情報に関する、音情報のデジタル化に着目する。

　図１０は、モノのＤＴ化に関する音発生イメージを説明するための図である。ＤＴＣ（Digital　Twin　Computing）の概念では、実世界にあるモノをデジタル化することで、デジタル空間でモノを加工・編集したり、他のモノとインタラクションさせたりすることができる。

　図１０に示す例では、実世界のモノ１０をデジタル化したモノ１１を生成する。また、モノ１１と、他のモノ１２とをインタラクションさせ、音「ポック」を発生させる。モノ１１を加工・編集することで、モノ１１ａを生成し、モノ１１ａと、他のモノ１２ａとをインタラクションさせ、音「コン」を発生させる。モノ１１を加工・編集することで、モノ１１ｂを生成し、モノ１１ｂと、他のモノ１２ｂとをインタラクションさせ、音「チャリン」を発生させる。

　図１０で説明した音を発生させるために、手動で音を付与する場合がある。図１１は、手動での音ＦＢの付与手順を説明するための図である。図１１に示すように、まず、仮想物体を定義する（ステップＳ１０）。たとえば、仮想物体ｏｂ１－１、ｏｂ１－２、ｏｂ１－３、ｏｂ２－１、ｏｂ２－２、ｏｂ２－３が定義されている。

　続いて、仮想物体が可能なインタラクションを定義する（ステップＳ１１）。図１１に示す例では、仮想物体２－３と、仮想物体１－１とのインタラクションｉｎｔ１を定義する。最後に、インタラクションｉｎｔ１に対して、音を付与する（ステップＳ１２）。

　上記の従来技術は、手動で音を付与する技術であるが、映像を解析して効果音声を合成する従来技術がある。図１２は、映像を解析して効果音声を合成する襲来技術の処理手順を示すフローチャートである。

　図１２に示すように、従来技術では、物体の材質およびインタラクションを選択する（ステップＳ２０）。図１２に示す例では、グループＧ１に含まれる複数の候補から材質を選択し、グループＧ２に含まれる複数の候補からインタラクションを選択する。

　従来技術では、選択した材質とインタラクションに対するサウンドテクスチャ（sound　texture）を生成する（ステップＳ２１）。サウンドテクスチャには、各材質のサウンドテクスチャｓｏ１や、各インタラクションのサウンドテクスチャｓｏ２が存在する。

　従来技術では、ＮＮ（Neural　Network）１６を用いて、二次元の映像１７を解析し、サウンドテクスチャｓｏ１，ｓｏ２を組み合わせた適切な音１８を合成する（ステップＳ２２）。

Andrew　Owens,　et　al.　"Visually　Indicated　Sounds" Josh　H.　McDermott,　Eero　P.　Simoncelli,"Sound　Texture　Perception　via　Statistics　of　the　Auditory　Periphery:　Evidence　from　Sound　Synthesis" Xiao-li　Zhong,　Bo-sun　Xie,"Head-Related　Transfer　Functions　and　Virtual　Auditory　Display"

　図１２で説明した従来技術では、２次元の映像１７を解析して、物体の材質およびインタラクションに対するサウンドテキストｓｏ１，ｓｏ２を合成するものであるため、音源の位置が必要となる３次元空間にそのまま適用することができないという課題がある。

　２次元の音合成とは異なり、３次元空間の音合成では、音源の位置を適切に設定しないとユーザにとって不自然な音となる。図１３は、３次元空間の一例を示す図である。図１３に示す３次元空間１５において、ユーザ１５ａの前方右上の位置に物体１５ｂが存在している。物体１５ｂを音源とする音は、ユーザ１５ａの前方右上から聞こえるように設定しないと、ユーザ１５ａにとって不自然である。

　本発明は、上記に鑑みてなされたものであって、３次元空間においても現実的な音を合成することができる生成装置、生成方法及び生成プログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、生成装置は、サイバー空間上に写像された物体のインタラクションを検知した場合に、物体の素材情報を基にして、物体の係数情報を取得する係数取得部と、物体の位置情報、形状情報、係数情報を、機械学習モデルに入力することで、物体のインタラクションに対応する音源の種別と音源の強度とを関連付けた統計情報を算出し、統計情報に対応する音源情報を選択する音源選択部と、統計情報および音源情報を基にして、音源情報を合成した合成音源情報を生成し、合成音源情報に対して、位置情報に基づく３次元音レンダリングを実行することで、合成音源情報を３次元化した３次元音源情報を生成する音声合成部とを有することを特徴とする。

　本発明によれば、３次元空間においても現実的な音を合成することができる。

図１は、本実施例において用いられるＤＴデータを説明する図である。図２は、本実施例に係る生成装置の構成を示す機能ブロック図である。図３は、音源ＤＢが記憶するサウンドエレメントの一例を示す図である。図４は、選択部の処理を説明するための図である。図５は、本実施例に係る生成装置の処理手順を示すフローチャートである。図６は、係数取得処理の処理手順を示すフローチャートである。図７は、音源選択処理の処理手順を示すフローチャートである。図８は、音声合成処理の処理手順を示すフローチャートである。図９は、生成プログラムを実行するコンピュータの一例を示す図である。図１０は、モノのＤＴ化に関する音発生イメージを説明するための図である。図１１は、手動での音ＦＢの付与手順を説明するための図である。図１２は、映像を解析して効果音声を合成する襲来技術の処理手順を示すフローチャートである。図１３は、３次元空間の一例を示す図である。

　以下に、本願の開示する生成装置、生成方法及び生成プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

　ＤＴ（Digital　Twin）技術では、実空間上の物体をサイバー空間（デジタルの３次元空間）上に写像する。サイバー空間上に写像された物体のデータを、ＤＴデータと表記する。ユーザは、サイバー空間上に写像された物体のＤＴデータを、ＶＲ（Virtual　Reality：仮想現実）あるいはＡＲ（Augmented　Reality：拡張現実）を用いて視聴することができる。

　図１は、本実施例において用いられるＤＴデータを説明する図である。図１に示すように、ＤＴデータには、物体の、位置、姿勢、形状、外観、材質、及び、質量をパラメータとして含む。

　位置は、物体の位置を一意に特定する物体の位置座標（ｘ，ｙ，ｚ）である。姿勢は、物体の向きを一意に特定する、物体の姿勢情報（yaw，roll，pitch）である。形状は、表示する立体の形状を表すメッシュ（mesh）情報または幾何学（geometry）情報である。外観は、物体表面の色情報である。材質は、物体の材質を示す情報である。質量は、物体の質量を示す情報である。

　本実施例に係る生成装置は、サイバー空間上において、物体のインタラクションを検知した場合に、物体の素材情報（形状、質量、材質を含む情報）を基にして、物体の係数情報（摩擦係数、減衰係数）を取得する。

　生成装置は、物体の位置情報、形状情報、係数情報を、訓練済みの機械学習モデルに入力することで、物体のインタラクションに対応する音源の種別と音源の強度とを対応付けた統計情報を算出し、音源ＤＢから、統計情報に対応する音源情報を選択する。

　生成装置は、統計情報および音源情報を基にして、音源情報を合成した合成音源情報を生成する。生成装置は、合成音源情報に対して、物体の位置情報に基づく３次元音レンダリングを実行することで、３次元音源情報を生成し、ＶＲ装置またはＡＲ装置等のデバイスに、３次元音源情報を出力する。

　生成装置が、上記処理を実行することで、現実的な３次元音源情報を生成して出力することができる。かかる３次元音源情報は、サイバー空間を体感しているユーザにとって自然な音源となる。

　次に、本実施例に係る生成装置の構成例について説明する。図２は、本実施例に係る生成装置の構成を示す機能ブロック図である。図２に示すように、この生成装置１００は、デバイス５０に接続される。たとえば、デバイス５０は、ＶＲデバイス、ＡＲデバイス等に対応する。デバイス５０は、実空間上の物体をサイバー空間上に写像する装置であり、サイバー空間上の各物体のＤＴデータは、図１で示したデータで定義される。各物体が動的な物体である場合には、予め設定されたシナリオ情報に従って、サイバー空間上を移動し、インタラクションを発生させる。動的な物体は、他の動的な物体とインタラクションを発生させる場合や、静的な物体とインタラクションを発生させる場合がある。

　デバイス５０は、各物体に対応するＤＴデータ（時系列のＤＴデータ）を、生成装置１００に出力する。また、デバイス５０は、生成装置１００によって生成される３次元音源情報を取得し、サイバー空間上において、３次元音源を発生させる。

　図２に示す例では、デバイス５０と、生成装置１００とを別々に示すが、デバイス５０の機能と、生成装置１００の機能とを有する一つの装置であってもよい。

　生成装置１００は、インタラクション検知部１１０と、物理情報取得部１１０ａと、オブジェクト抽出部１１０ｂと、係数取得部１２０と、音源選択部１３０と、音声合成部１４０とを有する。

　インタラクション検知部１１０は、デバイス５０から、各物体のＤＴデータを取得し、物体のインタラクションを検知する。インタラクションは、予め定義されているものとする。たとえば、インタラクション検知部１１０は、複数の物体間の距離が閾値未満となった場合に、衝突（インタラクション）を検知する。

　インタラクション検知部１１０は、インタラクションを検知した場合に、対象オブジェクト情報を、物理情報取得部１１０ａに出力し、シナリオ情報を、オブジェクト抽出部１１０ｂに出力する。対象オブジェクト情報には、インタラクションに関連する物体のＤＴデータであって、インタラクションを検知した前後一定時間のＤＴデータが含まれる。シナリオ情報には、インタラクションの種別と、インタラクションに関連する物体のＤＴデータ等が含まれる。

　物理情報取得部１１０ａは、対象オブジェクト情報を基にして、インタラクション検知時の物体の形状情報、位置情報、移動情報を算出する。たとえば、物体の形状は、衝突面積の情報を含む。位置情報は、インタラクションが検知された時点の物体のサイバー空間上の３次元位置の情報を含む。移動情報は、インタラクションが検知される直前の移動速度・移動方向の情報を含む。

　物理情報取得部１１０ａは、形状情報、位置情報、移動情報を、音源選択部１３０に出力する。物理情報取得部１１０ａは、位置情報、移動情報を、音声合成部１４０に出力する。

　オブジェクト抽出部１１０ｂは、シナリオ情報を基にして、インタラクションに関連する物体の素材情報を抽出する。素材情報には、物体の形状、質量、材質の情報を含む。オブジェクト抽出部１１０ｂは、抽出した素材情報を、係数取得部１２０と、音源選択部１３０に出力する。

　係数取得部１２０は、材質ＤＢ（DataBase）１２０ａと、取得部１２０ｂとを有する。

　材質ＤＢ１２０ａは、物体の形状、質量、材質の組合せに対応する物質の摩擦係数および減衰係数の情報を記憶する。

　取得部１２０ｂは、素材情報（形状、質量、材質）と、材質ＤＢ１２０ａとを基にして、素材情報に対応する摩擦係数および減衰係数を取得する。取得部１２０ｂは、取得した摩擦係数および減衰係数を、係数情報に設定し、係数情報を、音源選択部１３０に出力する。

　音源選択部１３０は、音源ＤＢ１３０ａと、選択部１３０ｂとを有する。

　音源ＤＢ１３０ａは、複数のサウンドエレメントを記憶する。サウンドエレメントには、それぞれ異なる周波数の正弦波の情報、サウンドテクスチャの情報が含まれる。サウンドテクスチャには、small　recordingsや、cochleagramに関する情報が含まれる。

　たとえば、音源ＤＢ１３０ａは、複数の材質のサウンドエレメントの音源、複数のインタラクションのサウンドエレメントの音源を記憶する。図３は、音源ＤＢ１３０ａが記憶するサウンドエレメントの一例を示す図である。図３において、材質に関するサウンドエレメントse_m₁，se_m₂，se_m₃，se_m₄，・・・，se_m_nと、インタラクションに関するサウンドエレメントse_i₁，se_i₂，・・・，se_i_nとを示す。各サウンドエレメントは、周波数、時間、音源の強度を対応付けた情報となる。各サウンドエレメントには、材質、インタラクションを識別する。

　材質には、たとえば、Brick，Carpet，Ceramic，Fabric，Foliage，Food，Blass，Hair，Leather，Metal，Mirror，Other，Painted，Paper，Plastic，Pol，Stone，Skin，Sky，Tile，Wallpaper，Water，Woodの２３種類がある。

　選択部１３０ｂは、物体の位置情報、形状情報を、物理情報取得部１１０ａから取得する。選択部１３０ｂは、係数情報を、係数取得部１２０から取得する。

　選択部１３０ｂは、訓練済みの機械学習モデルに、物体の位置情報、形状情報、係数情報を入力することで、物体のインタラクションに対応する統計情報を算出する。選択部１３０ｂは、統計情報に対応する音源情報を、音源ＤＢ１３０ａから選択する。選択部１３０ｂは、統計情報と、音源情報とを、音声合成部１４０に出力する。

　図４は、選択部の処理を説明するための図である。図４に示す例では、物体の位置情報、形状情報、係数情報をまとめて、物体関連情報３０とする。たとえば、物体関連情報３０には、下記の（１）～（６）の情報が含まれるものとする。
（１）物体の質量
（２）摩擦係数、減衰係数
（３）衝突面積
（４）衝突部分の素材
（５）衝突部分の速度
（６）衝突部分の加速度

　選択部１３０ｂは、物体関連情報３０に対して、ＰＣＡ（Principal　Component　Analysis）を行うことで、次元削除（Dimension　reduction）する。選択部１３０ｂは、どのような従来技術を用いて次元削減を行ってよい。選択部１３０ｂは、（１）～（６）のうち、何れかの情報を選択して、次元削減を行ってもよい。

　選択部１３０ｂは、次元削除を行った物体関連情報３０を、機械学習モデル３５に入力することで、統計情報３６を算出する。機械学習モデル３５は、Reccurent　Neural　Network、Convolutional　Neural　Network等に対応する。

　たとえば、統計情報では、各音源の識別情報と、音源の強度とを対応付ける。統計情報３６には、材質に関するサウンドエレメントse_m₁　20％，se_m₂　70％，se_m₃　10％と、インタラクションに関するサウンドエレメントse_i₁　80％，se_i₂　20％が含まれる。統計情報３６において、材質に関するサウンドエレメントの強度を合計すると、１００％となる。また、インタラクションに関するサウンドエレメントの強度を合計すると、１００％となる。

　選択部１３０ｂは、統計情報３６に対応する音源情報を、音源ＤＢ１３０ａから選択する。選択部１３０ｂは、統計情報（たとえば、統計情報３６）、音源情報を、音声合成部１４０に出力する。

　ここで、選択部１３０ｂが利用する機械学習モデル３５は、入力データと、正解ラベルとの組からなる教師データを基にして、予め訓練されているものとする。入力データは、物体関連情報３０に相当する。正解ラベルは、音源の識別情報と、音源の強度とを対応付けた情報となる。

　図２の説明に戻る。音声合成部１４０は、物理情報取得部１１０ａから、位置情報と、移動情報を取得する。音声合成部１４０は、音源選択部１３０から、統計情報と、音源情報とを取得する。音声合成部１４０は、統計情報と、音源情報と、位置情報と、移動情報と基にして、３次元音源情報を生成する。

　音声合成部１４０は、合成部１４０ａと、レンダリング部１４０ｂとを有する。

　合成部１４０ａは、統計情報と、音源情報とを基にして、音源情報を合成した合成音源情報を生成する。たとえば、合成部１４０ａは、非特許文献２を用いて、音源情報のサウンドエレメントを連結させ、合成音源情報を生成する。

　合成部１４０ａは、生成した合成音源情報を、レンダリング部１４０ｂに出力する。

　レンダリング部１４０ｂは、合成音源情報と、位置情報と、移動情報とを基にして、３次元音レンダリングを実行することで、合成音源情報を３次元化した３次元音源情報（3D　waeform）を生成する。たとえば、レンダリング部１４０ｂは、非特許文献３を用いて、３次元音レンダリングを実行する。レンダリング部１４０ｂは、３次元音源情報を、送信部１５０に出力する。

　送信部１５０は、３次元音源情報を、デバイス５０に送信する。

　次に、本実施例に係る生成装置１００の処理手順について説明する。図５は、本実施例に係る生成装置の処理手順を示すフローチャートである。図５に示すように、生成装置１００のインタラクション検知部１１０は、デバイス５０からＤＴデータを取得する（ステップＳ１０１）。生成装置１００のインタラクション検知部１１０は、インタラクションを検知しない場合には（ステップＳ１０２，Ｎｏ）、ステップＳ１０１に移行する。

　一方、インタラクション検知部１１０が、インタラクションを検知した場合には（ステップＳ１０２，Ｙｅｓ）、ステップＳ１０３に移行する。生成装置１００の物理情報取得部１１０ａは、インタラクション検知部１１０から取得する対象オブジェクト情報を基にして、インタラクションした物体に関する形状情報、位置情報、移動情報を算出する（ステップＳ１０３）。

　生成装置１００のオブジェクト抽出部１１０ｂは、インタラクション検知部１１０から取得するシナリオ情報を基にして、インタラクションした物体に関する素材情報を抽出する（ステップＳ１０４）。

　生成装置１００の係数取得部１２０は、係数取得処理を実行する（ステップＳ１０５）。生成装置１００の音源選択部１３０は、音源選択処理を実行する（ステップＳ１０６）。生成装置１００の音声合成部１４０は、音声合成処理を実行する（ステップＳ１０７）。

　生成装置１００の送信部１５０は、３次元音源情報をデバイス５０に送信する（ステップＳ１０８）。

　次に、図５のステップＳ１０５に示した係数取得処理の処理手順の一例について説明する。図６は、係数取得処理の処理手順を示すフローチャートである。図６に示すように、係数取得部１２０の取得部１２０ｂは、インタラクションした各物体の素材情報を取得する（ステップＳ２０１）。

　取得部１２０ｂは、素材情報を基にして、摩擦係数および減衰係数を材質ＤＢ１２０ａから検索する（ステップＳ２０２）。取得部１２０ｂは、摩擦係数および減衰係数を、音源選択部１３０に出力する（ステップＳ２０３）。

　次に、図５のステップＳ１０６に示した音源選択処理の処理手順の一例について説明する。図７は、音源選択処理の処理手順を示すフローチャートである。図７に示すように、音源選択部１３０の選択部１３０ｂは、物体の位置情報、形状情報、係数情報を取得する（ステップＳ３０１）。

　選択部１３０ｂは、物体関連情報に対して、次元削減を実行する（ステップＳ３０２）。選択部１３０ｂは、次元削減を実行した物体関連情報を機械学習モデルに入力し、統計情報を算出する（ステップＳ３０３）。

　選択部１３０ｂは、統計情報に対応する音源情報を音源ＤＢ１３０ａから取得する（ステップＳ３０４）。選択部１３０ｂは、統計情報および音源情報を音声合成部１４０に出力する（ステップＳ３０５）。

　次に、図５のステップＳ１０７に示した音声合成処理の処理手順の一例について説明する。図８は、音声合成処理の処理手順を示すフローチャートである。図８に示すように、音声合成部１４０の合成部１４０ａは、位置情報、移動情報、統計情報、音源情報を取得する（ステップＳ４０１）。

　合成部１４０ａは、統計情報を基にして、音源情報のサウンドエレメントを連結することで、合成音源情報を生成する（ステップＳ４０２）。音声合成部１４０のレンダリング部１４０ｂは、合成音源情報と、位置情報と、移動情報とを基にして、３次元音レンダリングを実行し、３次元音源情報を生成する（ステップＳ４０３）。

　レンダリング部１４０ｂは、３次元音源情報を出力する（ステップＳ４０４）。

　次に、本実施例に係る生成装置１００の効果について説明する。生成装置１００は、サイバー空間上において、物体のインタラクションを検知した場合に、物体の素材情報（形状、質量、材質を含む情報）を基にして、物体の係数情報（摩擦係数、減衰係数）を取得する。生成装置１００は、物体の位置情報、形状情報、係数情報を、訓練済みの機械学習モデルに入力することで、物体のインタラクションに対応する音源の種別と音源の強度とを対応付けた統計情報を算出し、音源ＤＢ１３０ａから、統計情報に対応する音源情報を選択する。生成装置１００は、統計情報および音源情報を基にして、音源情報を合成した合成音源情報を生成し、合成音源情報に対して、物体の位置情報に基づく３次元音レンダリングを実行することで、３次元音源情報を生成し、デバイス５０に出力する。

　生成装置１００が、上記処理を実行することで、現実的な３次元音源情報を生成して出力することができる。かかる３次元音源情報は、デバイス５０を用いて、サイバー空間を体感しているユーザにとって自然な音源となる。

　生成装置１００は、位置情報、形状情報、係数情報に対して、次元削減を実行し、次元削減の実行結果となる情報を、機械学習モデルに入力することで、統計情報を算出する。これによって、機械学習モデルを用いた計算コストを削減することができる。

　生成装置１００は、インタラクションとして、２つの物体の衝突を検知した場合に、２つの物体の衝突部分の速度、衝突部分の加速度、２つの物体の位置を、位置情報として取得する。かかる位置情報を用いることで、サイバー空間上の３次元音源情報を精度よく生成することができる。

　続いて、生成プログラムを実行するコンピュータの一例について説明する。図９は、生成プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、たとえば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、たとえば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、たとえば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、たとえば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、たとえば、ディスプレイ１０６１が接続される。

　ここで、ハードディスクドライブ１０３１は、たとえば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各情報は、たとえばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

　また、生成プログラムは、たとえば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明したインタラクション検知部１１０、物理情報取得部１１０ａ、オブジェクト抽出部１１０ｂ、係数取得部１２０、音源選択部１３０、音声合成部１４０、送信部１５０を実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

　また、生成プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、たとえば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

　なお、生成プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、たとえば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、生成プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide　Area　Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

　　５０　　デバイス
　１００　　生成装置
　１１０　　インタラクション検知部
　１１０ａ　物理情報取得部
　１１０ｂ　オブジェクト抽出部
　１２０　　係数取得部
　１２０ａ　材質ＤＢ
　１２０ｂ　取得部
　１３０　　音源選択部
　１３０ａ　音源ＤＢ
　１３０ｂ　選択部
　１４０　　音声合成部
　１４０ａ　合成部
　１４０ｂ　レンダリング部
　１５０　　送信部

Claims

　サイバー空間上に写像された物体のインタラクションを検知した場合に、前記物体の素材情報を基にして、前記物体の係数情報を取得する係数取得部と、
　前記物体の位置情報、形状情報、前記係数情報を、機械学習モデルに入力することで、前記物体のインタラクションに対応する音源の種別と音源の強度とを関連付けた統計情報を算出し、前記統計情報に対応する音源情報を選択する音源選択部と、
　前記統計情報および前記音源情報を基にして、前記音源情報を合成した合成音源情報を生成し、前記合成音源情報に対して、前記位置情報に基づく３次元音レンダリングを実行することで、前記合成音源情報を３次元化した３次元音源情報を生成する音声合成部と
　を有することを特徴とする生成装置。
　前記音源選択部は、前記位置情報、前記形状情報、前記係数情報に対して次元削減を実行し、次元削減の実行結果となる情報を、前記機械学習モデルに入力し、前記統計情報を算出することを特徴とする請求項１に記載の生成装置。
　前記インタラクションとして、２つの物体の衝突を検知した場合に、前記２つの物体の衝突部分の速度、衝突部分の加速度、前記２つの物体の位置を、前記位置情報として取得する物体情報取得部を更に有することを特徴とする請求項１に記載の生成装置。
　生成装置が実行する生成方法であって、
　サイバー空間上に写像された物体のインタラクションを検知した場合に、前記物体の素材情報を基にして、前記物体の係数情報を取得する係数取得工程と、
　前記物体の位置情報、形状情報、前記係数情報を、機械学習モデルに入力することで、前記物体のインタラクションに対応する音源の種別と音源の強度とを関連付けた統計情報を算出し、前記統計情報に対応する音源情報を選択する音源選択工程と、
　前記統計情報および前記音源情報を基にして、前記音源情報を合成した合成音源情報を生成し、前記合成音源情報に対して、前記位置情報に基づく３次元音レンダリングを実行することで、前記合成音源情報を３次元化した３次元音源情報を生成する音声合成工程と
　を含んだことを特徴とする生成方法。
　コンピュータを、請求項１～３のいずれか一つに記載の生成装置として機能させるための生成プログラム。