WO2023119451A1 - 生成装置、生成方法及び生成プログラム - Google Patents

生成装置、生成方法及び生成プログラム Download PDF

Info

Publication number
WO2023119451A1
WO2023119451A1 PCT/JP2021/047419 JP2021047419W WO2023119451A1 WO 2023119451 A1 WO2023119451 A1 WO 2023119451A1 JP 2021047419 W JP2021047419 W JP 2021047419W WO 2023119451 A1 WO2023119451 A1 WO 2023119451A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
sound source
coefficient
interaction
sound
Prior art date
Application number
PCT/JP2021/047419
Other languages
English (en)
French (fr)
Inventor
リドウィナ アユ アンダリニ
徹 西村
貴司 久保
和哉 松尾
克洋 鈴木
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/047419 priority Critical patent/WO2023119451A1/ja
Publication of WO2023119451A1 publication Critical patent/WO2023119451A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present invention relates to a generation device, a generation method, and a generation program.
  • DT Digital Twin
  • FIG. 10 is a diagram for explaining a sound generation image related to DTization of objects.
  • DTC Digital Twin Computing
  • an object 11 is generated by digitizing an object 10 in the real world. Also, the object 11 and another object 12 are caused to interact to generate a sound "pock". By processing and editing the thing 11, the thing 11a is generated, the thing 11a interacts with another thing 12a, and the sound "kon” is generated. By processing and editing the thing 11, the thing 11b is generated, the thing 11b interacts with another thing 12b, and the sound "ring" is generated.
  • FIG. 11A and 11B are diagrams for explaining a procedure for manually adding the sound FB.
  • a virtual object is defined (step S10).
  • virtual objects ob1-1, ob1-2, ob1-3, ob2-1, ob2-2, and ob2-3 are defined.
  • step S11 define interactions that the virtual object is capable of (step S11).
  • an interaction int1 between the virtual object 2-3 and the virtual object 1-1 is defined.
  • a sound is given to the interaction int1 (step S12).
  • FIG. 12 is a flow chart showing a processing procedure of an attack technique for analyzing video and synthesizing sound effects.
  • the conventional technology selects the material of the object and the interaction (step S20).
  • a material is selected from multiple candidates included in group G1
  • an interaction is selected from multiple candidates included in group G2.
  • a sound texture is generated for the selected material and interaction (step S21).
  • Sound textures include a sound texture so1 for each material and a sound texture so2 for each interaction.
  • an NN Neuronal Network 16 is used to analyze a two-dimensional image 17 and synthesize an appropriate sound 18 by combining sound textures so1 and so2 (step S22).
  • FIG. 13 is a diagram showing an example of a three-dimensional space.
  • an object 15b exists in the upper right position in front of the user 15a.
  • the sound generated by the object 15b is unnatural for the user 15a unless it is set so that it can be heard from the upper right in front of the user 15a.
  • the present invention has been made in view of the above, and aims to provide a generation device, generation method, and generation program capable of synthesizing realistic sounds even in a three-dimensional space.
  • the generation device acquires the coefficient information of the object based on the material information of the object when the interaction of the object mapped on the cyberspace is detected.
  • the coefficient acquisition unit and the position information, shape information, and coefficient information of the object By inputting the coefficient acquisition unit and the position information, shape information, and coefficient information of the object to the machine learning model, statistical information that associates the type of sound source and the intensity of the sound source corresponding to the interaction of the object is calculated.
  • a sound source selection unit that selects sound source information corresponding to information, generates synthesized sound source information by synthesizing sound source information based on statistical information and sound source information, and generates three-dimensional sound based on position information for the synthesized sound source information.
  • a speech synthesizing unit that generates three-dimensional sound source information by converting the synthesized sound source information into three dimensions by executing rendering.
  • FIG. 1 is a diagram for explaining DT data used in this embodiment.
  • FIG. 2 is a functional block diagram showing the configuration of the generation device according to this embodiment.
  • FIG. 3 is a diagram showing an example of sound elements stored in the sound source DB.
  • FIG. 4 is a diagram for explaining the processing of the selection unit;
  • FIG. 5 is a flow chart showing the processing procedure of the generation device according to the present embodiment.
  • FIG. 6 is a flowchart showing the procedure of coefficient acquisition processing.
  • FIG. 7 is a flow chart showing a processing procedure of sound source selection processing.
  • FIG. 8 is a flowchart showing a processing procedure of speech synthesis processing.
  • FIG. 9 is a diagram illustrating an example of a computer that executes a generating program
  • 10A and 10B are diagrams for explaining a sound generation image related to DT conversion of a mono object.
  • FIG. 11A and 11B are diagrams for explaining a procedure for manually adding the sound FB.
  • FIG. 12 is a flow chart showing a processing procedure of an attack technique for analyzing video and synthesizing sound effects.
  • FIG. 13 is a diagram showing an example of a three-dimensional space.
  • DT Digital Twin technology maps objects in real space onto cyber space (digital three-dimensional space). Data of an object mapped on cyberspace is referred to as DT data. A user can view DT data of an object mapped onto cyberspace using VR (Virtual Reality) or AR (Augmented Reality).
  • VR Virtual Reality
  • AR Augmented Reality
  • FIG. 1 is a diagram explaining the DT data used in this embodiment. As shown in FIG. 1, DT data includes the position, attitude, shape, appearance, material, and mass of an object as parameters.
  • the position is the position coordinates (x, y, z) of the object that uniquely identify the position of the object.
  • Pose is the pose information (yaw, roll, pitch) of an object that uniquely identifies the orientation of the object.
  • the shape is mesh information or geometry information representing the shape of the solid to be displayed. Appearance is the color information of the object surface.
  • the material is information indicating the material of the object. Mass is information indicating the mass of an object.
  • the generation device When detecting an interaction of an object in cyberspace, the generation device according to the present embodiment generates coefficient information (friction coefficient, Attenuation coefficient).
  • the generation device calculates statistical information that associates the type of sound source corresponding to the interaction of the object with the intensity of the sound source. Then, the sound source information corresponding to the statistical information is selected from the sound source DB.
  • the generating device generates synthesized sound source information by synthesizing sound source information based on statistical information and sound source information.
  • the generation device generates 3D sound source information by executing 3D sound rendering based on the position information of the object for the synthesized sound source information, and transmits the 3D sound source information to a device such as a VR device or an AR device. Output.
  • the generation device can generate and output realistic 3D sound source information by executing the above processing.
  • Such three-dimensional sound source information becomes a natural sound source for users experiencing cyberspace.
  • FIG. 2 is a functional block diagram showing the configuration of the generation device according to this embodiment.
  • this generator 100 is connected to a device 50 .
  • device 50 corresponds to a VR device, an AR device, or the like.
  • the device 50 is a device that maps objects in real space onto cyberspace, and DT data of each object in cyberspace is defined by the data shown in FIG.
  • each object is a dynamic object, it moves in cyberspace according to preset scenario information and causes interaction.
  • Dynamic objects may interact with other dynamic objects or may interact with static objects.
  • the device 50 outputs DT data (time-series DT data) corresponding to each object to the generation device 100 . Also, the device 50 acquires the 3D sound source information generated by the generation device 100 and generates a 3D sound source in cyberspace.
  • the device 50 and the generation device 100 are shown separately, but they may be one device having the functions of the device 50 and the generation device 100.
  • the generation device 100 includes an interaction detection unit 110, a physical information acquisition unit 110a, an object extraction unit 110b, a coefficient acquisition unit 120, a sound source selection unit 130, and a speech synthesis unit 140.
  • the interaction detection unit 110 acquires DT data of each object from the device 50 and detects interaction of the object. Interactions are assumed to be predefined. For example, the interaction detection unit 110 detects a collision (interaction) when the distance between multiple objects is less than a threshold.
  • the interaction detection unit 110 When the interaction detection unit 110 detects an interaction, it outputs target object information to the physical information acquisition unit 110a and outputs scenario information to the object extraction unit 110b.
  • the target object information includes DT data of an object related to an interaction, and includes DT data for a certain period of time before and after the interaction is detected.
  • the scenario information includes the type of interaction, DT data of objects related to the interaction, and the like.
  • the physical information acquisition unit 110a calculates the shape information, position information, and movement information of the object at the time of interaction detection based on the target object information.
  • the shape of an object contains information about the impact area.
  • the positional information includes information on the three-dimensional position of the object in cyberspace at the time when the interaction was detected.
  • the movement information includes information on the movement speed and movement direction immediately before the interaction is detected.
  • the physical information acquisition section 110a outputs the shape information, the position information, and the movement information to the sound source selection section 130. Physical information acquisition section 110 a outputs the position information and movement information to speech synthesis section 140 .
  • the object extraction unit 110b extracts material information of objects related to interaction based on the scenario information.
  • the material information includes information on the shape, mass, and material of the object.
  • the object extraction unit 110 b outputs the extracted material information to the coefficient acquisition unit 120 and the sound source selection unit 130 .
  • the coefficient acquisition unit 120 has a material DB (DataBase) 120a and an acquisition unit 120b.
  • the material DB 120a stores information on friction coefficients and damping coefficients of substances corresponding to combinations of shapes, masses, and materials of objects.
  • the acquisition unit 120b acquires the friction coefficient and damping coefficient corresponding to the material information based on the material information (shape, mass, material) and the material DB 120a. Acquisition section 120 b sets the acquired friction coefficient and damping coefficient in coefficient information, and outputs the coefficient information to sound source selection section 130 .
  • the sound source selection unit 130 has a sound source DB 130a and a selection unit 130b.
  • the sound source DB 130a stores a plurality of sound elements.
  • the sound elements contain sine wave information of different frequencies and sound texture information. Sound textures include information about small recordings and cochleagrams.
  • the sound source DB 130a stores sound sources of sound elements of multiple materials and sound elements of multiple interactions.
  • FIG. 3 is a diagram showing an example of sound elements stored in the sound source DB 130a.
  • FIG . 3 shows sound elements se_m1 , se_m2 , se_m3 , se_m4 , .
  • Each sound element is information that associates frequency, time, and intensity of the sound source. For each sound element, identify the material and interaction.
  • Materials include, for example, Brick, Carpet, Ceramic, Fabric, Foliage, Food, Brass, Hair, Leather, Metal, Mirror, Other, Painted, Paper, Plastic, Pol, Stone, Skin, Sky, Tile, Wallpaper, Water, There are 23 types of Wood.
  • the selection unit 130b acquires the position information and shape information of the object from the physical information acquisition unit 110a.
  • the selection unit 130 b acquires coefficient information from the coefficient acquisition unit 120 .
  • the selection unit 130b calculates statistical information corresponding to the interaction of the object by inputting the position information, shape information, and coefficient information of the object into the trained machine learning model.
  • the selection unit 130b selects sound source information corresponding to the statistical information from the sound source DB 130a.
  • Selection unit 130 b outputs the statistical information and the sound source information to speech synthesis unit 140 .
  • FIG. 4 is a diagram for explaining the processing of the selection unit;
  • the positional information, shape information, and coefficient information of an object are collectively referred to as object-related information 30 .
  • object-related information 30 includes information (1) to (6) below.
  • (1) Mass of object (2) Friction coefficient, damping coefficient (3) Collision area (4) Material of colliding part (5) Velocity of colliding part (6) Acceleration of colliding part
  • the selection unit 130b performs dimension reduction on the object-related information 30 by performing PCA (Principal Component Analysis).
  • the selection unit 130b may perform dimensionality reduction using any conventional technique.
  • the selection unit 130b may select any one of information from (1) to (6) to perform dimensionality reduction.
  • the selection unit 130b calculates the statistical information 36 by inputting the dimension-removed object-related information 30 into the machine learning model 35.
  • the machine learning model 35 corresponds to Reccurent Neural Network, Convolutional Neural Network, and the like.
  • the statistical information associates the identification information of each sound source with the strength of the sound source.
  • the statistical information 36 includes sound elements se_m1 20%, se_m2 70%, se_m3 10% for materials and sound elements se_i1 80%, se_i2 20 % for interactions.
  • the sum of the intensities of the sound elements related to the material is 100%.
  • the sum of the intensities of the sound elements related to the interaction is 100%.
  • the selection unit 130b selects sound source information corresponding to the statistical information 36 from the sound source DB 130a. Selection unit 130 b outputs statistical information (for example, statistical information 36 ) and sound source information to speech synthesis unit 140 .
  • the machine learning model 35 used by the selection unit 130b has been trained in advance based on teacher data consisting of pairs of input data and correct labels.
  • Input data corresponds to the object-related information 30 .
  • the correct label is information that associates the identification information of the sound source with the intensity of the sound source.
  • the speech synthesizing unit 140 acquires position information and movement information from the physical information acquiring unit 110a.
  • Speech synthesis section 140 acquires statistical information and sound source information from sound source selection section 130 .
  • the speech synthesis unit 140 generates three-dimensional sound source information based on statistical information, sound source information, position information, and movement information.
  • the speech synthesis unit 140 has a synthesis unit 140a and a rendering unit 140b.
  • the synthesizing unit 140a generates synthesized sound source information by synthesizing sound source information based on the statistical information and the sound source information. For example, synthesis section 140a uses Non-Patent Document 2 to connect sound elements of sound source information to generate synthesized sound source information.
  • the synthesizing unit 140a outputs the generated synthetic sound source information to the rendering unit 140b.
  • the rendering unit 140b generates three-dimensional sound source information (3D waeform) by converting the synthesized sound source information into three dimensions by executing three-dimensional sound rendering based on the synthesized sound source information, position information, and movement information. do.
  • the rendering unit 140b uses Non-Patent Document 3 to perform three-dimensional sound rendering.
  • the rendering unit 140b outputs the three-dimensional sound source information to the transmission unit 150.
  • the transmission unit 150 transmits the three-dimensional sound source information to the device 50.
  • FIG. 5 is a flow chart showing the processing procedure of the generation device according to the present embodiment.
  • the interaction detection unit 110 of the generation device 100 acquires DT data from the device 50 (step S101). If the interaction detection unit 110 of the generation device 100 does not detect an interaction (step S102, No), the process proceeds to step S101.
  • step S102 when the interaction detection unit 110 detects an interaction (step S102, Yes), the process proceeds to step S103.
  • the physical information acquisition unit 110a of the generation device 100 calculates shape information, position information, and movement information regarding the interacted object based on the target object information acquired from the interaction detection unit 110 (step S103).
  • the object extraction unit 110b of the generation device 100 extracts material information related to interacted objects based on the scenario information acquired from the interaction detection unit 110 (step S104).
  • the coefficient acquisition unit 120 of the generation device 100 executes coefficient acquisition processing (step S105).
  • the sound source selection unit 130 of the generation device 100 executes sound source selection processing (step S106).
  • the speech synthesizing unit 140 of the generating device 100 executes speech synthesizing processing (step S107).
  • the transmission unit 150 of the generation device 100 transmits the three-dimensional sound source information to the device 50 (step S108).
  • FIG. 6 is a flowchart showing the procedure of coefficient acquisition processing.
  • the acquisition unit 120b of the coefficient acquisition unit 120 acquires material information of each interacted object (step S201).
  • the acquisition unit 120b searches the material DB 120a for the friction coefficient and the damping coefficient (step S202).
  • the acquisition unit 120b outputs the friction coefficient and the damping coefficient to the sound source selection unit 130 (step S203).
  • FIG. 7 is a flow chart showing a processing procedure of sound source selection processing.
  • the selection unit 130b of the sound source selection unit 130 acquires position information, shape information, and coefficient information of an object (step S301).
  • the selection unit 130b performs dimensionality reduction on the object-related information (step S302).
  • the selection unit 130b inputs the dimensionally-reduced object-related information to the machine learning model, and calculates statistical information (step S303).
  • the selection unit 130b acquires the sound source information corresponding to the statistical information from the sound source DB 130a (step S304).
  • the selection unit 130b outputs the statistical information and the sound source information to the speech synthesis unit 140 (step S305).
  • FIG. 8 is a flowchart showing a processing procedure of speech synthesis processing.
  • the synthesizing unit 140a of the speech synthesizing unit 140 acquires position information, movement information, statistical information, and sound source information (step S401).
  • the synthesizing unit 140a generates synthetic sound source information by connecting the sound elements of the sound source information based on the statistical information (step S402).
  • the rendering unit 140b of the speech synthesizing unit 140 performs three-dimensional sound rendering based on the synthesized sound source information, position information, and movement information to generate three-dimensional sound source information (step S403).
  • the rendering unit 140b outputs the three-dimensional sound source information (step S404).
  • the generation device 100 When detecting an interaction of an object in cyberspace, the generation device 100 generates coefficient information (friction coefficient, damping coefficient) of the object based on material information (information including shape, mass, and material) of the object. get.
  • Generating device 100 inputs position information, shape information, and coefficient information of an object to a trained machine learning model to generate statistical information that associates the type of sound source corresponding to the interaction of the object with the intensity of the sound source. Then, the sound source information corresponding to the statistical information is selected from the sound source DB 130a.
  • the generation device 100 generates synthesized sound source information by synthesizing sound source information based on the statistical information and the sound source information, and performs three-dimensional sound rendering on the synthesized sound source information based on the position information of the object. 3D sound source information is generated and output to the device 50 .
  • the generation device 100 can generate and output realistic three-dimensional sound source information by executing the above processing. Such three-dimensional sound source information becomes a natural sound source for a user experiencing cyberspace using the device 50 .
  • the generating device 100 performs dimensionality reduction on the position information, shape information, and coefficient information, and inputs information resulting from the execution of dimensionality reduction into the machine learning model to calculate statistical information. This can reduce computational costs using machine learning models.
  • the generation device 100 detects a collision between two objects, it acquires the velocity of the colliding portion of the two objects, the acceleration of the colliding portion of the two objects, and the positions of the two objects as position information.
  • position information By using such position information, three-dimensional sound source information in cyberspace can be generated with high accuracy.
  • FIG. 9 is a diagram illustrating an example of a computer that executes a generating program.
  • Computer 1000 has, for example, memory 1010 , CPU 1020 , hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012 .
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • Hard disk drive interface 1030 is connected to hard disk drive 1031 .
  • Disk drive interface 1040 is connected to disk drive 1041 .
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041, for example.
  • a mouse 1051 and a keyboard 1052 are connected to the serial port interface 1050, for example.
  • a display 1061 is connected to the video adapter 1060, for example.
  • the hard disk drive 1031 stores an OS 1091, application programs 1092, program modules 1093 and program data 1094, for example. Each piece of information described in the above embodiment is stored in the hard disk drive 1031 or memory 1010, for example.
  • the generation program is stored in the hard disk drive 1031 as a program module 1093 in which instructions to be executed by the computer 1000 are written, for example. Specifically, each process that executes the interaction detection unit 110, the physical information acquisition unit 110a, the object extraction unit 110b, the coefficient acquisition unit 120, the sound source selection unit 130, the voice synthesis unit 140, and the transmission unit 150 described in the above embodiment.
  • a program module 1093 describing is stored in the hard disk drive 1031 .
  • data used for information processing by the generation program is stored as program data 1094 in the hard disk drive 1031, for example.
  • the CPU 1020 reads out the program module 1093 and the program data 1094 stored in the hard disk drive 1031 to the RAM 1012 as necessary, and executes each procedure described above.
  • program module 1093 and program data 1094 related to the generation program are not limited to being stored in the hard disk drive 1031.
  • they are stored in a removable storage medium and read by the CPU 1020 via the disk drive 1041 or the like.
  • the program module 1093 and program data 1094 related to the generating program are stored in another computer connected via a network such as LAN or WAN (Wide Area Network), and are read out by the CPU 1020 via the network interface 1070.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

生成装置(100)は、サイバー空間上に写像された物体のインタラクションを検知した場合に、物体の素材情報を基にして、物体の係数情報を取得する係数取得部(120)と、物体の位置情報、形状情報、係数情報を、機械学習モデルに入力することで、物体のインタラクションに対応する音源の種別と音源の強度とを関連付けた統計情報を算出し、統計情報に対応する音源情報を選択する音源選択部(130)と、統計情報および音源情報を基にして、音源情報を合成した合成音源情報を生成し、合成音源情報に対して、位置情報に基づく3次元音レンダリングを実行することで、合成音源情報を3次元化した3次元音源情報を生成する音声合成部(140)とを有する。

Description

生成装置、生成方法及び生成プログラム
 本発明は、生成装置、生成方法及び生成プログラムに関する。
 実空間上の対象物をサイバー空間上に写像するデジタルツイン(DT:Digital Twin)技術が、ICT(Information and Communication Technology)技術の進展により実現され、注目されている。DTは、例えば工場における生産機械、航空機のエンジン、自動車などの実世界の対象物を、形状、状態、機能などをサイバー空間上へ写像し、正確に表現したものである。
 このDTを用いることによって、サイバー空間内で対象物に関する現状分析、将来予測、可能性のシミュレーションなどを行うことが可能となる。さらに、その結果に基づいて実世界の対象をインテリジェントに制御するなど、サイバー空間の恩恵、例えば、ICT技術を活用しやすいといった恩恵を、実世界の対象にフィードバックさせることが可能になる。
 今後、実世界の様々な対象のDT化が進むことにより、産業を超えた異種・多様なDTを相互作用(インタラクション)させたり、それらを組み合わせたりすることによる産業間の連携や、大規模なシミュレーションに対する需要が高まるものと考えられる。
 DTをユーザ自身が用いる場合、または、DTをユーザのDT(ヒトDT)が用いる場合には、DT同士のインタラクションを、現実世界と同様にユーザやヒトDTが認識する必要がある。
 人間は五感を用いて、現実世界の事象を認識する。そのため、DT同士のインタラクションを認識するためには、インタラクションの視覚的・聴覚的・嗅覚的・味覚的情報をデジタル化する必要がある。ここでは、聴覚的情報に関する、音情報のデジタル化に着目する。
 図10は、モノのDT化に関する音発生イメージを説明するための図である。DTC(Digital Twin Computing)の概念では、実世界にあるモノをデジタル化することで、デジタル空間でモノを加工・編集したり、他のモノとインタラクションさせたりすることができる。
 図10に示す例では、実世界のモノ10をデジタル化したモノ11を生成する。また、モノ11と、他のモノ12とをインタラクションさせ、音「ポック」を発生させる。モノ11を加工・編集することで、モノ11aを生成し、モノ11aと、他のモノ12aとをインタラクションさせ、音「コン」を発生させる。モノ11を加工・編集することで、モノ11bを生成し、モノ11bと、他のモノ12bとをインタラクションさせ、音「チャリン」を発生させる。
 図10で説明した音を発生させるために、手動で音を付与する場合がある。図11は、手動での音FBの付与手順を説明するための図である。図11に示すように、まず、仮想物体を定義する(ステップS10)。たとえば、仮想物体ob1-1、ob1-2、ob1-3、ob2-1、ob2-2、ob2-3が定義されている。
 続いて、仮想物体が可能なインタラクションを定義する(ステップS11)。図11に示す例では、仮想物体2-3と、仮想物体1-1とのインタラクションint1を定義する。最後に、インタラクションint1に対して、音を付与する(ステップS12)。
 上記の従来技術は、手動で音を付与する技術であるが、映像を解析して効果音声を合成する従来技術がある。図12は、映像を解析して効果音声を合成する襲来技術の処理手順を示すフローチャートである。
 図12に示すように、従来技術では、物体の材質およびインタラクションを選択する(ステップS20)。図12に示す例では、グループG1に含まれる複数の候補から材質を選択し、グループG2に含まれる複数の候補からインタラクションを選択する。
 従来技術では、選択した材質とインタラクションに対するサウンドテクスチャ(sound texture)を生成する(ステップS21)。サウンドテクスチャには、各材質のサウンドテクスチャso1や、各インタラクションのサウンドテクスチャso2が存在する。
 従来技術では、NN(Neural Network)16を用いて、二次元の映像17を解析し、サウンドテクスチャso1,so2を組み合わせた適切な音18を合成する(ステップS22)。
 図12で説明した従来技術では、2次元の映像17を解析して、物体の材質およびインタラクションに対するサウンドテキストso1,so2を合成するものであるため、音源の位置が必要となる3次元空間にそのまま適用することができないという課題がある。
 2次元の音合成とは異なり、3次元空間の音合成では、音源の位置を適切に設定しないとユーザにとって不自然な音となる。図13は、3次元空間の一例を示す図である。図13に示す3次元空間15において、ユーザ15aの前方右上の位置に物体15bが存在している。物体15bを音源とする音は、ユーザ15aの前方右上から聞こえるように設定しないと、ユーザ15aにとって不自然である。
 本発明は、上記に鑑みてなされたものであって、3次元空間においても現実的な音を合成することができる生成装置、生成方法及び生成プログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するために、生成装置は、サイバー空間上に写像された物体のインタラクションを検知した場合に、物体の素材情報を基にして、物体の係数情報を取得する係数取得部と、物体の位置情報、形状情報、係数情報を、機械学習モデルに入力することで、物体のインタラクションに対応する音源の種別と音源の強度とを関連付けた統計情報を算出し、統計情報に対応する音源情報を選択する音源選択部と、統計情報および音源情報を基にして、音源情報を合成した合成音源情報を生成し、合成音源情報に対して、位置情報に基づく3次元音レンダリングを実行することで、合成音源情報を3次元化した3次元音源情報を生成する音声合成部とを有することを特徴とする。
 本発明によれば、3次元空間においても現実的な音を合成することができる。
図1は、本実施例において用いられるDTデータを説明する図である。 図2は、本実施例に係る生成装置の構成を示す機能ブロック図である。 図3は、音源DBが記憶するサウンドエレメントの一例を示す図である。 図4は、選択部の処理を説明するための図である。 図5は、本実施例に係る生成装置の処理手順を示すフローチャートである。 図6は、係数取得処理の処理手順を示すフローチャートである。 図7は、音源選択処理の処理手順を示すフローチャートである。 図8は、音声合成処理の処理手順を示すフローチャートである。 図9は、生成プログラムを実行するコンピュータの一例を示す図である。 図10は、モノのDT化に関する音発生イメージを説明するための図である。 図11は、手動での音FBの付与手順を説明するための図である。 図12は、映像を解析して効果音声を合成する襲来技術の処理手順を示すフローチャートである。 図13は、3次元空間の一例を示す図である。
 以下に、本願の開示する生成装置、生成方法及び生成プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
 DT(Digital Twin)技術では、実空間上の物体をサイバー空間(デジタルの3次元空間)上に写像する。サイバー空間上に写像された物体のデータを、DTデータと表記する。ユーザは、サイバー空間上に写像された物体のDTデータを、VR(Virtual Reality:仮想現実)あるいはAR(Augmented Reality:拡張現実)を用いて視聴することができる。
 図1は、本実施例において用いられるDTデータを説明する図である。図1に示すように、DTデータには、物体の、位置、姿勢、形状、外観、材質、及び、質量をパラメータとして含む。
 位置は、物体の位置を一意に特定する物体の位置座標(x,y,z)である。姿勢は、物体の向きを一意に特定する、物体の姿勢情報(yaw,roll,pitch)である。形状は、表示する立体の形状を表すメッシュ(mesh)情報または幾何学(geometry)情報である。外観は、物体表面の色情報である。材質は、物体の材質を示す情報である。質量は、物体の質量を示す情報である。
 本実施例に係る生成装置は、サイバー空間上において、物体のインタラクションを検知した場合に、物体の素材情報(形状、質量、材質を含む情報)を基にして、物体の係数情報(摩擦係数、減衰係数)を取得する。
 生成装置は、物体の位置情報、形状情報、係数情報を、訓練済みの機械学習モデルに入力することで、物体のインタラクションに対応する音源の種別と音源の強度とを対応付けた統計情報を算出し、音源DBから、統計情報に対応する音源情報を選択する。
 生成装置は、統計情報および音源情報を基にして、音源情報を合成した合成音源情報を生成する。生成装置は、合成音源情報に対して、物体の位置情報に基づく3次元音レンダリングを実行することで、3次元音源情報を生成し、VR装置またはAR装置等のデバイスに、3次元音源情報を出力する。
 生成装置が、上記処理を実行することで、現実的な3次元音源情報を生成して出力することができる。かかる3次元音源情報は、サイバー空間を体感しているユーザにとって自然な音源となる。
 次に、本実施例に係る生成装置の構成例について説明する。図2は、本実施例に係る生成装置の構成を示す機能ブロック図である。図2に示すように、この生成装置100は、デバイス50に接続される。たとえば、デバイス50は、VRデバイス、ARデバイス等に対応する。デバイス50は、実空間上の物体をサイバー空間上に写像する装置であり、サイバー空間上の各物体のDTデータは、図1で示したデータで定義される。各物体が動的な物体である場合には、予め設定されたシナリオ情報に従って、サイバー空間上を移動し、インタラクションを発生させる。動的な物体は、他の動的な物体とインタラクションを発生させる場合や、静的な物体とインタラクションを発生させる場合がある。
 デバイス50は、各物体に対応するDTデータ(時系列のDTデータ)を、生成装置100に出力する。また、デバイス50は、生成装置100によって生成される3次元音源情報を取得し、サイバー空間上において、3次元音源を発生させる。
 図2に示す例では、デバイス50と、生成装置100とを別々に示すが、デバイス50の機能と、生成装置100の機能とを有する一つの装置であってもよい。
 生成装置100は、インタラクション検知部110と、物理情報取得部110aと、オブジェクト抽出部110bと、係数取得部120と、音源選択部130と、音声合成部140とを有する。
 インタラクション検知部110は、デバイス50から、各物体のDTデータを取得し、物体のインタラクションを検知する。インタラクションは、予め定義されているものとする。たとえば、インタラクション検知部110は、複数の物体間の距離が閾値未満となった場合に、衝突(インタラクション)を検知する。
 インタラクション検知部110は、インタラクションを検知した場合に、対象オブジェクト情報を、物理情報取得部110aに出力し、シナリオ情報を、オブジェクト抽出部110bに出力する。対象オブジェクト情報には、インタラクションに関連する物体のDTデータであって、インタラクションを検知した前後一定時間のDTデータが含まれる。シナリオ情報には、インタラクションの種別と、インタラクションに関連する物体のDTデータ等が含まれる。
 物理情報取得部110aは、対象オブジェクト情報を基にして、インタラクション検知時の物体の形状情報、位置情報、移動情報を算出する。たとえば、物体の形状は、衝突面積の情報を含む。位置情報は、インタラクションが検知された時点の物体のサイバー空間上の3次元位置の情報を含む。移動情報は、インタラクションが検知される直前の移動速度・移動方向の情報を含む。
 物理情報取得部110aは、形状情報、位置情報、移動情報を、音源選択部130に出力する。物理情報取得部110aは、位置情報、移動情報を、音声合成部140に出力する。
 オブジェクト抽出部110bは、シナリオ情報を基にして、インタラクションに関連する物体の素材情報を抽出する。素材情報には、物体の形状、質量、材質の情報を含む。オブジェクト抽出部110bは、抽出した素材情報を、係数取得部120と、音源選択部130に出力する。
 係数取得部120は、材質DB(DataBase)120aと、取得部120bとを有する。
 材質DB120aは、物体の形状、質量、材質の組合せに対応する物質の摩擦係数および減衰係数の情報を記憶する。
 取得部120bは、素材情報(形状、質量、材質)と、材質DB120aとを基にして、素材情報に対応する摩擦係数および減衰係数を取得する。取得部120bは、取得した摩擦係数および減衰係数を、係数情報に設定し、係数情報を、音源選択部130に出力する。
 音源選択部130は、音源DB130aと、選択部130bとを有する。
 音源DB130aは、複数のサウンドエレメントを記憶する。サウンドエレメントには、それぞれ異なる周波数の正弦波の情報、サウンドテクスチャの情報が含まれる。サウンドテクスチャには、small recordingsや、cochleagramに関する情報が含まれる。
 たとえば、音源DB130aは、複数の材質のサウンドエレメントの音源、複数のインタラクションのサウンドエレメントの音源を記憶する。図3は、音源DB130aが記憶するサウンドエレメントの一例を示す図である。図3において、材質に関するサウンドエレメントse_m1,se_m2,se_m3,se_m4,・・・,se_mnと、インタラクションに関するサウンドエレメントse_i1,se_i2,・・・,se_inとを示す。各サウンドエレメントは、周波数、時間、音源の強度を対応付けた情報となる。各サウンドエレメントには、材質、インタラクションを識別する。
 材質には、たとえば、Brick,Carpet,Ceramic,Fabric,Foliage,Food,Blass,Hair,Leather,Metal,Mirror,Other,Painted,Paper,Plastic,Pol,Stone,Skin,Sky,Tile,Wallpaper,Water,Woodの23種類がある。
 選択部130bは、物体の位置情報、形状情報を、物理情報取得部110aから取得する。選択部130bは、係数情報を、係数取得部120から取得する。
 選択部130bは、訓練済みの機械学習モデルに、物体の位置情報、形状情報、係数情報を入力することで、物体のインタラクションに対応する統計情報を算出する。選択部130bは、統計情報に対応する音源情報を、音源DB130aから選択する。選択部130bは、統計情報と、音源情報とを、音声合成部140に出力する。
 図4は、選択部の処理を説明するための図である。図4に示す例では、物体の位置情報、形状情報、係数情報をまとめて、物体関連情報30とする。たとえば、物体関連情報30には、下記の(1)~(6)の情報が含まれるものとする。
(1)物体の質量
(2)摩擦係数、減衰係数
(3)衝突面積
(4)衝突部分の素材
(5)衝突部分の速度
(6)衝突部分の加速度
 選択部130bは、物体関連情報30に対して、PCA(Principal Component Analysis)を行うことで、次元削除(Dimension reduction)する。選択部130bは、どのような従来技術を用いて次元削減を行ってよい。選択部130bは、(1)~(6)のうち、何れかの情報を選択して、次元削減を行ってもよい。
 選択部130bは、次元削除を行った物体関連情報30を、機械学習モデル35に入力することで、統計情報36を算出する。機械学習モデル35は、Reccurent Neural Network、Convolutional Neural Network等に対応する。
 たとえば、統計情報では、各音源の識別情報と、音源の強度とを対応付ける。統計情報36には、材質に関するサウンドエレメントse_m1 20%,se_m2 70%,se_m3 10%と、インタラクションに関するサウンドエレメントse_i1 80%,se_i2 20%が含まれる。統計情報36において、材質に関するサウンドエレメントの強度を合計すると、100%となる。また、インタラクションに関するサウンドエレメントの強度を合計すると、100%となる。
 選択部130bは、統計情報36に対応する音源情報を、音源DB130aから選択する。選択部130bは、統計情報(たとえば、統計情報36)、音源情報を、音声合成部140に出力する。
 ここで、選択部130bが利用する機械学習モデル35は、入力データと、正解ラベルとの組からなる教師データを基にして、予め訓練されているものとする。入力データは、物体関連情報30に相当する。正解ラベルは、音源の識別情報と、音源の強度とを対応付けた情報となる。
 図2の説明に戻る。音声合成部140は、物理情報取得部110aから、位置情報と、移動情報を取得する。音声合成部140は、音源選択部130から、統計情報と、音源情報とを取得する。音声合成部140は、統計情報と、音源情報と、位置情報と、移動情報と基にして、3次元音源情報を生成する。
 音声合成部140は、合成部140aと、レンダリング部140bとを有する。
 合成部140aは、統計情報と、音源情報とを基にして、音源情報を合成した合成音源情報を生成する。たとえば、合成部140aは、非特許文献2を用いて、音源情報のサウンドエレメントを連結させ、合成音源情報を生成する。
 合成部140aは、生成した合成音源情報を、レンダリング部140bに出力する。
 レンダリング部140bは、合成音源情報と、位置情報と、移動情報とを基にして、3次元音レンダリングを実行することで、合成音源情報を3次元化した3次元音源情報(3D waeform)を生成する。たとえば、レンダリング部140bは、非特許文献3を用いて、3次元音レンダリングを実行する。レンダリング部140bは、3次元音源情報を、送信部150に出力する。
 送信部150は、3次元音源情報を、デバイス50に送信する。
 次に、本実施例に係る生成装置100の処理手順について説明する。図5は、本実施例に係る生成装置の処理手順を示すフローチャートである。図5に示すように、生成装置100のインタラクション検知部110は、デバイス50からDTデータを取得する(ステップS101)。生成装置100のインタラクション検知部110は、インタラクションを検知しない場合には(ステップS102,No)、ステップS101に移行する。
 一方、インタラクション検知部110が、インタラクションを検知した場合には(ステップS102,Yes)、ステップS103に移行する。生成装置100の物理情報取得部110aは、インタラクション検知部110から取得する対象オブジェクト情報を基にして、インタラクションした物体に関する形状情報、位置情報、移動情報を算出する(ステップS103)。
 生成装置100のオブジェクト抽出部110bは、インタラクション検知部110から取得するシナリオ情報を基にして、インタラクションした物体に関する素材情報を抽出する(ステップS104)。
 生成装置100の係数取得部120は、係数取得処理を実行する(ステップS105)。生成装置100の音源選択部130は、音源選択処理を実行する(ステップS106)。生成装置100の音声合成部140は、音声合成処理を実行する(ステップS107)。
 生成装置100の送信部150は、3次元音源情報をデバイス50に送信する(ステップS108)。
 次に、図5のステップS105に示した係数取得処理の処理手順の一例について説明する。図6は、係数取得処理の処理手順を示すフローチャートである。図6に示すように、係数取得部120の取得部120bは、インタラクションした各物体の素材情報を取得する(ステップS201)。
 取得部120bは、素材情報を基にして、摩擦係数および減衰係数を材質DB120aから検索する(ステップS202)。取得部120bは、摩擦係数および減衰係数を、音源選択部130に出力する(ステップS203)。
 次に、図5のステップS106に示した音源選択処理の処理手順の一例について説明する。図7は、音源選択処理の処理手順を示すフローチャートである。図7に示すように、音源選択部130の選択部130bは、物体の位置情報、形状情報、係数情報を取得する(ステップS301)。
 選択部130bは、物体関連情報に対して、次元削減を実行する(ステップS302)。選択部130bは、次元削減を実行した物体関連情報を機械学習モデルに入力し、統計情報を算出する(ステップS303)。
 選択部130bは、統計情報に対応する音源情報を音源DB130aから取得する(ステップS304)。選択部130bは、統計情報および音源情報を音声合成部140に出力する(ステップS305)。
 次に、図5のステップS107に示した音声合成処理の処理手順の一例について説明する。図8は、音声合成処理の処理手順を示すフローチャートである。図8に示すように、音声合成部140の合成部140aは、位置情報、移動情報、統計情報、音源情報を取得する(ステップS401)。
 合成部140aは、統計情報を基にして、音源情報のサウンドエレメントを連結することで、合成音源情報を生成する(ステップS402)。音声合成部140のレンダリング部140bは、合成音源情報と、位置情報と、移動情報とを基にして、3次元音レンダリングを実行し、3次元音源情報を生成する(ステップS403)。
 レンダリング部140bは、3次元音源情報を出力する(ステップS404)。
 次に、本実施例に係る生成装置100の効果について説明する。生成装置100は、サイバー空間上において、物体のインタラクションを検知した場合に、物体の素材情報(形状、質量、材質を含む情報)を基にして、物体の係数情報(摩擦係数、減衰係数)を取得する。生成装置100は、物体の位置情報、形状情報、係数情報を、訓練済みの機械学習モデルに入力することで、物体のインタラクションに対応する音源の種別と音源の強度とを対応付けた統計情報を算出し、音源DB130aから、統計情報に対応する音源情報を選択する。生成装置100は、統計情報および音源情報を基にして、音源情報を合成した合成音源情報を生成し、合成音源情報に対して、物体の位置情報に基づく3次元音レンダリングを実行することで、3次元音源情報を生成し、デバイス50に出力する。
 生成装置100が、上記処理を実行することで、現実的な3次元音源情報を生成して出力することができる。かかる3次元音源情報は、デバイス50を用いて、サイバー空間を体感しているユーザにとって自然な音源となる。
 生成装置100は、位置情報、形状情報、係数情報に対して、次元削減を実行し、次元削減の実行結果となる情報を、機械学習モデルに入力することで、統計情報を算出する。これによって、機械学習モデルを用いた計算コストを削減することができる。
 生成装置100は、インタラクションとして、2つの物体の衝突を検知した場合に、2つの物体の衝突部分の速度、衝突部分の加速度、2つの物体の位置を、位置情報として取得する。かかる位置情報を用いることで、サイバー空間上の3次元音源情報を精度よく生成することができる。
 続いて、生成プログラムを実行するコンピュータの一例について説明する。図9は、生成プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、たとえば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、たとえば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、たとえば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、たとえば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、たとえば、ディスプレイ1061が接続される。
 ここで、ハードディスクドライブ1031は、たとえば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、たとえばハードディスクドライブ1031やメモリ1010に記憶される。
 また、生成プログラムは、たとえば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明したインタラクション検知部110、物理情報取得部110a、オブジェクト抽出部110b、係数取得部120、音源選択部130、音声合成部140、送信部150を実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
 また、生成プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、たとえば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
 なお、生成プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、たとえば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、生成プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
  50  デバイス
 100  生成装置
 110  インタラクション検知部
 110a 物理情報取得部
 110b オブジェクト抽出部
 120  係数取得部
 120a 材質DB
 120b 取得部
 130  音源選択部
 130a 音源DB
 130b 選択部
 140  音声合成部
 140a 合成部
 140b レンダリング部
 150  送信部

Claims (5)

  1.  サイバー空間上に写像された物体のインタラクションを検知した場合に、前記物体の素材情報を基にして、前記物体の係数情報を取得する係数取得部と、
     前記物体の位置情報、形状情報、前記係数情報を、機械学習モデルに入力することで、前記物体のインタラクションに対応する音源の種別と音源の強度とを関連付けた統計情報を算出し、前記統計情報に対応する音源情報を選択する音源選択部と、
     前記統計情報および前記音源情報を基にして、前記音源情報を合成した合成音源情報を生成し、前記合成音源情報に対して、前記位置情報に基づく3次元音レンダリングを実行することで、前記合成音源情報を3次元化した3次元音源情報を生成する音声合成部と
     を有することを特徴とする生成装置。
  2.  前記音源選択部は、前記位置情報、前記形状情報、前記係数情報に対して次元削減を実行し、次元削減の実行結果となる情報を、前記機械学習モデルに入力し、前記統計情報を算出することを特徴とする請求項1に記載の生成装置。
  3.  前記インタラクションとして、2つの物体の衝突を検知した場合に、前記2つの物体の衝突部分の速度、衝突部分の加速度、前記2つの物体の位置を、前記位置情報として取得する物体情報取得部を更に有することを特徴とする請求項1に記載の生成装置。
  4.  生成装置が実行する生成方法であって、
     サイバー空間上に写像された物体のインタラクションを検知した場合に、前記物体の素材情報を基にして、前記物体の係数情報を取得する係数取得工程と、
     前記物体の位置情報、形状情報、前記係数情報を、機械学習モデルに入力することで、前記物体のインタラクションに対応する音源の種別と音源の強度とを関連付けた統計情報を算出し、前記統計情報に対応する音源情報を選択する音源選択工程と、
     前記統計情報および前記音源情報を基にして、前記音源情報を合成した合成音源情報を生成し、前記合成音源情報に対して、前記位置情報に基づく3次元音レンダリングを実行することで、前記合成音源情報を3次元化した3次元音源情報を生成する音声合成工程と
     を含んだことを特徴とする生成方法。
  5.  コンピュータを、請求項1~3のいずれか一つに記載の生成装置として機能させるための生成プログラム。
PCT/JP2021/047419 2021-12-21 2021-12-21 生成装置、生成方法及び生成プログラム WO2023119451A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/047419 WO2023119451A1 (ja) 2021-12-21 2021-12-21 生成装置、生成方法及び生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/047419 WO2023119451A1 (ja) 2021-12-21 2021-12-21 生成装置、生成方法及び生成プログラム

Publications (1)

Publication Number Publication Date
WO2023119451A1 true WO2023119451A1 (ja) 2023-06-29

Family

ID=86901573

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/047419 WO2023119451A1 (ja) 2021-12-21 2021-12-21 生成装置、生成方法及び生成プログラム

Country Status (1)

Country Link
WO (1) WO2023119451A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164291A (ja) * 2005-12-09 2007-06-28 Sony Corp 効果音生成装置及び効果音生成方法、並びにコンピュータ・プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164291A (ja) * 2005-12-09 2007-06-28 Sony Corp 効果音生成装置及び効果音生成方法、並びにコンピュータ・プログラム

Similar Documents

Publication Publication Date Title
KR101555347B1 (ko) 비디오 기반 얼굴 애니메이션 생성 장치 및 방법
US10163243B2 (en) Simulation of hair in a distributed computing environment
CN104484522B (zh) 一种基于现实场景的机器人模拟演练系统的构建方法
Kim et al. A haptic-rendering technique based on hybrid surface representation
US8698810B2 (en) Reorienting properties in hair dynamics
KR20100041586A (ko) 음성 기반 얼굴 캐릭터 형성 장치 및 방법
US9519988B2 (en) Subspace clothing simulation using adaptive bases
Han et al. Virtual pottery: a virtual 3D audiovisual interface using natural hand motions
CN104346824A (zh) 基于单张人脸图像自动合成三维表情的方法及装置
KR101775836B1 (ko) 3차원 캐릭터 움직임을 변환하는 플러그인 프로그램을 이용한 3차원 캐릭터 동작 구현방법
Novak-Marcincin et al. Application of the virtual reality modelling language to computer aided robot control system ROANS
CN116528016A (zh) 音视频合成方法、服务器和可读存储介质
WO2023119451A1 (ja) 生成装置、生成方法及び生成プログラム
KR101775839B1 (ko) 격자를 스킨웨이트에 적용하기 위한 그래픽 사용자 인터페이스 제공방법
CN117315102A (zh) 虚拟主播处理方法、装置、计算设备及存储介质
Novak-Marcincin Application of the virtual reality modeling language for design of automated workplaces
JP6660637B2 (ja) 触質情報処理装置および触質情報処理方法
Pungotra Virtual reality in concept design
Choi A technological review to develop an AR-based design supporting system
WO2023105784A1 (ja) 生成装置、生成方法及び生成プログラム
US11941739B1 (en) Object deformation network system and method
Zhou Intangible Cultural Heritage Art Exhibition System Based on Mobile Virtual Reality Technology
Ning et al. Element Identification and Feature Extraction of Chinese Painting Based on Computer Vision and CAD
Novak-Marcinčin Application of the Virtual Reality Modelling Language in Automated Technological Workplaces Design
Mathur et al. A framework to produce customized degree of projection in digital relief carving

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21968888

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023568851

Country of ref document: JP

Kind code of ref document: A