WO2022269796A1 - 装置、合奏システム、音再生方法、及びプログラム - Google Patents

装置、合奏システム、音再生方法、及びプログラム Download PDF

Info

Publication number
WO2022269796A1
WO2022269796A1 PCT/JP2021/023765 JP2021023765W WO2022269796A1 WO 2022269796 A1 WO2022269796 A1 WO 2022269796A1 JP 2021023765 W JP2021023765 W JP 2021023765W WO 2022269796 A1 WO2022269796 A1 WO 2022269796A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
performance
performance sound
venue
estimation
Prior art date
Application number
PCT/JP2021/023765
Other languages
English (en)
French (fr)
Inventor
陽 前澤
賀文 水野
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to CN202180099419.5A priority Critical patent/CN117501360A/zh
Priority to PCT/JP2021/023765 priority patent/WO2022269796A1/ja
Priority to JP2023529312A priority patent/JPWO2022269796A1/ja
Publication of WO2022269796A1 publication Critical patent/WO2022269796A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves

Definitions

  • the present invention relates to a device, an ensemble system, a sound reproduction method, and a program.
  • the present invention has been made in view of such circumstances, and its purpose is to reproduce sound received via a communication line without delay.
  • One aspect of the present invention is a device provided at the first venue when a remote ensemble is performed at the first venue and the second venue, wherein the performance sound collected by the device provided at the second venue is the performance sound.
  • One aspect of the present invention is an ensemble system that realizes remote ensemble performances at a first venue and a second venue, comprising: a first terminal device provided at the first venue; and a second terminal device provided at the second venue.
  • the first terminal device comprises: a first acquisition unit that acquires a first performance sound at the first venue; and a first transmission unit that transmits the first performance sound to the second terminal device.
  • a first receiving unit for receiving a second performance sound in the second venue from the second terminal device; and inputting the second performance sound received by the first receiving unit to a second performance sound estimation model.
  • a first estimation unit for estimating a future second performance estimation sound in the second performance sound; and a first sound output unit for outputting the second performance estimation sound
  • a second acquisition unit that acquires the second performance sound
  • a second transmission unit that transmits the second performance sound to the first terminal device
  • a second performance sound that receives the first performance sound from the first terminal device.
  • a second receiving unit for estimating a future first estimated performance sound in the first performance sound by inputting the first performance sound received by the second reception unit into a first performance sound estimation model
  • a second sound output unit that outputs the first estimated performance sound, and the first performance sound estimation model learns a first sound signal corresponding to the first performance sound.
  • the ensemble system is a trained model trained to estimate the second estimated performance sound from the input second performance sound by learning two-tone signals.
  • one aspect of the present invention is a sound reproduction method performed by a computer device provided in the first venue when a remote ensemble is performed in a first venue and a second venue, wherein the device provided in the second venue is Inputting the collected performance sound into a performance sound estimation model, estimating a future performance estimation sound in the performance sound, and learning a sound signal corresponding to the performance sound, the performance sound estimation model learns a sound signal corresponding to the performance sound.
  • the sound reproduction method is a trained model trained to estimate the performance estimation sound from the performance sound obtained from the performance sound.
  • a computer device provided at the first venue plays the performance sound collected by the device provided at the second venue.
  • a program for inputting a sound estimation model and estimating a future performance estimation sound in the performance sound, wherein the performance sound estimation model learns a sound signal corresponding to the performance sound, thereby estimating the input performance A program that is a trained model trained to estimate the performance estimation sound from a sound.
  • the sound received via the communication line can be played without delay.
  • FIG. 1 is a schematic diagram showing an outline of an ensemble system 1 according to an embodiment
  • FIG. 1 is a block diagram showing an example of the configuration of an ensemble system 1 according to an embodiment
  • FIG. It is a figure which shows the example of the learned model 120 which concerns on embodiment.
  • 4 is a sequence diagram illustrating the flow of processing performed by the concert playing system 1 according to the embodiment;
  • FIG. 4 is a flowchart for explaining the flow of processing performed by the player terminal 10 according to the embodiment;
  • the ensemble system 1 according to the embodiment will be described below with reference to the drawings.
  • An example of a session (remote ensemble) between remote performers using the ensemble system 1 will be described below. It is not limited to this, and it is possible to apply the ensemble system 1 according to the present embodiment when synthesizing arbitrary contents other than sound.
  • FIG. 1 is a schematic diagram showing an overview of an ensemble system 1 according to an embodiment.
  • the ensemble system 1 is a system that transmits in real time the sound of a performance performed by a performer to another performer who is remotely located.
  • a sound (first performance sound) associated with a performance at a venue E1 is picked up by a microphone MC1 and transmitted to a session partner venue E2 via a communication network NW. .
  • the first performance sound received via the communication network NW is output from the speaker SP2.
  • the performance sound (second performance sound) at the venue E2 is picked up by the microphone MC2 and transmitted to the venue E1 via the communication network NW.
  • the second performance sound received via the communication network NW is output from the speaker SP1.
  • the first performance sound and the second performance sound are transmitted to the distribution server 20 , mixed, and distributed to the viewer terminal 30 via the distribution server 20 .
  • the future performance sound is estimated from the session partner's performance sound received via the communication network NW.
  • the future performance sound is a sound to be played at a future performance position (T+ ⁇ t) from the performance position T in the received performance sound of the session partner.
  • the second performance sound is received at the venue E1, and the future performance sound of the second performance sound is estimated based on the received second performance sound.
  • the first performance sound is received at the venue E2, and the future performance sound of the first performance sound is estimated based on the received first performance sound.
  • a trained model is used for estimation.
  • a trained model is a model that has learned a sound signal associated with a performance sound. The trained model is trained to estimate the future performance sound of the input performance sound from the input performance sound.
  • the learned model is created by executing machine learning (for example, deep learning) of the learning model using the sound signal of the performance sound as learning data.
  • a learning model is, for example, a model such as a neural network or a multi-tree.
  • the sound signal of the learning data is, for example, an acoustic signal obtained by picking up the performance sound of a musical instrument with a microphone.
  • the sound signal includes time-series data in which instruction data indicating the content of the performance and time data indicating the time point at which the instruction data is generated are arranged.
  • the instruction data designates pitch (note number) and strength (velocity) to instruct various events such as sounding and muting.
  • the time data specifies, for example, an interval (delta time) between successive instruction data.
  • performance sounds received via the communication network NW are input to the learned model.
  • the trained model estimates and outputs future performance sounds for the input performance sounds.
  • a future performance sound estimated by the trained model is output from the speaker.
  • the second performance sound is received at the venue E1, and the received second performance sound is input to the learned model (second performance sound estimation model).
  • the second performance sound estimation model is a model that has learned a sound signal related to the second performance sound.
  • the second performance sound estimation model estimates the future performance sound of the input second performance sound.
  • the performance sound estimated by the second performance sound estimation model is output from the speaker SP1.
  • the first performance sound is received at the venue E2, and the received first performance sound is input to the learned model (first performance sound estimation model).
  • the first performance sound estimation model is a model that has learned a sound signal related to the first performance sound.
  • the first performance sound estimation model estimates the future performance sound of the input first performance sound.
  • the performance sound estimated by the first performance sound estimation model is output from the speaker SP2.
  • the ensemble system 1 of the present embodiment can estimate and output future performance sounds received via the communication network NW. Therefore, even if the performance sound at the performance position T delayed from the actual performance position (T+ ⁇ t) is received due to the transmission delay, the performance sound at the actual performance position (T+ ⁇ t) is estimated and output. It is possible. Therefore, it is possible to reproduce the sound received via the communication line without delay.
  • the sound signal of the learning data used for learning may be arbitrarily determined.
  • the sound signal of the learning data may be at least a sound signal corresponding to the performance sound to be estimated, but is preferably a sound played in a performance mode similar to the performance sound to be estimated. This is because it is possible to improve the accuracy of estimation by learning performance sounds with similar performance styles.
  • the sound signal of the learning data is preferably the sound played by the performer who will actually perform in the actual remote ensemble.
  • the sound signal of the learning data is preferably the sound of a musical instrument that is actually played in the actual remote ensemble.
  • the sound signal of the learning data is, for example, the performance sound (rehearsal sound source) played in the rehearsal. By using the rehearsal sound source, it is possible to accurately estimate the performance sound in the actual remote ensemble performance.
  • FIG. 2 is a block diagram showing an example of the configuration of the ensemble system 1 according to the embodiment.
  • the ensemble system 1 is applicable when a plurality of player terminals 10 (player terminals 10-1 to 10-N, where N is a natural number different from 1) performs remote performance.
  • the ensemble system 1 includes, for example, three player terminals 10-1 to 10-3, a distribution server 20, and an audience terminal 30. It should be noted that a plurality of viewer terminals 30 may be provided in the ensemble system 1 .
  • the performer terminal 10-1 is a computer device such as a smart phone, a mobile terminal, a tablet, or a PC (Personal Computer) provided at the venue E1 in FIG.
  • the speaker section 15 provided in the player terminal 10-1 corresponds to the speaker SP1 in FIG.
  • a microphone section 16 provided in the player terminal 10-1 corresponds to the microphone MC1 in FIG.
  • the performer terminal 10-2 is a computer device such as a smart phone, a mobile terminal, a tablet, or a PC provided at the venue E2 in FIG.
  • the speaker section 15 included in the player terminal 10-2 corresponds to the speaker SP2 in FIG.
  • the microphone section 16 provided in the player terminal 10-2 corresponds to the microphone MC2 in FIG. Although omitted in FIG. 1, the same applies to the player terminal 10-3.
  • the player terminals 10-1 to 10-3 are simply referred to as "player terminals 10" when not distinguished.
  • the communication network NW is, for example, a wide area network, that is, a WAN (Wide Area Network), the Internet, or a combination thereof.
  • WAN Wide Area Network
  • the player terminal 10 includes, for example, a communication section 11, a storage section 12, a control section 13, a display section 14, a speaker section 15, and a microphone section 16.
  • the communication unit 11 communicates with the distribution server 20.
  • the storage unit 12 is configured by storage media such as HDD, flash memory, EEPROM (Electrically Erasable Programmable Read Only Memory), RAM (Random Access read/write Memory), ROM (Read Only Memory), or a combination thereof.
  • the storage unit 12 stores programs for executing various processes of the player terminal 10 and temporary data used when performing various processes.
  • the storage unit 12 stores a trained model 120, for example.
  • the trained model 120 is information necessary to construct the trained model.
  • the information necessary for constructing the trained model includes the configuration of the trained model, set values of parameters to be used, and the like.
  • the trained model is a CNN (Convolutional Neural Network) configuration comprising an input layer, an intermediate layer, and an output layer
  • the configuration of the trained model is the number of units in each layer, the number of intermediate layers, This is information indicating an activation function and the like.
  • the parameters to be used are information indicating coupling coefficients and weights for coupling nodes in each hierarchy.
  • FIG. 3 is a diagram showing an example of a trained model 120-1 stored in the player terminal 10-1.
  • FIG. 4 is a diagram showing an example of the trained model 120-2 stored in the player terminal 10-2.
  • FIG. 5 is a diagram showing an example of a trained model 120-3 stored in player terminal 10-3.
  • the trained models 120-1 to 120-3 are simply referred to as "trained models 120" when they are not distinguished.
  • the learned model 120 includes items such as target venue number, performance type, and learned model.
  • the target venue No. is identification information such as a number that uniquely identifies the venue where the performance will be performed.
  • the performance type is information indicating the type of performance performed at the venue specified by the target venue No. For example, the musical instrument to be played.
  • the learned model is a learned model corresponding to the performance sound of the performance performed at the venue specified by the target venue number.
  • the example of FIG. 3 shows that the trained model 120-1 stores a second trained model and a third trained model.
  • the second learned model is a model for estimating the future performance sound corresponding to the performance sound of the trumpet that will be performed at the venue specified by the target venue No. (2).
  • the third trained model is a model for estimating the future performance sound corresponding to the performance sound of the trumpet that will be performed at the venue specified by the target venue No. (3).
  • the venue specified by the target venue No. (1) corresponds to the venue where the player terminal 10-1 is provided.
  • the venue specified by the target venue No. (2) or the target venue No. (3) corresponds to the venue where the session partner is present.
  • the example of FIG. 4 shows that the trained model 120-2 stores the first trained model and the third trained model.
  • the first trained model is a model for estimating the future performance sound corresponding to the performance sound of the trumpet performed at the venue specified by the target venue No. (1).
  • the third trained model is a model for estimating the future performance sound corresponding to the performance sound of the trumpet that will be performed at the venue specified by the target venue No. (3).
  • the venue specified by the target venue No. (2) corresponds to the venue where the player terminal 10-2 is provided.
  • the venue specified by the target venue No. (1) or the target venue No. (3) corresponds to the venue where the session partner is present.
  • the example of FIG. 5 shows that the trained model 120-3 stores a first trained model and a second trained model.
  • the first trained model is a model for estimating the future performance sound corresponding to the performance sound of the trumpet performed at the venue specified by the target venue No. (1).
  • the second learned model is a model for estimating the future performance sound corresponding to the performance sound of the trumpet that will be performed at the venue specified by the target venue No. (2).
  • the venue specified by the target venue No. (3) corresponds to the venue where the performer terminal 10-3 is provided.
  • the venue specified by the target venue No. (1) or the target venue No. (2) corresponds to the venue where the session partner is present.
  • the trained model 120 stores a trained model for estimating a performance sound to be a session partner.
  • control unit 13 is implemented by causing a CPU (Central Processing Unit) provided as hardware in the player terminal 10 to execute a program.
  • the control unit 13 controls the player terminal 10 in an integrated manner.
  • the control unit 13 controls the communication unit 11, the storage unit 12, the display unit 14, the speaker unit 15, and the microphone unit 16, respectively.
  • the control unit 13 includes, for example, an acquisition unit 130, an estimation unit 131, an output unit 132, and a distribution unit 133.
  • Acquisition unit 130 acquires the performance sound of the session partner.
  • the acquisition unit 130 outputs the acquired performance sound to the estimation unit 131 .
  • the estimation unit 131 estimates future performance sounds by inputting the performance sounds acquired from the acquisition unit 130 into the learned model.
  • the estimation unit 131 outputs the estimated performance sound to the output unit 132 .
  • the output unit 132 causes the speaker unit 15 to output the performance sound acquired from the estimation unit 131 . As a result, the future performance sound of the session partner is emitted from the speaker section 15 .
  • the output unit 132 may output sounds obtained by mixing future performance sounds in the performance sounds of the session partners.
  • the distribution unit 133 transmits the performance sound picked up by the microphone unit 16 to the session partner player terminal 10 and the distribution server 20 via the communication unit 11 .
  • the display unit 14 includes a display device such as a liquid crystal display, and displays an image such as a video of the session partner's performance in accordance with the control of the control unit 13 .
  • the speaker unit 15 outputs the performance sound of the session partner according to the control of the control unit 13 .
  • the distribution server 20 is a computer device that distributes images and sounds related to performances.
  • the distribution server 20 is, for example, a server device, a cloud, a PC, or the like.
  • the distribution server 20 includes, for example, a communication unit 21, a storage unit 22, and a control unit 23.
  • the communication unit 21 communicates with each player terminal 10 and the audience terminal 30 .
  • the storage unit 22 is configured by, for example, a storage medium such as an HDD, flash memory, EEPROM, RAM, ROM, or a combination thereof.
  • the storage unit 22 stores programs for executing various processes of the distribution server 20 and temporary data used when performing various processes.
  • the storage unit 22 stores distribution information 220, for example.
  • the distribution information 220 is information about sounds to be distributed.
  • the distribution information 220 is, for example, information indicating a list of the viewer terminals 30 to which the content is distributed and the content to be distributed.
  • the control unit 23 is implemented by causing a CPU provided as hardware in the distribution server 20 to execute a program.
  • the control unit 23 includes an acquisition unit 230, a synthesis unit 231, and a distribution unit 232, for example.
  • the acquisition unit 230 acquires performance sounds from each player terminal 10 .
  • the acquiring unit 230 outputs information indicating each acquired performance sound to the synthesizing unit 231 .
  • the synthesizing unit 231 generates a synthetic sound (ensemble sound) by mixing the performance sounds acquired from the acquiring unit 230 .
  • the synthesizing unit 231 generates a synthesized sound by, for example, compressing each sound source and adding the compressed sound sources.
  • the synthesizing unit 231 outputs the generated synthetic sound to the distributing unit 232 .
  • the distribution unit 232 distributes the synthesized sound acquired from the synthesis unit 231 to the viewer terminal 30.
  • the viewer terminal 30 is the viewer's computer device.
  • the viewer terminal 30 is, for example, a smart phone, a PC, a tablet terminal, or the like.
  • the viewer terminal 30 includes, for example, a communication section 31 , a storage section 32 , a control section 33 , a display section 34 and a speaker section 35 .
  • the communication unit 31 communicates with the distribution server 20.
  • the storage unit 32 is configured by a storage medium such as HDD, flash memory, EEPROM, RAM, ROM, or a combination thereof.
  • the storage unit 32 stores programs for executing various processes of the viewer terminal 30 and temporary data used when performing various processes.
  • the control unit 33 is implemented by causing the CPU provided as hardware in the viewer terminal 30 to execute a program.
  • the control unit 33 comprehensively controls the viewer terminal 30 .
  • the control unit 33 controls the communication unit 31, the storage unit 32, the display unit 34, and the speaker unit 35, respectively.
  • the display unit 34 includes a display device such as a liquid crystal display, and displays images such as images of live performances related to the remote ensemble according to the control of the control unit 33 .
  • the speaker unit 35 outputs ensemble sounds of the live performance related to the remote ensemble under the control of the control unit 33 .
  • FIG. 6 is a sequence diagram explaining the flow of processing performed by the ensemble system 1 according to the embodiment.
  • a case in which two player terminals 10-1 and 10-2 perform remote performance will be described as an example.
  • the performer terminal 10-1 collects the performance sound at its own venue, and transmits the collected performance sound to the performer terminal 10-2 and the distribution server 20 (step S10).
  • the own venue here is the venue where the player terminal 10-1 is provided.
  • the performer terminal 10-2 receives the performance sound of the other venue, and performs sound processing of the received performance sound of the other venue (step S11).
  • the other venue here is the venue where the player terminal 10-1 is provided. The flow of sound processing will be described later in detail.
  • the performer terminal 10-2 picks up the performance sound at its own venue and transmits the picked-up performance sound to the performer terminal 10-1 and the distribution server 20 (step S12).
  • the own venue here is the venue where the player terminal 10-2 is provided. The player terminal 10-2 repeatedly executes the processing shown in steps S11 and S12 until the session ends.
  • the performer terminal 10-1 receives the performance sound of the other venue, and performs sound processing of the received performance sound of the other venue (step S13).
  • the other venue here is the venue where the player terminal 10-2 is provided.
  • the player terminal 10-1 repeatedly executes the processes shown in steps S10 and S13 until the session ends.
  • the distribution server 20 receives the performance sound of the first venue (step S14).
  • the first venue here is the venue where the player terminal 10-1 is provided.
  • the distribution server 20 receives the performance sound of the second venue (step S15).
  • the second venue here is the venue where the player terminal 10-2 is provided.
  • the distribution server 20 mixes the performance sound at the first venue and the performance sound at the second venue (step S16).
  • the distribution server 20 transmits the mixed ensemble sound to the viewer terminal 30 (step S17).
  • the viewer terminal 30 receives the ensemble sound distributed from the distribution server 20, outputs the received ensemble sound to the speaker unit 35, and reproduces it (step S18).
  • FIG. 7 is a flowchart explaining the flow of sound processing performed by the player terminal 10 according to the embodiment.
  • the performer terminal 10 receives the performance sound of another venue (step S20).
  • the player terminal 10 estimates a performance sound at a performance position (T+ ⁇ t) that is advanced by time ⁇ t from the performance position T of the received performance sound (step S21).
  • the player terminal 10 outputs the estimated performance sound from the speaker section 15 (step S22).
  • the performer terminal 10 picks up the sound of the performance at the venue by the microphone unit 16 (step S23).
  • the performer terminal 10 transmits the performance sound collected at its own venue to the session partner performer terminal 10 and the distribution server 20 (step S24).
  • the performer terminal 10 of the embodiment is provided at the venue E1 when performing remote ensemble performances at the venues E1 and E2.
  • the player terminal 10 includes an estimation section 131 .
  • the estimating unit 131 estimates the estimated future performance sound in the performance sound.
  • the performance sound is the sound picked up by a device (for example, the performer terminal 10-2) provided in the venue E2.
  • the estimation unit 131 inputs the performance sound to the performance sound estimation model to estimate the performance estimation sound.
  • the performance sound estimation model is a trained model for estimating the performance estimation sound from the input performance sound.
  • a performance sound estimation model is a trained model that has learned a sound signal corresponding to a performance sound.
  • the player terminal 10 is an example of a "device".
  • the case where the performer terminal 10 provided at the venue E estimates and outputs performance sounds at other venues has been exemplified and explained. However, it is not limited to this. Any device provided at least in the venue E may be configured to estimate and output the performance sound of another venue.
  • the devices provided at the hall E are, for example, a distribution server device for distributing ensemble sounds, or a computer device such as a mixer for mixing the sounds of each hall.
  • the ensemble system 1 of the embodiment also includes performer terminals 10-1 and 10-2.
  • the performer terminal 10-1 is provided at the venue E1.
  • the performer terminal 10-2 is provided at the venue E2.
  • the player terminal 10 includes an acquisition section 130 , a communication section 11 , an estimation section 131 and an output section 132 .
  • Acquisition unit 130 of performer terminal 10-1 acquires the first performance sound at venue E1.
  • the communication unit 11 of the player terminal 10-1 transmits the first performance sound to the player terminal 10-2.
  • the communication unit 11 of the performer terminal 10-1 receives the second performance sound at the venue E2 from the performer terminal 10-2.
  • the estimation unit 131 of the player terminal 10-1 estimates a future performance sound (second performance estimation sound) in the second performance sound received by the communication unit 11.
  • the estimation unit 131 performs estimation using a trained model (second performance sound estimation model).
  • the output unit 132 of the player terminal 10-1 outputs the estimated sound.
  • the acquisition unit 130 of the performer terminal 10-2 acquires the second performance sound at the venue E2.
  • the communication unit 11 of the player terminal 10-2 transmits the second performance sound to the player terminal 10-1.
  • the communication unit 11 of the player terminal 10-2 receives the first performance sound from the player terminal 10-1.
  • the estimation unit 131 of the player terminal 10-2 estimates a future performance sound (first estimated performance sound) in the first performance sound received by the communication unit 11.
  • FIG. The estimation unit 131 performs estimation using a trained model (first performance sound estimation model).
  • the output unit 132 of the player terminal 10-2 outputs the estimated sound.
  • a trained model is a model that has learned a sound signal related to a performance sound (first performance sound).
  • a trained model is a model that has learned a sound signal related to a performance sound (second performance sound).
  • the learned model may be a model that has learned the sound signal related to the rehearsal sound source. As a result, it is possible to accurately estimate the performance sound.
  • a program for realizing the functions of the processing unit (control unit 13) in FIG. 1 is recorded in a computer-readable recording medium, and the program recorded in this recording medium is read into a computer system and executed. Construction management may be performed by It should be noted that the "computer system” referred to here includes hardware such as an OS and peripheral devices.
  • the "computer system” also includes the home page providing environment (or display environment) if the WWW system is used.
  • the term "computer-readable recording medium” refers to portable media such as flexible discs, magneto-optical discs, ROMs and CD-ROMs, and storage devices such as hard discs incorporated in computer systems.
  • the term “computer-readable recording medium” includes media that retain programs for a certain period of time, such as volatile memory inside computer systems that serve as servers and clients.
  • the program may be for realizing part of the functions described above, or may be capable of realizing the functions described above in combination with a program already recorded in the computer system.
  • the above program may be stored in a predetermined server, and distributed (downloaded, etc.) via a communication line in response to a request from another device.

Landscapes

  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

第1会場と第2会場で遠隔合奏を行う場合において前記第1会場に設けられる装置であって、前記第2会場に設けられる装置が収音した演奏音を、演奏音推定モデルに入力し、当該演奏音における未来の演奏音を推定する推定部、を有する装置。

Description

装置、合奏システム、音再生方法、及びプログラム
 本発明は、装置、合奏システム、音再生方法、及びプログラムに関する。
 歌唱や演奏の様子を撮影した映像をライブ配信するシステムがある(例えば特許文献1)。このシステムでは、歌唱者や演奏者等の演者は、それぞれ別の場所において演奏する。演奏場所にはそれぞれカメラが設けられている。センターは、各カメラから得られた映像を合成し、配信映像として受信端末に配信する。
特開2008-131379号公報
 しかしながら、演者同士が遠隔にいる場合には、互いの音を、通信回線を介して受信して聴かなければならない。通信回線を介すると伝送に係る遅延が生じる場合があり、相手の音が遅れて聴こえることがある。このため、演者同士が遠隔にいる場合には、自然に合奏することが困難な場合があった。
 本発明は、このような事情に鑑みてなされたもので、その目的は、通信回線を介して受信した音を遅延なく再生することである。
 本発明の一態様は、第1会場と第2会場で遠隔合奏を行う場合において前記第1会場に設けられる装置であって、前記第2会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力し、当該演奏音における未来の演奏推定音を推定する推定部、を有し、前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、装置である。
 本発明の一態様は、第1会場と第2会場での遠隔合奏を実現させる合奏システムであって、前記第1会場に設けられる第1端末装置と、前記第2会場に設けられる第2端末装置とを備え、前記第1端末装置は、前記第1会場における第1演奏音を取得する第1取得部と、前記第1演奏音を、前記第2端末装置に送信する第1送信部と、前記第2会場における第2演奏音を前記第2端末装置から受信する第1受信部と、前記第1受信部により受信された前記第2演奏音を、第2演奏音推定モデルに入力することにより、前記第2演奏音における未来の第2演奏推定音を推定する第1推定部と、前記第2演奏推定音を出力する第1音出力部と、を有し、前記第2端末装置は、前記第2演奏音を取得する第2取得部と、前記第2演奏音を前記第1端末装置に送信する第2送信部と、前記第1演奏音を前記第1端末装置から受信する第2受信部と、前記第2受信部によって受信された第1演奏音を、第1演奏音推定モデルに入力することにより、前記第1演奏音における未来の第1演奏推定音を推定する第2推定部と、前記第1演奏推定音を出力する第2音出力部と、を有し、前記第1演奏音推定モデルは、前記第1演奏音に対応する第1音信号を学習することによって、入力された前記第1演奏音から、前記第1演奏推定音を推定するように学習された学習済モデルであり、前記第2演奏音推定モデルは、前記第2演奏音に対応する第2音信号を学習することによって、入力された前記第2演奏音から、前記第2演奏推定音を推定するように学習された学習済モデルである合奏システムである。
 また、本発明の一態様は、第1会場と第2会場で遠隔合奏を行う場合において前記第1会場に設けられるコンピュータ装置が行う音再生方法であって、前記第2会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力し、当該演奏音における未来の演奏推定音を推定し、前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、音再生方法である。
 また、本発明の一態様は、第1会場と第2会場で遠隔合奏を行う場合において前記第1会場に設けられるコンピュータ装置に、前記第2会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力させ、当該演奏音における未来の演奏推定音を推定させるプログラムであって、前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、プログラムである。
 通信回線を介して受信した音を遅延なく再生することができる。
実施形態に係る合奏システム1の概略を示す概略図である。 実施形態に係る合奏システム1の構成の例を示すブロック図である。 実施形態に係る学習済モデル120の例を示す図である。 実施形態に係る学習済モデル120の例を示す図である。 実施形態に係る学習済モデル120の例を示す図である。 実施形態に係る合奏システム1が行う処理の流れを説明するシーケンス図である。 実施形態に係る演奏者端末10が行う処理の流れを説明するフローチャートである。
 以下、実施形態に係る合奏システム1について図面を参照して説明する。以下では、合奏システム1を用いて遠隔にいる演者同士がセッション(遠隔合奏)する場合を例に説明する。これに限定されることはなく、音以外の任意のコンテンツを合成する場合に本実施形態に係る合奏システム1を適用することが可能である。
 図1は、実施形態に係る合奏システム1の概略を示す概略図である。合奏システム1は、演者による演奏音を、遠隔にいる他の演者に対してリアルタイムに送信するシステムである。
 図1に示すように、合奏システム1では、会場E1における演奏に係る音(第1演奏音)がマイクMC1により収音され、通信ネットワークNWを介して、セッション相手となる会場E2に送信される。
 会場E2では、通信ネットワークNWを介して受信された第1演奏音がスピーカSP2から出力される。また、会場E2では、会場E2における演奏音(第2演奏音)がマイクMC2により収音され、通信ネットワークNWを介して、会場E1に送信される。そして、会場E1では、通信ネットワークNWを介して受信された第2演奏音がスピーカSP1から出力される。また、合奏システム1では、第1演奏音と、第2演奏音とが、配信サーバ20に送信されてミキシングされ、配信サーバ20を介して視聴者端末30に配信される。
 合奏システム1では、通信ネットワークNWを介して受信したセッション相手の演奏音から、その未来の演奏音が推定される。ここで未来の演奏音とは、受信したセッション相手の演奏音における演奏位置Tよりも未来の演奏位置(T+Δt)において演奏される音である。
 具体的には、会場E1において第2演奏音が受信され、受信された第2演奏音に基づいて、その第2演奏音における未来の演奏音が推定される。また、会場E2において第1演奏音が受信され、受信された第1演奏音に基づいて、その第1演奏音における未来の演奏音が推定される。
 推定には、学習済モデルが利用される。学習済モデルは、演奏音に係る音信号を学習したモデルである。学習済モデルは、入力された演奏音から、その演奏音の未来の演奏音を推定するように学習される。
 具体的に、学習済モデルは、演奏音の音信号を学習データとして、学習モデルの機械学習(例えばディープラーニング)が実行されることにより作成される。学習モデルは、例えば、ニューラルネットワークまたは多分木等のモデルである。
 学習データの音信号は、例えば、楽器の演奏音をマイクで収音した音響信号である。音信号には、演奏内容を示す指示データと、当該指示データの発生時点を示す時間データとが配列された時系列データが含まれる。指示データは、音高(ノートナンバ)と強度(ベロシティ)とを指定して発音および消音等の各種のイベントを指示する。時間データは、例えば相前後する指示データの間隔(デルタタイム)を指定する。
 つまり、合奏システム1では、通信ネットワークNWを介して受信した演奏音が、学習済モデルに入力される。学習済モデルは、入力された演奏音における未来の演奏音を推定して出力する。学習済モデルによって推定された未来の演奏音が、スピーカから出力される。
 具体的には、会場E1において第2演奏音が受信され、受信された第2演奏音が学習済モデル(第2演奏音推定モデル)に入力される。第2演奏音推定モデルは、第2演奏音に関する音信号を学習したモデルである。第2演奏音推定モデルは、入力された第2演奏音における未来の演奏音を推定する。第2演奏音推定モデルによって推定された演奏音は、スピーカSP1から出力される。
 会場E2において第1演奏音が受信され、受信された第1演奏音が学習済モデル(第1演奏音推定モデル)に入力される。第1演奏音推定モデルは、第1演奏音に関する音信号を学習したモデルである。第1演奏音推定モデルは、入力された第1演奏音における未来の演奏音を推定する。第1演奏音推定モデルによって推定された演奏音は、スピーカSP2から出力される。
 これにより、本実施形態の合奏システム1では、通信ネットワークNWを介して受信した演奏音における未来の演奏音を推定して出力することができる。このため、伝送遅延により、実際の演奏位置(T+Δt)よりも遅れた演奏位置Tの演奏音が受信された場合であっても、実際の演奏位置(T+Δt)における演奏音を推定して出力することが可能である。したがって、通信回線を介して受信した音を、遅延なく再生することが可能である。
 ここで、学習に用いられる学習データの音信号は、任意に決定されてよい。学習データの音信号は、少なくとも、推定対象とする演奏音に対応する音信号であればよいが、推定対象とする演奏音に似た演奏態様にて演奏された音であることが好ましい。演奏態様が似た演奏音を学習させることにより、推定の精度を向上させることが可能となるためである。
 例えば、学習データの音信号は、本番の遠隔合奏において、実際に演奏する演奏者による演奏音であることが好ましい。また、学習データの音信号は、本番の遠隔合奏において、実際に演奏される楽器を用いて演奏音であることが好ましい。学習データの音信号は、例えば、リハーサルにて演奏された演奏音(リハーサル音源)である。リハーサル音源を用いることによって、本番の遠隔合奏における演奏音を精度よく推定することができる。
 図2は、実施形態に係る合奏システム1の構成の例を示すブロック図である。ここでは、三つの演奏者端末10-1~10-3が遠隔演奏を行う場合を例示して説明する。しかしながらこれに限定されることはない。合奏システム1は、複数の演奏者端末10(演奏者端末10-1~10-N、Nは1とは異なる自然数)が遠隔演奏を行う場合に適用可能である。
 図1に示すように、合奏システム1は、例えば、三つの演奏者端末10-1~10-3と、配信サーバ20と、視聴者端末30を備える。なお、合奏システム1において、視聴者端末30が複数設けられていてもよい。
 演奏者端末10-1は、図1における会場E1に設けられるスマートフォンや携帯端末、タブレット、或いはPC(Personal Computer)などのコンピュータ装置である。演奏者端末10-1が備えるスピーカ部15は、図1のスピーカSP1に相当する。演奏者端末10-1が備えるマイク部16は、図1のマイクMC1に相当する。
 演奏者端末10-2は、図1における会場E2に設けられるスマートフォンや携帯端末、タブレット、或いはPCなどのコンピュータ装置である。演奏者端末10-2が備えるスピーカ部15は、図1のスピーカSP2に相当する。演奏者端末10-2が備えるマイク部16は、図1のマイクMC2に相当する。図1では省略されているが、演奏者端末10-3についても同様である。以下の説明では、演奏者端末10-1~10-3を区別しない場合には、単に、「演奏者端末10」と称する。
 合奏システム1において、演奏者端末10と、配信サーバ20と、視聴者端末30とは通信ネットワークNWを介して通信可能に接続される。通信ネットワークNWは、例えば、広域回線網、すなわちWAN(Wide Area Network)やインターネット、或いはこれらの組合せである。
 演奏者端末10は、例えば、通信部11と、記憶部12と、制御部13と、表示部14と、スピーカ部15と、マイク部16を備える。
 通信部11は、配信サーバ20と通信を行う。記憶部12は、HDD、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)などの記憶媒体、あるいはこれらの組合せによって構成される。記憶部12は、演奏者端末10の各種処理を実行するためのプログラム、及び各種処理を行う際に利用される一時的なデータを記憶する。記憶部12は、例えば、学習済モデル120を記憶する。学習済モデル120は、学習済モデルを構築するために必要な情報である。学習済モデルを構築するために必要な情報とは、学習済モデルの構成や、使用するパラメータの設定値等である。例えば、学習済モデルが、入力層、中間層、出力層の各層を備えるCNN(Convolutional Neural Network)の構成である場合、学習済モデルの構成は、その各層のユニット数、中間層の層数、活性化関数などを示す情報である。使用するパラメータは、各階層のノードを結合する結合係数や重みを示す情報である。
 学習済モデル120について、図3~図5を用いて説明する。図3は、演奏者端末10-1が記憶する学習済モデル120-1の例を示す図である。図4は、演奏者端末10-2が記憶する学習済モデル120-2の例を示す図である。図5は、演奏者端末10-3が記憶する学習済モデル120-3の例を示す図である。以下の説明では、学習済モデル120-1~120-3を区別しない場合には、単に、「学習済モデル120」と称する。
 図3~図5に示すように、学習済モデル120は、例えば、対象会場No、演奏種別、及び学習済モデルなどの項目を備える。対象会場Noは、演奏される会場を一意に特定する番号などの識別情報である。演奏種別は、対象会場Noにて特定される会場にて行われる演奏の種別、例えば、演奏される楽器を示す情報である。学習済モデルは、対象会場Noにて特定される会場にて行われる演奏の演奏音に対応する学習済モデルである。
 図3の例では、学習済モデル120-1に、第2学習済モデルと、第3学習済モデルとが記憶されていることが示されている。第2学習済モデルは、対象会場No(2)で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。第3学習済モデルは、対象会場No(3)で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。なお、対象会場No(1)で特定される会場が、演奏者端末10-1が設けられる会場に相当する。対象会場No(2)、或いは対象会場No(3)で特定される会場は、セッション相手がいる会場に相当する。
 図4の例では、学習済モデル120-2に、第1学習済モデルと、第3学習済モデルとが記憶されていることが示されている。第1学習済モデルは、対象会場No(1)で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。第3学習済モデルは、対象会場No(3)で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。なお、対象会場No(2)で特定される会場が、演奏者端末10-2が設けられる会場に相当する。対象会場No(1)、或いは対象会場No(3)で特定される会場は、セッション相手がいる会場に相当する。
 図5の例では、学習済モデル120-3に、第1学習済モデルと、第2学習済モデルとが記憶されていることが示されている。第1学習済モデルは、対象会場No(1)で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。第2学習済モデルは、対象会場No(2)で特定される会場で演奏されるトランペットの演奏音に対応して未来の演奏音を推定するモデルである。なお、対象会場No(3)で特定される会場が、演奏者端末10-3が設けられる会場に相当する。対象会場No(1)、或いは対象会場No(2)で特定される会場は、セッション相手がいる会場に相当する。
 図3~図5に示すように、学習済モデル120には、セッション相手となる演奏音を推定する学習済モデルが記憶される。
 図1の説明に戻り、制御部13は、演奏者端末10がハードウェアとして備えるCPU(Central Processing Unit)にプログラムを実行させることによって実現される。制御部13は、演奏者端末10を統括的に制御する。制御部13は、通信部11、記憶部12、表示部14、スピーカ部15、及びマイク部16のそれぞれを制御する。
 制御部13は、例えば、取得部130と、推定部131と、出力部132と、配信部133とを備える。取得部130は、セッション相手の演奏音を取得する。取得部130は、取得した演奏音を、推定部131に出力する。
 推定部131は、取得部130から取得した演奏音を、学習済モデルに入力させることにより、未来の演奏音を推定する。推定部131は、推定した演奏音を出力部132に出力する。
 出力部132は、推定部131から取得した演奏音を、スピーカ部15に出力させる。これにより、セッション相手の未来の演奏音が、スピーカ部15から放音される。
 なお、セッション相手が複数いる場合には、出力部132は、それぞれセッション相手の演奏音における未来の演奏音をミキシングした音を出力するようにしてもよい。
 配信部133は、マイク部16により収音された演奏音を、通信部11を介して、セッション相手の演奏者端末10、及び配信サーバ20に送信する。
 表示部14は、液晶ディスプレイなどの表示装置を含み、制御部13の制御に応じて、セッション相手の演奏に係る映像等の画像を表示する。スピーカ部15は、制御部13の制御に応じて、セッション相手の演奏音を出力する。
 配信サーバ20は、演奏に係る映像や音を配信するコンピュータ装置である。配信サーバ20は、例えば、サーバ装置、クラウド、PCなどである。
 配信サーバ20は、例えば、通信部21と、記憶部22と、制御部23とを備える。通信部21は、演奏者端末10のそれぞれと、視聴者端末30と通信を行う。
 記憶部22は、例えば、HDD、フラッシュメモリ、EEPROM、RAM、ROMなどの記憶媒体、あるいはこれらの組合せによって構成される。記憶部22は、配信サーバ20の各種処理を実行するためのプログラム、及び各種処理を行う際に利用される一時的なデータを記憶する。
 記憶部22は、例えば、配信情報220を記憶する。配信情報220は、配信される音に関する情報である。配信情報220は、例えば、配信先の視聴者端末30のリストや配信する内容を示す情報である。
 制御部23は、配信サーバ20がハードウェアとして備えるCPUにプログラムを実行させることによって実現される。制御部23は、例えば、取得部230と、合成部231と、配信部232とを備える。
 取得部230は、演奏者端末10それぞれから演奏音を取得する。取得部230は、取得したそれぞれの演奏音を示す情報を合成部231に出力する。
 合成部231は、取得部230から取得した、それぞれの演奏音をミキシングした合成音(合奏音)を生成する。合成部231は、例えば、各音源を圧縮し、圧縮した音源を加算することにより、合成音を生成する。合成部231は、生成した合成音を、配信部232に出力する。
 配信部232は、合成部231から取得した合成音を、視聴者端末30に配信する。
 視聴者端末30は、視聴者のコンピュータ装置である。視聴者端末30は、例えば、スマートフォン、PC、タブレット端末などである。視聴者端末30は、例えば、通信部31と、記憶部32と、制御部33と、表示部34と、スピーカ部35とを備える。
 通信部31は、配信サーバ20と通信を行う。記憶部32は、HDD、フラッシュメモリ、EEPROM、RAM、ROMなどの記憶媒体、あるいはこれらの組合せによって構成される。記憶部32は、視聴者端末30の各種処理を実行するためのプログラム、及び各種処理を行う際に利用される一時的なデータを記憶する。
 制御部33は、視聴者端末30がハードウェアとして備えるCPUにプログラムを実行させることによって実現される。制御部33は、視聴者端末30を統括的に制御する。制御部33は、通信部31、記憶部32、表示部34、スピーカ部35のそれぞれを制御する。
 表示部34は、液晶ディスプレイなどの表示装置を含み、制御部33の制御に応じて、遠隔合奏に係るライブ演奏の映像等の画像を表示する。
 スピーカ部35は、制御部33の制御に応じて、遠隔合奏に係るライブ演奏の合奏音を出力する。
 図6は、実施形態に係る合奏システム1が行う処理の流れを説明するシーケンス図である。以下のシーケンス図では、二つの演奏者端末10-1、10-2が遠隔演奏を行う場合を例示して説明する。
 演奏者端末10-1は、自会場における演奏音を収音し、収音した演奏音を、演奏者端末10-2、及び配信サーバ20に送信する(ステップS10)。ここでの自会場は、演奏者端末10-1が設けられている会場である。
 演奏者端末10-2は、他会場の演奏音を受信し、受信した他会場の演奏音の音処理を行う(ステップS11)。ここでの他会場は、演奏者端末10-1が設けられている会場である。音処理の流れについては後で詳しく説明する。一方、演奏者端末10-2は、自会場における演奏音を収音し、収音した演奏音を、演奏者端末10-1、及び配信サーバ20に送信する(ステップS12)。ここでの自会場は、演奏者端末10-2が設けられている会場である。演奏者端末10-2は、ステップS11、S12に示す処理を、セッションが終了するまで繰り返し実行する。
 演奏者端末10-1は、他会場の演奏音を受信し、受信した他会場の演奏音の音処理を行う(ステップS13)。ここでの他会場は、演奏者端末10-2が設けられている会場である。演奏者端末10-1は、ステップS10、S13に示す処理を、セッションが終了するまで繰り返し実行する。
 配信サーバ20は、第1会場の演奏音を受信する(ステップS14)。ここでの第1会場は、演奏者端末10-1が設けられている会場である。また、配信サーバ20は、第2会場の演奏音を受信する(ステップS15)。ここでの第2会場は、演奏者端末10-2が設けられている会場である。配信サーバ20は、第1会場の演奏音と、第2会場の演奏音とをミキシングする(ステップS16)。配信サーバ20は、ミキシングした合奏音を視聴者端末30に送信する(ステップS17)。視聴者端末30は、配信サーバ20から配信された合奏音を受信し、受信した合奏音をスピーカ部35に出力して再生する(ステップS18)。
 図7は、実施形態に係る演奏者端末10が行う音処理の流れを説明するフローチャートである。演奏者端末10は、別会場の演奏音を受信する(ステップS20)。演奏者端末10は、受信した演奏音の演奏位置Tから時間Δt進めた演奏位置(T+Δt)の演奏音を推定する(ステップS21)。演奏者端末10は、推定した演奏音をスピーカ部15から出力する(ステップS22)。演奏者端末10は、自会場の演奏音をマイク部16により収音する(ステップS23)。演奏者端末10は、自会場にて収音された演奏音を、セッション相手の演奏者端末10、及び配信サーバ20に送信する(ステップS24)。
 以上説明したように、実施形態の演奏者端末10は、会場E1と会場E2で遠隔合奏を行う場合において会場E1に設けられる。演奏者端末10は、推定部131を備える。推定部131は、演奏音における未来の演奏推定音を推定する。演奏音は、会場E2に設けられる装置(例えば、演奏者端末10-2)が収音した音である。推定部131は、演奏音を演奏音推定モデルに入力して演奏推定音を推定する。演奏音推定モデルは、入力された演奏音から、演奏推定音を推定する学習済モデルである。演奏音推定モデルは、演奏音に対応する音信号を学習した学習済モデルである。
 ここで、演奏者端末10は、「装置」の一例である。上述した実施形態では、会場Eに設けられた演奏者端末10が他会場の演奏音を推定して出力する場合を例示して説明した。しかしながらこれに限定されることはない。少なくとも会場Eに設けられている任意の装置によって、他会場の演奏音が推定されて出力されるように構成されてよい。会場Eに設けられている装置は、例えば、合奏音を配信する配信用のサーバ装置、或いは各会場の音をミキシングするミキサーなどのコンピュータ装置である。
 また、実施形態の合奏システム1は、演奏者端末10-1と10-2とを備える。演奏者端末10-1は会場E1に設けられる。演奏者端末10-2は、会場E2に設けられる。演奏者端末10は、取得部130と、通信部11と、推定部131と、出力部132とを備える。演奏者端末10-1の取得部130は、会場E1における第1演奏音を取得する。演奏者端末10-1の通信部11は、第1演奏音を、演奏者端末10-2に送信する。演奏者端末10-1の通信部11は、会場E2における第2演奏音を演奏者端末10-2から受信する。演奏者端末10-1の推定部131は、通信部11が受信した第2演奏音における未来の演奏音(第2演奏推定音)を推定する。推定部131は、学習済モデル(第2演奏音推定モデル)を用いて推定を行う。演奏者端末10-1の出力部132は、推定された音を出力する。
 演奏者端末10-2の取得部130は、会場E2における第2演奏音を取得する。演奏者端末10-2の通信部11は、第2演奏音を、演奏者端末10-1に送信する。演奏者端末10-2の通信部11は、第1演奏音を演奏者端末10-1から受信する。演奏者端末10-2の推定部131は、通信部11が受信した第1演奏音における未来の演奏音(第1演奏推定音)を推定する。推定部131は、学習済モデル(第1演奏音推定モデル)を用いて推定を行う。演奏者端末10-2の出力部132は、推定された音を出力する。
 学習済モデル(第1演奏音推定モデル)は、演奏音(第1演奏音)に係る音信号を学習したモデルである。学習済モデル(第2演奏音推定モデル)は、演奏音(第2演奏音)に係る音信号を学習したモデルである。これにより、実施形態の合奏システム1では、通信ネットワークNWを介して受信した演奏音における未来の演奏音を推定して出力することができる。このため、伝送遅延により、実際の演奏位置(T+Δt)よりも遅れた演奏位置Tの演奏音が受信された場合であっても、実際の演奏位置(T+Δt)における演奏音を推定して出力することが可能である。したがって、通信回線を介して受信した音を、遅延なく再生することが可能である。
 また、実施形態の演奏者端末10では、学習済モデルは、リハーサル音源に係る音信号を学習したモデルであってもよい。これにより、演奏音を精度よく推定することができる。
 また、図1における処理部(制御部13)の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより施工管理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
 また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
 また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、サーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものを含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。また、上記のプログラムを所定のサーバに記憶させておき、他の装置からの要求に応じて、当該プログラムを、通信回線を介して配信(ダウンロード等)させるようにしてもよい。
 以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1・・・合奏システム、10・・・演奏者端末、11・・・通信部、12・・・記憶部、13・・・制御部、14・・・表示部、15・・・スピーカ部、16・・・マイク部、20・・・配信サーバ、30・・・視聴者端末、130・・・取得部、131・・・推定部、132・・・出力部、133・・・配信部

Claims (5)

  1.  第1会場と第2会場で遠隔合奏を行う場合において前記第1会場に設けられる装置であって、
     前記第2会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力し、当該演奏音における未来の演奏推定音を推定する推定部、
     を有し、
     前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、
     装置。
  2.  前記演奏音推定モデルは、前記演奏音に対応するリハーサル音源を学習する、
     請求項1に記載の装置。
  3.  第1会場と第2会場での遠隔合奏を実現させる合奏システムであって、前記第1会場に設けられる第1端末装置と、前記第2会場に設けられる第2端末装置とを備え、
     前記第1端末装置は、
     前記第1会場における第1演奏音を取得する第1取得部と、
     前記第1演奏音を、前記第2端末装置に送信する第1送信部と、
     前記第2会場における第2演奏音を前記第2端末装置から受信する第1受信部と、
     前記第1受信部により受信された前記第2演奏音を、第2演奏音推定モデルに入力することにより、前記第2演奏音における未来の第2演奏推定音を推定する第1推定部と、
     前記第2演奏推定音を出力する第1音出力部と
     を有し、
     前記第2端末装置は、
     前記第2演奏音を取得する第2取得部と、
     前記第2演奏音を前記第1端末装置に送信する第2送信部と、
     前記第1演奏音を前記第1端末装置から受信する第2受信部と、
     前記第2受信部によって受信された第1演奏音を、第1演奏音推定モデルに入力することにより、前記第1演奏音における未来の第1演奏推定音を推定する第2推定部と、
     前記第1演奏推定音を出力する第2音出力部と
     を有し、
     前記第1演奏音推定モデルは、前記第1演奏音に対応する第1音信号を学習することによって、入力された前記第1演奏音から、前記第1演奏推定音を推定するように学習された学習済モデルであり、
     前記第2演奏音推定モデルは、前記第2演奏音に対応する第2音信号を学習することによって、入力された前記第2演奏音から、前記第2演奏推定音を推定するように学習された学習済モデルである、
     合奏システム。
  4.  第1会場と第2会場で遠隔合奏を行う場合において前記第1会場に設けられるコンピュータ装置が行う音再生方法であって、
     前記第2会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力し、当該演奏音における未来の演奏推定音を推定し、
     前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、
     音再生方法。
  5.  第1会場と第2会場で遠隔合奏を行う場合において前記第1会場に設けられるコンピュータ装置に、
     前記第2会場に設けられる装置が収音した演奏音を演奏音推定モデルに入力させ、当該演奏音における未来の演奏推定音を推定させる、
     プログラムであって、
     前記演奏音推定モデルは、前記演奏音に対応する音信号を学習することによって、入力された前記演奏音から、前記演奏推定音を推定するように学習された学習済モデルである、
     プログラム。
PCT/JP2021/023765 2021-06-23 2021-06-23 装置、合奏システム、音再生方法、及びプログラム WO2022269796A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202180099419.5A CN117501360A (zh) 2021-06-23 2021-06-23 装置、合奏系统、音播放方法及程序
PCT/JP2021/023765 WO2022269796A1 (ja) 2021-06-23 2021-06-23 装置、合奏システム、音再生方法、及びプログラム
JP2023529312A JPWO2022269796A1 (ja) 2021-06-23 2021-06-23

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/023765 WO2022269796A1 (ja) 2021-06-23 2021-06-23 装置、合奏システム、音再生方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2022269796A1 true WO2022269796A1 (ja) 2022-12-29

Family

ID=84545313

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/023765 WO2022269796A1 (ja) 2021-06-23 2021-06-23 装置、合奏システム、音再生方法、及びプログラム

Country Status (3)

Country Link
JP (1) JPWO2022269796A1 (ja)
CN (1) CN117501360A (ja)
WO (1) WO2022269796A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005077485A (ja) * 2003-08-28 2005-03-24 National Institute Of Advanced Industrial & Technology 多拠点におけるデュエット・合唱カラオケ制御方式
JP2010091794A (ja) * 2008-10-08 2010-04-22 Nippon Telegr & Teleph Corp <Ntt> 遠隔デュエット方法、遠隔デュエットシステム、遠隔デュエットプログラムおよび遠隔デュエットプログラムを記録した記録媒体
JP2010112981A (ja) * 2008-11-04 2010-05-20 Ipix Co 遠隔実演再生方法、装置
JP2011242560A (ja) * 2010-05-18 2011-12-01 Yamaha Corp セッション端末及びネットワークセッションシステム
JP2016206575A (ja) * 2015-04-28 2016-12-08 株式会社第一興商 歌唱音声の伝送遅延に対応したカラオケシステム
CN112447155A (zh) * 2019-09-05 2021-03-05 中移(苏州)软件技术有限公司 一种电子乐谱翻页方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005077485A (ja) * 2003-08-28 2005-03-24 National Institute Of Advanced Industrial & Technology 多拠点におけるデュエット・合唱カラオケ制御方式
JP2010091794A (ja) * 2008-10-08 2010-04-22 Nippon Telegr & Teleph Corp <Ntt> 遠隔デュエット方法、遠隔デュエットシステム、遠隔デュエットプログラムおよび遠隔デュエットプログラムを記録した記録媒体
JP2010112981A (ja) * 2008-11-04 2010-05-20 Ipix Co 遠隔実演再生方法、装置
JP2011242560A (ja) * 2010-05-18 2011-12-01 Yamaha Corp セッション端末及びネットワークセッションシステム
JP2016206575A (ja) * 2015-04-28 2016-12-08 株式会社第一興商 歌唱音声の伝送遅延に対応したカラオケシステム
CN112447155A (zh) * 2019-09-05 2021-03-05 中移(苏州)软件技术有限公司 一种电子乐谱翻页方法、装置及存储介质

Also Published As

Publication number Publication date
JPWO2022269796A1 (ja) 2022-12-29
CN117501360A (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
US11785410B2 (en) Reproduction apparatus and reproduction method
US20070287141A1 (en) Internet based client server to provide multi-user interactive online Karaoke singing
US8779265B1 (en) Networks of portable electronic devices that collectively generate sound
JP2019525571A5 (ja)
US20100095829A1 (en) Rehearsal mix delivery
KR102546398B1 (ko) 레이턴시 없이 라이브에 가까운 라이브 인터넷 음악을 공연하고 녹음하는 방법 및 시스템
KR102184378B1 (ko) 인공지능 악기 서비스 제공 시스템
Rossetti et al. Live Electronics, Audiovisual Compositions, and Telematic Performance: Collaborations During the Pandemic
US20240129669A1 (en) Distribution system, sound outputting method, and non-transitory computer-readable recording medium
CN115867902B (zh) 用于使用音频波形样本表演和录制现场音乐的方法和系统
US20160307551A1 (en) Multifunctional Media Players
WO2022269796A1 (ja) 装置、合奏システム、音再生方法、及びプログラム
JP2008089849A (ja) リモート演奏システム
JP2010002732A (ja) カラオケ映像録画装置
JP6568351B2 (ja) カラオケシステム、プログラム及びカラオケ音声再生方法
JP2013156543A (ja) 投稿再生装置及びプログラム
JP2014071226A (ja) 音楽再生システム、音楽再生方法
JP2013024915A (ja) ドングル(dongle)装置および再生システム
JP6958676B1 (ja) 制御方法および制御システム
JP2009244712A (ja) 演奏システム及び録音方法
WO2022208609A1 (ja) 配信システム、配信方法、及びプログラム
JP4214908B2 (ja) 教習用演奏再生表示システム
JP6565554B2 (ja) カラオケシステム、サーバ、カラオケ装置
JP7468111B2 (ja) 再生制御方法、制御システムおよびプログラム
WO2024047815A1 (ja) 盛り上がり尤度制御方法、盛り上がり尤度制御装置及び盛り上がり尤度制御プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21947082

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202180099419.5

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2023529312

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21947082

Country of ref document: EP

Kind code of ref document: A1