WO2021210338A1 - 再生制御方法、制御システムおよびプログラム - Google Patents

再生制御方法、制御システムおよびプログラム Download PDF

Info

Publication number
WO2021210338A1
WO2021210338A1 PCT/JP2021/011032 JP2021011032W WO2021210338A1 WO 2021210338 A1 WO2021210338 A1 WO 2021210338A1 JP 2021011032 W JP2021011032 W JP 2021011032W WO 2021210338 A1 WO2021210338 A1 WO 2021210338A1
Authority
WO
WIPO (PCT)
Prior art keywords
acoustic signal
reproduction
acoustic
sound
user
Prior art date
Application number
PCT/JP2021/011032
Other languages
English (en)
French (fr)
Inventor
入山 達也
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to CN202180026214.4A priority Critical patent/CN115398534A/zh
Publication of WO2021210338A1 publication Critical patent/WO2021210338A1/ja
Priority to US17/966,771 priority patent/US20230042477A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control

Definitions

  • the present disclosure relates to a technique for controlling sound reproduction in an acoustic space such as an acoustic hall.
  • Patent Document 1 a system has been conventionally proposed for a large number of users to view an event such as a concert or a live performance held in an acoustic space such as an acoustic hall at a remote location (for example, Patent Document 1).
  • a performer such as a singer or a performer located in the acoustic space grasps the situation of the user who is watching his / her own performance.
  • the performer cannot grasp the total number or reactions of users in remote areas.
  • the reproduction control method is realized by a computer system, receives a first reproduction request in response to an instruction by a first user from a first terminal device, and responds to an instruction by a second user.
  • the first acoustic signal that receives the second reproduction request from the second terminal device and represents the sound corresponding to the first reproduction request and the sound represented by the first acoustic signal are sounds having different acoustic characteristics and are said to be the first. 2
  • a second acoustic signal representing a sound corresponding to a reproduction request is acquired, and a third acoustic signal is generated by mixing the first acoustic signal and the second acoustic signal to generate the third acoustic signal. Includes causing the playback system to reproduce the sound represented by.
  • the control system receives the first reproduction request according to the instruction by the first user from the first terminal device, and receives the second reproduction request according to the instruction by the second user.
  • the receiving unit received from the terminal device, the first acoustic signal representing the sound corresponding to the first reproduction request, and the sound represented by the first acoustic signal are sounds having different acoustic characteristics and are used in the second reproduction request.
  • An acquisition unit that acquires a second acoustic signal representing a corresponding sound
  • a mixing unit that generates a third acoustic signal by mixing the first acoustic signal and the second acoustic signal, and the third acoustic signal. It includes a reproduction unit that causes the reproduction system to reproduce the sound represented by the mixed acoustic signal.
  • the program receives the first reproduction request according to the instruction by the first user from the first terminal device, and receives the second reproduction request according to the instruction by the second user to the second terminal.
  • the receiving unit received from the device, the first acoustic signal representing the sound corresponding to the first reproduction request, and the sound represented by the first acoustic signal are sounds having different acoustic characteristics and respond to the second reproduction request.
  • An acquisition unit that acquires a second acoustic signal representing sound, a mixing unit that generates a third acoustic signal by mixing the first acoustic signal and the second acoustic signal, and the third acoustic signal.
  • the computer functions as a playback unit that causes the playback system to reproduce the sound represented by.
  • FIG. 1 is a block diagram illustrating the configuration of the communication system 100 according to the first embodiment.
  • the communication system 100 includes a plurality of (N) terminal devices 10_1 to 10_N, a control system (computer system) 20, a recording system 30, and a playback system 40 (N is a natural number of 2 or more).
  • N is a natural number of 2 or more.
  • the number N of the terminal devices 10_n is a variable numerical value.
  • the recording system 30 and the playback system 40 are installed in the facility 200 where various events are held.
  • Facility 200 is an acoustic space where music events are held.
  • the performer P will demonstrate.
  • various music events such as a live performance in which the performer P sings a musical piece or a concert in which the performer P plays a musical instrument are assumed.
  • an acoustic hall, a live house, an outdoor stage, or the like is a specific example of the facility 200.
  • a music event is held in a situation where there is no audience in the facility 200.
  • the performer P can grasp the situation of the audience in the facility 200, but in the music event of the first embodiment, the performer P cannot grasp the situation of the audience in the facility 200.
  • the recording system 30 records a video of a music event held in the facility 200.
  • the recording system 30 includes a photographing device for capturing a video of a music event and a sound collecting device for collecting the sound of the music event.
  • the recording system 30 generates a moving image composed of an image captured by the photographing device and a sound collected by the sound collecting device.
  • the reproduction system 40 reproduces the sound in the facility 200.
  • the reproduction system 40 includes, for example, a plurality of sound emitting devices (for example, speaker devices) installed at different locations in the facility 200.
  • the performer P of the music event can hear the reproduced sound by the reproduction system 40 during the demonstration at the music event.
  • the recording system 30 and the reproduction system 40 can communicate with the control system 20.
  • the control system 20 includes a distribution control unit 20a and a reproduction control unit 20b.
  • the distribution control unit 20a distributes the moving image data M representing the moving image recorded by the recording system 30 to each of the N terminal devices 10_1 to 10_N.
  • the moving image data M is stream-distributed to each terminal device 10_n in real time (real time) in parallel with the progress of the music event.
  • the reproduction control unit 20b causes the reproduction system 40 to reproduce the sound according to the instruction from each user U_n of the N terminal devices 10_1 to 10_N.
  • a system including the distribution control unit 20a and a system including the reproduction control unit 20b may be installed separately.
  • Each of the N terminal devices 10_1 to 10_N is a portable information terminal such as a smartphone or a tablet terminal.
  • a stationary or portable personal computer may be used as the terminal device 10_n.
  • Each terminal device 10_n communicates with the control system 20 via, for example, a mobile communication network or a communication network 300 such as the Internet.
  • the user U_n of the terminal device 10_n is located outside the facility 200.
  • the user U_n is located at a point (for example, home) remote from the facility 200.
  • FIG. 2 is a block diagram illustrating the configuration of the terminal device 10_n.
  • the terminal device 10_n includes a control device 11, a storage device 12, a communication device 13, a reproduction device 14, and an operation device 15.
  • the terminal device 10_n may be realized as a single device, or may be realized as a set of a plurality of devices configured as separate bodies from each other.
  • the control device 11 is composed of a single or a plurality of processors that control each element of the terminal device 10_n.
  • the control device 11 is one or more types such as a CPU (Central Processing Unit), an SPU (Sound Processing Unit), a DSP (Digital Signal Processor), an FPGA (Field Programmable Gate Array), or an ASIC (Application Specific Integrated Circuit). It consists of a processor.
  • the storage device 12 is a single or a plurality of memories for storing a program executed by the control device 11 and various data used by the control device 11.
  • the storage device 12 is composed of a known recording medium such as a magnetic recording medium or a semiconductor recording medium.
  • the storage device 12 may be configured by combining a plurality of types of recording media.
  • the communication device 13 communicates with the control system 20 via the communication network 300.
  • the communication device 13 receives the moving image data M transmitted from the control system 20.
  • the playback device 14 reproduces a moving image including video and sound under the control of the control device 11.
  • the reproduction device 14 includes a display device for displaying an image and a sound emitting device for radiating sound.
  • the control device 11 causes the playback device 14 to reproduce the moving image represented by the moving image data M received by the communication device 13. That is, in parallel with the progress of the music event, the moving image of the music event is reproduced by the reproduction device 14 of each terminal device 10_n.
  • a plurality of (N people) users U_1 to U_N who use different terminal devices 10_n watch a video of a music event outside the facility 200.
  • the operation device 15 is an input device that receives an instruction from the user U_n.
  • the operation device 15 is, for example, a touch panel that detects a plurality of controls operated by the user U_n or a contact by the user U_n.
  • the user U_n inputs a desired character string X_n by operating the operation device 15. Specifically, the user U_n can instruct the character string X_n at any time while watching the moving image of the music event played by the playback device 14.
  • the character string X_n is composed of one or more words and phrases expressing cheers to the performer P of the music event, for example.
  • various character strings X_n such as exclamation words such as "Oh" and "Wow” or the name of the performer P are instructed by the user U_n. That is, the character string X_n is, for example, a character string representing the cheering that the audience utters to the performer P at a normal music event where the audience in the facility 200 is located.
  • FIG. 3 is a flowchart illustrating a specific procedure of the process (hereinafter referred to as “acceptance process”) Sa executed by the control device 11 of the terminal device 10_n with respect to the character string X_n.
  • the reception process Sa is repeated at a predetermined cycle within the period in which the moving image represented by the moving image data M is reproduced.
  • the control device 11 determines whether or not the character string X_n has been received from the user U_n (process Sa1).
  • the control device 11 transmits a reproduction request R_n including the character string X_n from the communication device 13 to the control system 20 (process Sa2).
  • the reproduction request R_n is data requesting that the voice corresponding to the character string X_n be reproduced in the facility 200.
  • the character string X_n is not accepted (process Sa1: NO)
  • the transmission of the reproduction request R_n (process Sa2) is not executed.
  • the reproduction request R_n according to the instruction by the user U_n is transmitted to the control system 20 in parallel or sequentially from each of the N terminal devices 10_1 to 10_N.
  • any two users U_n1 and U_n2 out of N users U_1 to U_N may be focused on for convenience (n1 ⁇ n2).
  • the reproduction request R_n1 including the character string X_n1 instructed by the user U_n1 is transmitted from the terminal device 10_n1
  • the reproduction request R_n2 including the character string X_n2 instructed by the user U_n2 is transmitted from the terminal device 10_n2. Will be sent.
  • the terminal device 10_n1 is an example of the "first terminal device”.
  • the terminal device 10_n2 is an example of the "second terminal device”.
  • the user U_n1 is an example of the "first user”.
  • User U_n2 is an example of a "second user”.
  • the reproduction request R_n1 is an example of the "first reproduction request”
  • the reproduction request R_n2 is an example of the "second reproduction request”.
  • the character string X_n1 is an example of the "first character string”.
  • the character string X_n2 is an example of the "second character string”.
  • FIG. 4 is a block diagram illustrating the configuration of the control system 20.
  • the control system 20 includes a control device 21, a storage device 22, and a communication device 23.
  • the control system 20 may be realized as a single device, or may be realized as a set of a plurality of devices configured as separate bodies from each other.
  • the control device 21 is composed of a single or a plurality of processors that control each element of the control system 20.
  • the control device 21 is composed of one or more types of processors such as a CPU, SPU, DSP, FPGA, or ASIC.
  • the storage device 22 is a single or a plurality of memories for storing a program executed by the control device 21 and various data used by the control device 21.
  • the storage device 22 is composed of a known recording medium such as a magnetic recording medium or a semiconductor recording medium.
  • the storage device 22 may be configured by combining a plurality of types of recording media.
  • the communication device 23 communicates with each of the N terminal devices 10_1 to 10_N via the communication network 300. For example, the communication device 23 transmits the moving image data M representing the moving image recorded by the recording system 30 to each terminal device 10_n. Further, the communication device 23 receives the reproduction request R_n transmitted from each of the N terminal devices 10_1 to 10_N. The communication device 23 may communicate with the recording system 30 or the reproduction system 40 via the communication network 300.
  • FIG. 5 is a flowchart illustrating a specific procedure of the process (hereinafter referred to as “reproduction control process”) Sb executed by the control device 21 (reproduction control unit 20b). For example, the reproduction control process Sb is repeated at a predetermined cycle.
  • the control device 21 receives the reproduction request R_n transmitted from each terminal device 10_n by the communication device 23 (process Sb1). That is, the control device 21 receives the reproduction request R_n from one or more terminal devices 10_n out of the N terminal devices 10_1 to 10_N. For example, the control device 21 receives the reproduction request R_n1 from the terminal device 10_n1 and the reproduction request R_n2 from the terminal device 10_n2. As described above, the control device 21 functions as an element (reception unit) for receiving the reproduction request R_n from each of the plurality of terminal devices 10_n.
  • the control device 21 generates an acoustic signal Y_n corresponding to the reproduction request R_n for each reproduction request R_n received from the terminal device 10_n (process Sb2). For example, an acoustic signal Y_n1 corresponding to the reproduction request R_n1 and an acoustic signal Y_n2 corresponding to the reproduction request R_n2 are generated.
  • the acoustic signal Y_n is a signal representing a voice waveform corresponding to the character string X_n included in the reproduction request R_n. That is, an acoustic signal Y_n representing a voice that is pronounced when a virtual speaker reads out the character string X_n is generated.
  • an acoustic signal Y_n representing cheers for the performer P of the music event is generated.
  • the time length of the acoustic signal Y_n is a length that varies according to the number of characters constituting the character string X_n. For example, the larger the number of characters in the character string X_n, the longer the time length of the acoustic signal Y_n.
  • the control device 21 generates each acoustic signal Y_n so that the pitch is different for each acoustic signal Y_n.
  • the pitch of the acoustic signal Y_n1 and the pitch of the acoustic signal Y_n2 are different.
  • the acoustic signal Y_n1 is an example of the "first acoustic signal”.
  • the acoustic signal Y_n2 is an example of the "second acoustic signal”.
  • the control device 21 of the first embodiment generates an acoustic signal Y_n by a voice synthesis process to which the character string X_n is applied.
  • the control device 21 generates an acoustic signal Y_n1 by a voice synthesis process to which the character string X_n1 is applied, and generates an acoustic signal Y_n2 by a voice synthesis process to which the character string X_n2 is applied.
  • a known speech synthesis technique is arbitrarily adopted for the generation of the acoustic signal Y_n.
  • a speech synthesis process of a speech synthesis type in which a plurality of speech fragments are connected is used to generate an acoustic signal Y_n.
  • a statistical model type speech synthesis process using a statistical model such as a deep neural network or HMM Hidden Markov Model
  • a statistical model such as a deep neural network or HMM (Hidden Markov Model)
  • HMM Hidden Markov Model
  • the control device 21 functions as an element (acquisition unit) for acquiring the acoustic signal Y_n corresponding to the reproduction request R_n.
  • the control device 21 generates an acoustic signal Z by mixing a plurality of acoustic signals Y_n (process Sb3).
  • the position of each acoustic signal Y_n on the time axis is set according to the time when the control device 21 receives the reproduction request R_n. For example, when the reproduction request R_n1 is received before the reproduction request R_n2 is received, the acoustic signal Y_n1 and the acoustic signal Y_n2 are mixed so that the start point of the acoustic signal Y_n1 is before the start point of the acoustic signal Y_n2.
  • the control device 21 functions as an element (mixing unit) for mixing a plurality of acoustic signals Y_n.
  • a plurality of acoustic signals Y_n may be mixed stepwise.
  • the control device 21 divides a plurality of acoustic signals Y_n into a plurality of sets, and generates an intermediate signal by mixing two or more acoustic signals Y_n for each set (first stage). Then, the control device 21 generates an acoustic signal Z by further mixing a plurality of intermediate signals corresponding to different sets (second stage).
  • a plurality of acoustic signals Y_n may be mixed after giving various acoustic effects such as a reverberation effect to each acoustic signal Y_n.
  • an acoustic effect may be applied step by step.
  • the control device 21 causes the reproduction system 40 to reproduce the sound represented by the acoustic signal Z (process Sb4). Specifically, the control device 21 supplies the acoustic signal Z to the reproduction system 40 to reproduce the sound represented by the acoustic signal Z. That is, the control device 21 functions as an element (reproduction unit) for causing the reproduction system 40 to reproduce the sound represented by the mixed acoustic signal Z.
  • a mixed sound of cheers instructed by a plurality of users U_n is reproduced in the facility 200.
  • the performer P of the music event is the user as compared with the configuration in which the acoustic characteristics are common among the plurality of acoustic signals Y_n.
  • the performer P can grasp the total number (scale) or reaction of the user U_n.
  • the acoustic signal Y_n representing the voice corresponding to the character string X_n instructed by each user U_n is generated by the voice synthesis process to which the character string X_n is applied. Therefore, there is an advantage that various acoustic signals Y_n corresponding to an arbitrary character string X_n instructed by each user U_n can be generated.
  • the storage device 12 of each terminal device 10_n stores the attribute information representing the attribute of the user U_n.
  • the attribute of the user U_n is, for example, the age or gender of the user U_n.
  • the reproduction request R_n of the second embodiment includes the same character string X_n as that of the first embodiment and the attribute information stored in the storage device 12. Specifically, when the control device 21 receives the character string X_n from the user U_n in the reception process Sa (process Sa1: YES), the control device 21 issues a reproduction request R_n including the character string X_n and the attribute information of the user U_n. It is transmitted from the communication device 13 to the control system 20 (process Sa2).
  • the control device 21 of the control system 20 generates an acoustic signal Y_n representing the voice quality according to the attribute information in each reproduction request R_n in the voice synthesis process of the reproduction control process Sb (process Sb2). Specifically, the control device 21 generates an acoustic signal Y_n representing a voice having higher intelligibility (that is, a voice of a young person) as the age represented by the attribute information becomes younger.
  • the voice with high intelligibility is, for example, a voice in which the tuning component is remarkable as compared with the non-tuning component (breath component).
  • control device 21 generates an acoustic signal Y_n representing the sound quality of either a male voice or a female voice according to the gender represented by the attribute information.
  • control device 21 of the second embodiment generates an acoustic signal Y_n1 representing the voice quality according to the attribute of the user U_n1, and an acoustic signal representing the voice quality corresponding to the attribute of the user U_n2.
  • the process of mixing the plurality of acoustic signals Y_n and the process of reproducing the acoustic signal Z are the same as those in the first embodiment.
  • the second embodiment it is possible to generate an acoustic signal Y_n representing various voice qualities according to the attributes of each user U_n. Further, there is an advantage that the performer P who listens to the reproduced sound by the reproduction system 40 can grasp the approximate attributes of the plurality of users U_n who listen to the music event.
  • the voice quality of the sound represented by the acoustic signal Y_n does not have to be the voice quality consistent with the attributes of the user U_n. For example, when the gender represented by the attribute information of the user U_n is male, the acoustic signal Y_n representing the female voice may be generated. That is, any configuration may be adopted as long as the voice quality (an example of acoustic characteristics) represented by the acoustic signal Y_n changes according to the attributes of the user U_n.
  • the control device 21 of the control system 20 in the third embodiment generates an acoustic signal Y_n representing a voice having a volume corresponding to the character string X_n in the voice synthesis process of the reproduction control process Sb (process Sb2). ). Specifically, the control device 21 generates an acoustic signal Y_n whose volume becomes louder as the number of characters in the character string X_n increases.
  • the control device 21 of the third embodiment is an acoustic signal representing a volume voice corresponding to the character string X_n1 (an acoustic signal representing a volume voice proportional to the length of the character string X_n1). Y_n1 is generated, and an acoustic signal Y_n2 representing a volume corresponding to the character string X_n2 is generated.
  • the third embodiment it is possible to generate an acoustic signal Y_n representing voices of various volumes according to the character string X_n instructed by each user U_n.
  • the configuration of the second embodiment in which the voice quality represented by the acoustic signal Y_n is controlled according to the attribute of the user U_n, and the configuration of the third embodiment in which the volume of the voice represented by the acoustic signal Y_n is controlled according to the character string X_n. May be merged with.
  • an example of generating an acoustic signal Y_n representing a voice having a volume corresponding to the number of characters in the character string X_n has been described.
  • the condition of the character string X_n reflected in the volume of the acoustic signal Y_n is not limited to the number of characters.
  • a configuration may be adopted in which the volume of the acoustic signal Y_n is set to a large numerical value when the character string X_n is a specific phrase. That is, the configuration may be such that the volume of the acoustic signal Y_n (an example of acoustic characteristics) changes according to the character string X_n.
  • the fourth embodiment For example, at the end of a music event, cheers such as "encore” are repeatedly pronounced in a predetermined cycle. Considering the above circumstances, it is assumed that the user U_n of each terminal device 10_n repeatedly instructs the character string X_n such as "encore” at a predetermined cycle.
  • the fourth embodiment is a mode used when the sound corresponding to the character string X_n repeatedly instructed as described above is reproduced in the facility 200.
  • FIG. 6 is a flowchart illustrating a specific procedure of the reproduction control process Sb in the fourth embodiment.
  • FIG. 7 is an explanatory diagram of the setting process Sc1 and the adjustment process Sc2.
  • the setting process Sc1 is a process of setting the reference time point Q on the time axis.
  • the control device 21 sets a plurality of reference time points Q on the time axis, for example, at predetermined intervals.
  • the beat point of the music performed by the performer P may be set as the reference time point Q.
  • the control device 21 sets the specific period D for each reference time point Q.
  • the specific period D corresponding to each reference time point Q is a predetermined length period including the reference time point Q.
  • the period starting from the reference time point Q is exemplified as the specific period D.
  • the period with the reference time point Q as the midpoint or the end point may be set as the specific period D.
  • Adjustment processing Sc2 is a processing for adjusting the positions of a plurality of acoustic signals Y_n on the time axis.
  • the control device 21 adjusts the start points of the plurality of acoustic signals Y_n within the specific period D. Specifically, the control device 21 sets the start point of each of the plurality of acoustic signals Y_n corresponding to the plurality of reproduction requests R_n received within a predetermined period (hereinafter referred to as “unit period”) C on the time axis.
  • the adjustment is made within the specific period D immediately after the unit period C.
  • the unit period C is a period between the start points of two specific periods D that are in phase with each other. For example, as illustrated in FIG.
  • the control device 21 sets the start point of the acoustic signal Y_n1 corresponding to the reproduction request R_n1 and the reproduction request.
  • the start point of the acoustic signal Y_n2 corresponding to R_n2 is adjusted within the specific period D immediately after the unit period C.
  • the control device 21 disperses the start points of the plurality of acoustic signals Y_n within the specific period D. That is, the control device 21 disperses the start points of each acoustic signal Y_n so that the start points of the plurality of acoustic signals Y_n do not coincide with one time point in the specific period D. For example, as illustrated in FIG. 7, the start point of the acoustic signal Y_n1 and the start point of the acoustic signal Y_n2 are dispersed within the specific period D.
  • each of the plurality of acoustic signals Y_n so that the number of start points of the acoustic signal Y_n follows the frequency distribution in which the frequency decreases toward the end point of the specific period D with the reference time point Q in the specific period D as the maximum frequency.
  • the starting points are dispersed within the specific period D. That is, the start points of the plurality of acoustic signals Y_n are appropriately dispersed within the specific period D while concentrating on the reference time point Q.
  • the control device 21 generates an acoustic signal Z by mixing a plurality of acoustic signals Y_n adjusted by the adjustment process Sc2 exemplified above. Similar to the first embodiment, the control device 21 causes the reproduction system 40 to reproduce the sound represented by the acoustic signal Z (process Sb4). As understood from the above description, the reproduction of the voice corresponding to the character string X_n instructed by the different users U_n is concentrated within the specific period D and started. Since the above processing is sequentially executed for each of the plurality of specific periods D, the situation in which the sounds corresponding to the plurality of character strings X_n are sounded in a specific cycle is reproduced in the facility 200.
  • the same effect as that of the first embodiment is realized in the fourth embodiment. Further, in the fourth embodiment, since the start points of the plurality of acoustic signals Y_n are aggregated within a specific period D on the time axis, a plurality of sounds corresponding to instructions from different users U_n are simultaneously produced. The sounded situation can be reproduced by the reproduction system 40.
  • the performer P may grasp the total number of users U_n.
  • the total number of users U_n is calculated by the performer P as compared with the case where the start points of the plurality of acoustic signals Y_n match. There is also an advantage that it is easy to grasp.
  • the sound collecting device of the recording system 30 picks up sounds produced in the demonstration by the performer P (for example, singing sounds or instrument sounds) and sounds produced by the audience in the facility 200 (for example, cheers or applause). Collects the included sounds.
  • FIG. 8 is an explanatory diagram of the setting process Sc1 in the fifth embodiment.
  • the control device 21 of the control system 20 identifies the volume V of the sound existing in the facility 200. Specifically, the control device 21 calculates the volume V by analyzing the sound picked up by the sound picking device of the recording system 30.
  • the control device 21 sets the specific period D according to the volume V. Specifically, the control device 21 sets a time point when the volume V exceeds a predetermined threshold value Vth as a reference time point Q, and sets a specific period D including the reference time point Q. For example, assuming a scene in which an audience in the facility 200 clapping hands in parallel with the performance by the performer P, the clapping point of the clapping is set as the reference time point Q. In a situation where the audience is clapping periodically, a plurality of reference time points Q are periodically set on the time axis. The content of the adjustment process Sc2 using the reference time point Q and the specific period D set by the setting process Sc1 is the same as that of the fourth embodiment.
  • the reproduction of the sound by the reproduction system 40 is caused by the change in the volume V in the facility 200 (for example, in the facility 200). It is possible to link with the excitement of the audience). That is, it is possible to integrally pronounce the cheers of the audience inside the facility 200 and the sounds according to the instructions given by each user U_n outside the facility 200.
  • the pitch, volume, and voice quality of the voice represented by each acoustic signal Y_n are different.
  • the acoustic characteristics that are different for each acoustic signal Y_n are not limited to the above examples.
  • the acoustic characteristics may be frequency characteristics, reverberation characteristics (for example, reverberation time), time change of pitch (pitch bend), localization position of sound image, continuation length of sound, and the like.
  • Arbitrary acoustic characteristics may be set for each acoustic signal Y_n. Two or more types of acoustic characteristics may be different for each acoustic signal Y_n.
  • the voice quality of the acoustic signal Y_n is controlled according to the attribute of the user U_n, but the acoustic characteristics other than the voice quality related to the acoustic signal Y_n may be controlled according to the attribute of the user U_n.
  • the volume of the acoustic signal Y_n is controlled according to the character string X_n, but the acoustic characteristics other than the volume related to the acoustic signal Y_n may be controlled according to the character string X_n.
  • the acoustic signal Y_n corresponding to the character string X_n is generated by the voice synthesis process, but the method of acquiring the acoustic signal Y_n is not limited to the above examples.
  • the pre-recorded or synthesized acoustic signal Y_n may be read from the storage device 22.
  • an acoustic signal representing a voice corresponding to each character string is stored in the storage device 22.
  • the control device 21 reads the acoustic signal corresponding to the character string X_n in response to the instruction by the user U_n from the storage device 22 as the acoustic signal Y_n.
  • the process of acquiring the acoustic signal Y_n includes the process of generating the acoustic signal Y_n by the voice synthesis process and the process of reading the pre-recorded or synthesized acoustic signal Y_n from the storage device 22. Is also included.
  • the process of generating the acoustic signal Y_n by the voice synthesis process and the process of reading the acoustic signal Y_n prepared in advance may be used in combination.
  • the control device 21 reads the acoustic signal Y_n from the storage device 22.
  • the control device 21 generates the acoustic signal Y_n by the voice synthesis process to which the character string X_n is applied.
  • the terminal device 10_n executes the reproduction of the moving image represented by the moving image data M and the reception of the instruction from the user U_n, but the embodiment is not limited to such an example.
  • the moving image of the moving image data M may be played back by a playing device separate from the terminal device 10_n that receives the instruction from the user U_n.
  • the playback device for reproducing the moving image may be an information terminal such as a smartphone or a tablet terminal, or a video device such as a television receiver.
  • the user U_n has instructed the character string X_n, but the user U_n is not required to input the character string X_n.
  • the user U_n selects one of a plurality of options corresponding to different character strings by the operation device 15.
  • the terminal device 10_n transmits the reproduction request R_n including the identification information of the option selected by the user U_n to the control system 20.
  • the control device 21 of the control system 20 reads from the storage device 22 the acoustic signal corresponding to the identification information in the reproduction request R_n as the acoustic signal Y_n among the plurality of acoustic signals stored in the storage device 22 for different identification information. put out.
  • the same effect as that of the first embodiment is realized by differentiating the acoustic characteristics of each acoustic signal Y_n.
  • the configuration in which the acoustic signal Y_n represents voice (speech sound) is illustrated, but the sound represented by the acoustic signal Y_n is not limited to voice.
  • the control device 21 may acquire acoustic signals Y_n representing various sound effects. Specific examples of the sound effect represented by the acoustic signal Y_n may include a sound produced by clapping or a finger flute, or a musical sound produced by playing a musical instrument such as a drum.
  • the position of the start point of each acoustic signal Y_n within the specific period D may be dispersed according to the communication delay.
  • the start point of each acoustic signal Y_n is adjusted within the specific period D so that the time difference with respect to the reference time point Q becomes larger as the communication delay becomes larger.
  • the start points of the acoustic signals Y_n are close to the user U_n who has the same distance from the control system 20.
  • each user U_n basically inputs the character string X_n within the interval of music performances that are one after the other.
  • the playback request R_n including the character string X_n instructed by the user U_n within the interval of music performance may reach the control system 20 after the start of the music immediately after.
  • the reproduction system 40 stops the reproduction of the sound during the performance of the music in the music event.
  • the control device 21 of the control system 20 determines whether or not a musical piece is being played in the facility 200 by analyzing the sound picked up by the sound picking device of the recording system 30.
  • the operator of the music event may instruct the control system 20 whether or not the music is being played.
  • the control device 21 supplies the acoustic signal Z to the reproduction system 40 to reproduce the sound in the facility 200, as in each of the above-described embodiments.
  • the control device 21 stops the supply of the acoustic signal Z to the reproduction system 40.
  • the generation (processing Sb2) and mixing (processing Sb3) of the acoustic signal Y_n may be stopped during the performance of the music.
  • the volume of the acoustic signal Z may be lowered as compared with the case where the music is not being played, and then the acoustic signal Z may be supplied to the reproduction system 40.
  • the scene to which each of the above-described embodiments is applied is not limited to the music event.
  • various educational institutions such as competition events in which multiple athletes (teams) compete in sports, drama events in which actors appear, dance events in which dancers perform, lecture events in which speakers give lectures, schools and cram schools, etc.
  • Each of the above embodiments may be applied to various events held for a specific purpose, such as an educational event that provides lessons to students.
  • the functions of the control system 20 illustrated above are realized by the cooperation of the single or a plurality of processors constituting the control device 21 and the program stored in the storage device 22.
  • the program may be provided and installed on a computer in a form stored on a computer-readable recording medium.
  • the recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disc) such as a CD-ROM is a good example, but a known arbitrary such as a semiconductor recording medium or a magnetic recording medium is used. Recording media in the format of are also included.
  • the non-transient recording medium includes any recording medium other than the transient propagation signal (transitory, propagating signal), and the volatile recording medium is not excluded. Further, in the configuration in which the distribution device distributes the program via the communication network, the recording medium for storing the program in the distribution device corresponds to the above-mentioned non-transient recording medium.
  • the reproduction control method receives a first reproduction request in response to an instruction by the first user from the first terminal device, and receives a second reproduction request in response to the instruction by the second user.
  • the first acoustic signal that receives the reproduction request from the second terminal device and represents the sound corresponding to the first reproduction request and the sound represented by the first acoustic signal are sounds having different acoustic characteristics and the second reproduction.
  • a second acoustic signal representing a sound according to a request is acquired, and a third acoustic signal is generated by mixing the first acoustic signal and the second acoustic signal, and the third acoustic signal represents the third acoustic signal.
  • the acoustic characteristic is one or more of the pitch, the volume, the sound quality, the frequency characteristic, the reverberation characteristic, the time change of the pitch, the localization position of the sound image, and the continuation length of the sound. including.
  • the first reproduction request includes the first character string instructed by the first user, and the second reproduction request is instructed by the second user.
  • the first acoustic signal representing the voice corresponding to the first character string is generated by a voice synthesis process to which the first character string is applied, and the second character is included.
  • the second acoustic signal representing the voice corresponding to the column is generated by a voice synthesis process to which the second character string is applied.
  • the first acoustic signal representing the acoustic characteristics corresponding to the attributes of the first user is generated, and according to the attributes of the second user.
  • the second acoustic signal representing the acoustic characteristics is generated. According to the above aspects, it is possible to generate acoustic signals having various acoustic characteristics according to the attributes of the user.
  • the first acoustic signal representing the acoustic characteristics corresponding to the first character string is generated, and the first acoustic signal corresponding to the second character string is generated.
  • the second acoustic signal representing the acoustic characteristics is generated. According to the above aspect, it is possible to generate an acoustic signal having various acoustic characteristics according to a character string instructed by the user.
  • the start point of the first acoustic signal and the start point of the second acoustic signal are adjusted within a specific period on the time axis.
  • the first acoustic signal whose start point is adjusted and the second acoustic signal whose start point is adjusted are mixed.
  • the start points of the first acoustic signal and the second acoustic signal are aggregated within a specific period on the time axis. Therefore, the situation in which a plurality of sounds are sounded all at once can be reproduced by the reproduction system.
  • the start point of the first acoustic signal and the start point of the second acoustic signal are dispersed within the specific period.
  • the start point of the first acoustic signal and the start point of the second acoustic signal are on the time axis. Compared with the case of matching, it is possible to reproduce a sound in which the listener can easily grasp the total number (scale) of the users.
  • the specific period is set according to the volume of sound picked up in the acoustic space in which the reproduction system is installed.
  • the specific period is set according to the volume in the acoustic space, the reproduction of the mixed sound by the reproduction system is changed to the change in the volume in the acoustic space (for example, the excitement of the audience in the acoustic space). It is possible to link them.
  • the present disclosure is also realized as a control system that realizes the reproduction control method according to each of the above-described aspects (aspects 1 to 8), or a program that causes a computer system to execute the reproduction control method.
  • Communication system 200 Facility, 300 ... Communication network 10_n (10_1 to 10_N): Terminal device 11: Control device 12: Storage device 13: Communication device 14: Reproduction device 15: Operation device 20: Control system 20a: Distribution control unit 20b: Playback control unit 21: Control device 22: Storage device 23: Communication device 30: Recording system 40: Playback system U_n (U_1 to U_N) ... User P ... Demonstrator R_n (R_1 to R_N) ... Playback request Q ... Reference Time point D ... Specific period

Abstract

制御システムは、第1利用者による指示に応じた第1再生要求を第1端末装置から受信し、第2利用者による指示に応じた第2再生要求を第2端末装置から受信する受信部と、第1再生要求に応じた音を表す第1音響信号と、第1音響信号が表す音とは音響特性が異なる音であって第2再生要求に応じた音を表す第2音響信号とを取得する取得部と、第1音響信号と第2音響信号とを混合することにより第3の音響信号を生成する混合部と、第3の音響信号が表す音を再生システムに再生させる再生部とを具備する。

Description

再生制御方法、制御システムおよびプログラム
 本開示は、例えば音響ホール等の音響空間における音の再生を制御する技術に関する。
 この出願は、2020年4月17日に出願された日本国特願2020-074260号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 例えば音響ホール等の音響空間で実施されるコンサートまたはライブ等のイベントを、多数の利用者が遠隔地において視聴するためのシステムが従来から提案されている(例えば特許文献1)。
米国特許第9131016号明細書
 しかし、遠隔地の利用者が音響空間内のイベントを視聴する状況では、音響空間内に所在する歌唱者または演奏者等の実演者が、自身の実演を視聴している利用者の状況を把握し難いという課題がある。例えば、遠隔地の利用者の総数または反応を、実演者は把握できない。
 本開示のひとつの態様に係る再生制御方法は、コンピュータシステムにより実現され、第1利用者による指示に応じた第1再生要求を第1端末装置から受信し、第2利用者による指示に応じた第2再生要求を第2端末装置から受信し、前記第1再生要求に応じた音を表す第1音響信号と、前記第1音響信号が表す音とは音響特性が異なる音であって前記第2再生要求に応じた音を表す第2音響信号とを取得し、前記第1音響信号と前記第2音響信号とを混合することにより第3の音響信号を生成し、前記第3の音響信号が表す音を再生システムに再生させることを含む。
 本開示のひとつの態様に係る制御システムは、第1利用者による指示に応じた第1再生要求を第1端末装置から受信し、第2利用者による指示に応じた第2再生要求を第2端末装置から受信する受信部と、前記第1再生要求に応じた音を表す第1音響信号と、前記第1音響信号が表す音とは音響特性が異なる音であって前記第2再生要求に応じた音を表す第2音響信号とを取得する取得部と、前記第1音響信号と前記第2音響信号とを混合することにより第3の音響信号を生成する混合部と、前記第3の混合後の音響信号が表す音を再生システムに再生させる再生部とを具備する。
 本開示のひとつの態様に係るプログラムは、第1利用者による指示に応じた第1再生要求を第1端末装置から受信し、第2利用者による指示に応じた第2再生要求を第2端末装置から受信する受信部、前記第1再生要求に応じた音を表す第1音響信号と、前記第1音響信号が表す音とは音響特性が異なる音であって前記第2再生要求に応じた音を表す第2音響信号とを取得する取得部、前記第1音響信号と前記第2音響信号とを混合することにより第3の音響信号を生成する混合部、および、前記第3の音響信号が表す音を再生システムに再生させる再生部としてコンピュータを機能させる。
第1実施形態における通信システムの構成を例示するブロック図である。 端末装置の構成を例示するブロック図である。 受付処理の具体的な手順を例示するフローチャートである。 制御システムの構成を例示するブロック図である。 再生制御処理の具体的な手順を例示するフローチャートである。 第4実施形態における再生制御処理の具体的な手順を例示するフローチャートである。 第4実施形態の再生制御処理における設定処理および調整処理の説明図である。 第5実施形態における設定処理の説明図である。
A:第1実施形態
 図1は、第1実施形態に係る通信システム100の構成を例示するブロック図である。通信システム100は、複数(N個)の端末装置10_1~10_Nと制御システム(コンピュータシステム)20と収録システム30と再生システム40とを具備する(Nは2以上の自然数)。以下の説明においては、N個の端末装置10_1~10_Nのうち任意の1個の端末装置10_n(n=1~N)に関連する要素の符号に添字_nを付加する。なお、端末装置10_nの個数Nは可変の数値である。
 収録システム30および再生システム40は、各種のイベントが実施される施設200内に設置される。施設200は、音楽イベントが実施される音響空間である。音楽イベントにおいては実演者Pが実演する。例えば実演者Pが楽曲を歌唱するライブ、または実演者Pが楽器を演奏するコンサート等の各種の音楽イベントが想定される。例えば音響ホール、ライブハウスまたは野外ステージ等が施設200の具体例である。なお、第1実施形態においては、施設200内に聴衆が存在しない場合を想定する。例えば感染症の蔓延の防止等の種々の事情により、施設200内に聴衆が存在しない状況で音楽イベントが実施される。通常の音楽イベントにおいては実演者Pが施設200内の聴衆の状況を把握できるが、第1実施形態の音楽イベントにおいては、施設200内の聴衆の状況を実演者Pが把握できない。
 収録システム30は、施設200内で実施される音楽イベントの動画を収録する。具体的には、収録システム30は、音楽イベントの映像を撮影する撮影装置と、音楽イベントの音を収音する収音装置とを具備する。撮影装置が撮影する映像と収音装置が収音する音とで構成される動画が収録システム30により生成される。
 再生システム40は、施設200内に音を再生する。再生システム40は、例えば施設200内の相異なる場所に設置された複数の放音装置(例えばスピーカ装置)を具備する。音楽イベントの実演者Pは、その音楽イベントにおける実演中に再生システム40による再生音を聴取可能である。収録システム30および再生システム40は、制御システム20と通信可能である。
 制御システム20は、配信制御部20aと再生制御部20bとを具備する。配信制御部20aは、収録システム30が収録した動画を表す動画データMをN個の端末装置10_1~10_Nの各々に配信する。動画データMは、例えば音楽イベントの進行に並行して実時間的(リアルタイム)に各端末装置10_nに対してストリーミング配信される。再生制御部20bは、N個の端末装置10_1~10_Nの各々の利用者U_nからの指示に応じた音を再生システム40に再生させる。なお、配信制御部20aを具備するシステムと再生制御部20bを具備するシステムとを個別に設置してもよい。
 N個の端末装置10_1~10_Nの各々は、例えばスマートフォンまたはタブレット端末等の可搬型の情報端末である。なお、据置型または可搬型のパーソナルコンピュータを端末装置10_nとして利用してもよい。各端末装置10_nは、例えば移動体通信網またはインターネット等の通信網300を介して制御システム20と通信する。端末装置10_nの利用者U_nは、施設200の外側に位置する。例えば、利用者U_nは、施設200から遠隔の地点(例えば自宅)に所在する。
 図2は、端末装置10_nの構成を例示するブロック図である。端末装置10_nは、制御装置11と記憶装置12と通信装置13と再生装置14と操作装置15とを具備する。なお、端末装置10_nは、単体の装置として実現されてもよく、相互に別体で構成された複数の装置の集合として実現されてもよい。
 制御装置11は、端末装置10_nの各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置11は、CPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサにより構成される。
 記憶装置12は、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置12は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体により構成される。なお、複数種の記録媒体の組合せにより記憶装置12を構成してもよい。
 通信装置13は、通信網300を介して制御システム20と通信する。例えば、通信装置13は、制御システム20から送信された動画データMを受信する。再生装置14は、制御装置11による制御のもとで、映像と音とを含む動画を再生する。具体的には、再生装置14は、映像を表示する表示装置と、音を放射する放音装置とを具備する。
 制御装置11は、通信装置13が受信した動画データMが表す動画を再生装置14に再生させる。すなわち、音楽イベントの進行に並行してその音楽イベントの動画が各端末装置10_nの再生装置14により再生される。以上の説明から理解される通り、相異なる端末装置10_nを利用する複数(N人)の利用者U_1~U_Nが、施設200の外側において音楽イベントの動画を視聴する。
 操作装置15は、利用者U_nからの指示を受付ける入力機器である。操作装置15は、例えば、利用者U_nが操作する複数の操作子、または、利用者U_nによる接触を検知するタッチパネルである。
 利用者U_nは、操作装置15を操作することで所望の文字列X_nを入力する。具体的には、利用者U_nは、再生装置14が再生する音楽イベントの動画を視聴しながら、任意の時点において文字列X_nを指示できる。文字列X_nは、例えば音楽イベントの実演者Pに対する歓声を表す1個以上の語句で構成される。例えば「オー(Oh)」「ウワー(Wow)」等の感嘆詞または実演者Pの名前等の各種の文字列X_nが利用者U_nにより指示される。すなわち、文字列X_nは、例えば施設200内の聴衆が所在する通常の音楽イベントにおいてその聴衆が実演者Pに対して発声する声援を表す文字列である。
 図3は、端末装置10_nの制御装置11が文字列X_nに関して実行する処理(以下「受付処理」という)Saの具体的な手順を例示するフローチャートである。動画データMが表す動画が再生される期間内に所定の周期で受付処理Saが反復される。
 受付処理Saが開始されると、制御装置11は、利用者U_nから文字列X_nを受付けたか否かを判定する(処理Sa1)。文字列X_nを受付けた場合(処理Sa1:YES)、制御装置11は、その文字列X_nを含む再生要求R_nを通信装置13から制御システム20に送信する(処理Sa2)。再生要求R_nは、文字列X_nに対応する音声を施設200内で再生することを要求するデータである。他方、文字列X_nを受付けない場合(処理Sa1:NO)、再生要求R_nの送信(処理Sa2)は実行されない。以上の説明から理解される通り、N個の端末装置10_1~10_Nの各々から、利用者U_nによる指示に応じた再生要求R_nが並列または順次に制御システム20に送信される。
 なお、以下の説明においては、N人の利用者U_1~U_Nのうち任意の2人の利用者U_n1および利用者U_n2に便宜的に着目する場合がある(n1≠n2)。例えば、前述の受付処理Saにより、利用者U_n1が指示した文字列X_n1を含む再生要求R_n1が端末装置10_n1から送信され、利用者U_n2が指示した文字列X_n2を含む再生要求R_n2が端末装置10_n2から送信される。
 なお、端末装置10_n1は「第1端末装置」の一例である。端末装置10_n2は「第2端末装置」の一例である。また、利用者U_n1は「第1利用者」の一例である。利用者U_n2は「第2利用者」の一例である。再生要求R_n1は「第1再生要求」の一例であり、再生要求R_n2は「第2再生要求」の一例である。文字列X_n1は「第1文字列」の一例である。文字列X_n2は「第2文字列」の一例である。
 図4は、制御システム20の構成を例示するブロック図である。制御システム20は、制御装置21と記憶装置22と通信装置23とを具備する。なお、制御システム20は、単体の装置として実現されてもよく、相互に別体で構成された複数の装置の集合として実現されてもよい。
 制御装置21は、制御システム20の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置21は、CPU、SPU、DSP、FPGA、またはASIC等の1種類以上のプロセッサにより構成される。
 記憶装置22は、制御装置21が実行するプログラムと制御装置21が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置22は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体により構成される。なお、複数種の記録媒体の組合せにより記憶装置22を構成してもよい。
 通信装置23は、通信網300を介してN個の端末装置10_1~10_Nの各々と通信する。例えば、通信装置23は、収録システム30が収録した動画を表す動画データMを各端末装置10_nに送信する。また、通信装置23は、N個の端末装置10_1~10_Nの各々から送信された再生要求R_nを受信する。なお、通信装置23が通信網300を介して収録システム30または再生システム40と通信してもよい。
 図5は、制御装置21(再生制御部20b)が実行する処理(以下「再生制御処理」という)Sbの具体的な手順を例示するフローチャートである。例えば所定の周期で再生制御処理Sbが反復される。
 再生制御処理Sbが開始されると、制御装置21は、各端末装置10_nから送信された再生要求R_nを通信装置23により受信する(処理Sb1)。すなわち、制御装置21は、N個の端末装置10_1~10_Nのうち1以上の端末装置10_nから再生要求R_nを受信する。例えば、制御装置21は、再生要求R_n1を端末装置10_n1から受信し、再生要求R_n2を端末装置10_n2から受信する。以上の通り、制御装置21は、複数の端末装置10_nの各々から再生要求R_nを受信する要素(受信部)として機能する。
 制御装置21は、再生要求R_nに応じた音響信号Y_nを、端末装置10_nから受信した再生要求R_n毎に生成する(処理Sb2)。例えば、再生要求R_n1に応じた音響信号Y_n1と再生要求R_n2に応じた音響信号Y_n2とが生成される。音響信号Y_nは、再生要求R_nに含まれる文字列X_nに対応する音声の波形を表す信号である。すなわち、仮想的な発話者が文字列X_nを読上げたときに発音される音声を表す音響信号Y_nが生成される。具体的には、音楽イベントの実演者Pに対する歓声を表す音響信号Y_nが生成される。音響信号Y_nの時間長は、文字列X_nを構成する文字数に応じて可変する長さである。例えば、文字列X_nの文字数が多いほど音響信号Y_nの時間長はより長い。
 制御装置21は、音響信号Y_n毎に音高が相違するように各音響信号Y_nを生成する。例えば、音響信号Y_n1の音高と音響信号Y_n2の音高とは相違する。音響信号Y_n1は「第1音響信号」の一例である。音響信号Y_n2は「第2音響信号」の一例である。
 第1実施形態の制御装置21は、文字列X_nを適用した音声合成処理により音響信号Y_nを生成する。例えば、制御装置21は、文字列X_n1を適用した音声合成処理により音響信号Y_n1を生成し、文字列X_n2を適用した音声合成処理により音響信号Y_n2を生成する。音響信号Y_nの生成には公知の音声合成技術が任意に採用される。例えば、複数の音声素片を接続する素片接続型の音声合成処理が音響信号Y_nの生成に利用される。また、例えば深層ニューラルネットワークまたはHMM(Hidden Markov Model)等の統計モデルを利用する統計モデル型の音声合成処理を、音響信号Y_nの生成に利用してもよい。音声合成処理に適用されるパラメータを調整することで、音響信号Y_n毎に音高を相違させることが可能である。以上の説明から理解される通り、制御装置21は、再生要求R_nに応じた音響信号Y_nを取得する要素(取得部)として機能する。
 制御装置21は、複数の音響信号Y_nを混合することで音響信号Zを生成する(処理Sb3)。時間軸上における各音響信号Y_nの位置は、制御装置21が再生要求R_nを受信した時点に応じて設定される。例えば、再生要求R_n2の受信前に再生要求R_n1が受信された場合、音響信号Y_n1の始点が音響信号Y_n2の始点前となるように、音響信号Y_n1と音響信号Y_n2とが混合される。以上の説明から理解される通り、制御装置21は、複数の音響信号Y_nを混合する要素(混合部)として機能する。
 なお、複数の音響信号Y_nを一斉に混合することも可能であるが、複数の音響信号Y_nを段階的に混合してもよい。例えば、制御装置21は、複数の音響信号Y_nを複数の集合に区分し、集合毎に2以上の音響信号Y_nを混合することで中間信号を生成する(第1段階)。そして、制御装置21は、相異なる集合に対応する複数の中間信号をさらに混合することで音響信号Zを生成する(第2段階)。また、各音響信号Y_nに残響効果等の各種の音響効果を付与したうえで複数の音響信号Y_nを混合してもよい。複数の音響信号Y_nを段階的に混合する構成では、段階毎に音響効果を付与する構成としてもよい。
 制御装置21は、音響信号Zが表す音を再生システム40に再生させる(処理Sb4)。具体的には、制御装置21は、音響信号Zを再生システム40に供給することで、その音響信号Zが表す音を再生させる。すなわち、制御装置21は、混合後の音響信号Zが表す音を再生システム40に再生させる要素(再生部)として機能する。
 以上の説明から理解される通り、複数の利用者U_nから指示された歓声の混合音が施設200内で再生される。第1実施形態においては、各音響信号Y_nが表す音響の音響特性が相違するから、複数の音響信号Y_nの間で音響特性が共通する構成と比較して、音楽イベントの実演者Pが利用者U_nの状況を把握し易いという利点がある。例えば、実演者Pは、利用者U_nの総数(規模)または反応を把握できる。
 第1実施形態においては、各利用者U_nが指示した文字列X_nに対応する音声を表す音響信号Y_nが、その文字列X_nを適用した音声合成処理により生成される。したがって、各利用者U_nが指示した任意の文字列X_nに対応する多様な音響信号Y_nを生成できるという利点がある。
B:第2実施形態
 第2実施形態を説明する。なお、以下に例示する各態様において機能が第1実施形態と同様である要素については、第1実施形態の説明と同様の符号を流用して各々の詳細な説明を適宜に省略する。
 各端末装置10_nの記憶装置12は、利用者U_nの属性を表す属性情報を記憶する。利用者U_nの属性は、例えば利用者U_nの年齢または性別である。第2実施形態の再生要求R_nは、第1実施形態と同様の文字列X_nと、記憶装置12に記憶された属性情報とを含む。具体的には、制御装置21は、受付処理Saにおいて、利用者U_nから文字列X_nを受付けると(処理Sa1:YES)、その文字列X_nと利用者U_nの属性情報とを含む再生要求R_nを通信装置13から制御システム20に送信する(処理Sa2)。
 制御システム20の制御装置21は、再生制御処理Sbの音声合成処理において、各再生要求R_n内の属性情報に応じた声質を表す音響信号Y_nを生成する(処理Sb2)。具体的には、制御装置21は、属性情報が表す年齢が低いほど明瞭度がより高い音声(すなわち若年者の音声)を表す音響信号Y_nを生成する。明瞭度が高い音声とは、例えば調波成分が非調波成分(気息成分)と比較して顕著な音声である。また、制御装置21は、属性情報が表す性別に応じて男声または女声の何れかの音質を表す音響信号Y_nを生成する。以上の説明から理解される通り、第2実施形態の制御装置21は、利用者U_n1の属性に応じた声質を表す音響信号Y_n1を生成し、利用者U_n2の属性に応じた声質を表す音響信号Y_n2を生成する。複数の音響信号Y_nを混合する処理と音響信号Zを再生する処理は第1実施形態と同様である。
 第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態においては、各利用者U_nの属性に応じた多様な声質を表す音響信号Y_nを生成できる。また、音楽イベントを聴取する複数の利用者U_nの概略的な属性を、再生システム40による再生音を受聴する実演者Pが把握できるという利点もある。なお、音響信号Y_nが表す音の声質は、利用者U_nの属性に整合した声質である必要はない。例えば、利用者U_nの属性情報が表す性別が男性である場合に、女声を表す音響信号Y_nを生成してもよい。すなわち、利用者U_nの属性に応じて音響信号Y_nが表す声質(音響特性の一例)が変化する構成であれば任意の構成を採用してよい。
C:第3実施形態
 第3実施形態における制御システム20の制御装置21は、再生制御処理Sbの音声合成処理において、文字列X_nに応じた音量の音声を表す音響信号Y_nを生成する(処理Sb2)。具体的には、制御装置21は、文字列X_nの文字数が多いほど音量がより大きい音響信号Y_nを生成する。以上の説明から理解される通り、第3実施形態の制御装置21は、文字列X_n1に応じた音量の音声を表す音響信号(文字列X_n1の長さに比例した音量の音声を表す音響信号)Y_n1を生成し、文字列X_n2に応じた音量を表す音響信号Y_n2を生成する。
 第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態においては、各利用者U_nが指示した文字列X_nに応じた多様な音量の音声を表す音響信号Y_nを生成できる。なお、利用者U_nの属性に応じて音響信号Y_nが表す声質を制御する第2実施形態の構成と、文字列X_nに応じて音響信号Y_nが表す音声の音量を制御する第3実施形態の構成とを併合してもよい。
 また、以上の説明において文字列X_nの文字数に応じた音量の音声を表す音響信号Y_nを生成する例を説明した。しかしながら、音響信号Y_nの音量に反映される文字列X_nの条件は文字数に限定されない。例えば、文字列X_nが特定の語句である場合に音響信号Y_nの音量を大きい数値に設定する構成を採用してもよい。すなわち、文字列X_nに応じて音響信号Y_nの音量(音響特性の一例)が変化する構成であればよい。
D:第4実施形態
 例えば音楽イベントの終盤では、例えば「アンコール(encore)」等の歓声が所定の周期で反復的に発音される。以上の事情を考慮すると、各端末装置10_nの利用者U_nは、「アンコール」のような文字列X_nを所定の周期で反復的に指示することが想定される。第4実施形態は、以上のように反復的に指示される文字列X_nに対応する音を施設200内で再生する場合に利用される形態である。
 図6は、第4実施形態における再生制御処理Sbの具体的な手順を例示するフローチャートである。再生制御処理Sbにおいて各再生要求R_nに対応する音響信号Y_nを生成すると(処理Sb2)、制御システム20の制御装置21は、設定処理Sc1と調整処理Sc2とを実行する。
 図7は、設定処理Sc1および調整処理Sc2の説明図である。設定処理Sc1は、時間軸上に基準時点Qを設定する処理である。制御装置21は、時間軸上に例えば所定の間隔で複数の基準時点Qを設定する。なお、実演者Pが実演する楽曲の拍点を基準時点Qとしてもよい。
 また、設定処理Sc1において、制御装置21は、基準時点Q毎に特定期間Dを設定する。各基準時点Qに対応する特定期間Dは、その基準時点Qを含む所定長の期間である。具体的には、基準時点Qを始点とする期間が特定期間Dとして例示される。ただし、基準時点Qを中点または終点とする期間を特定期間Dとしてもよい。
 調整処理Sc2は、複数の音響信号Y_nの時間軸上の位置を調整する処理である。調整処理Sc2において、制御装置21は、複数の音響信号Y_nの始点を特定期間D内に調整する。具体的には、制御装置21は、時間軸上の所定の期間(以下「単位期間」という)C内に受信した複数の再生要求R_nにそれぞれ対応する複数の音響信号Y_nの各々の始点を、その単位期間Cの直後の特定期間D内に調整する。単位期間Cは、相前後する2個の特定期間Dの始点間の期間である。例えば、図7に例示の通り、1個の単位期間C内に再生要求R_n1と再生要求R_n2とが受信された場合、制御装置21は、再生要求R_n1に対応する音響信号Y_n1の始点と再生要求R_n2に対応する音響信号Y_n2の始点とを、その単位期間Cの直後の特定期間D内に調整する。
 また、調整処理Sc2において、制御装置21は、複数の音響信号Y_nの始点を特定期間D内に分散させる。すなわち、制御装置21は、複数の音響信号Y_nの始点が特定期間D内の1個の時点に一致しないように各音響信号Y_nの始点を分散させる。例えば、図7の例示の通り、音響信号Y_n1の始点と音響信号Y_n2の始点とが特定期間D内に分散される。
 具体的には、特定期間D内の基準時点Qを最大度数として特定期間Dの終点にかけて度数が減少する度数分布に音響信号Y_nの始点の個数が従うように、複数の音響信号Y_nの各々の始点が特定期間D内において分散される。すなわち、複数の音響信号Y_nの始点は、基準時点Qに集中しつつ特定期間D内に適度に分散される。
 制御装置21は、以上に例示した調整処理Sc2による調整後の複数の音響信号Y_nを混合することで音響信号Zを生成する。制御装置21は、第1実施形態と同様に、音響信号Zが表す音を再生システム40に再生させる(処理Sb4)。以上の説明から理解される通り、相異なる利用者U_nが指示した文字列X_nに対応する音声の再生が、特定期間D内に集中して開始される。複数の特定期間Dの各々について以上の処理が順次に実行されるから、複数の文字列X_nに対応する音が特定の周期で発音される状況が施設200内に再現される。
 第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態においては、複数の音響信号Y_nの各々の始点が時間軸上の特定期間D内に集約されるから、相異なる利用者U_nからの指示に応じた複数の音が一斉に発音される状況を再生システム40により再現できる。
 なお、複数の音響信号Y_nの始点が特定期間D内において一致した場合、利用者U_nの総数を実演者Pが把握し難い可能性がある。第4実施形態においては、複数の音響信号Y_nの始点が特定期間D内において分散されるから、複数の音響信号Y_nの始点が一致する場合と比較して、利用者U_nの総数を実演者Pが把握し易いという利点もある。
E:第5実施形態
 第1実施形態から第4実施形態においては、施設200内に聴衆が存在しない場合を想定した。第5実施形態においては、施設200内に聴衆が存在する場合を想定する。収録システム30の収音装置は、実演者Pによる実演で発音される音(例えば歌唱音または楽器音等)と、施設200内の観衆により発音される音(例えば歓声または拍手音等)とを含む音を収音する。
 図8は、第5実施形態における設定処理Sc1の説明図である。設定処理Sc1において、制御システム20の制御装置21は、施設200内に存在する音の音量Vを特定する。具体的には、制御装置21は、収録システム30の収音装置が収音する音を解析することで音量Vを算定する。
 設定処理Sc1において、制御装置21は、音量Vに応じて特定期間Dを設定する。具体的には、制御装置21は、音量Vが所定の閾値Vthを超過する時点を基準時点Qとして設定し、その基準時点Qを含む特定期間Dを設定する。例えば、施設200内の聴衆が実演者Pによる実演に並行して手拍子する場面を想定すると、手拍子の拍点が基準時点Qとして設定される。聴衆が周期的に手拍子する状況では、時間軸上に複数の基準時点Qが周期的に設定される。設定処理Sc1により設定された基準時点Qおよび特定期間Dを利用した調整処理Sc2の内容は第4実施形態と同様である。
 第5実施形態においても第1実施形態および第4実施形態と同様の効果が実現される。また、第5実施形態においては、施設200内の音量Vに応じて特定期間Dが設定されるから、再生システム40による音の再生を、施設200内の音量Vの変化(例えば施設200内の聴衆の盛上がり)に連動させることが可能である。すなわち、施設200内の観衆による歓声と、施設200外の各利用者U_nによる指示に応じた音とを、施設200内に一体的に発音することが可能である。
F:変形例
 以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された複数の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各実施形態においては、各音響信号Y_nが表す音声の音高、音量および声質を相違させた。しかしながら、音響信号Y_n毎に相違させる音響特性は以上の例示に限定されない。例えば、音響特性は、周波数特性、残響特性(例えば残響時間)、音高の時間変化(ピッチベンド)、音像の定位位置、発音の継続長等であってもよい。任意の音響特性を音響信号Y_n毎に設定してよい。2種類以上の音響特性を音響信号Y_n毎に相違させてもよい。
 なお、第2実施形態においては利用者U_nの属性に応じて音響信号Y_nの声質を制御したが、音響信号Y_nに関する声質以外の音響特性を利用者U_nの属性に応じて制御してもよい。また、第3実施形態においては文字列X_nに応じて音響信号Y_nの音量を制御したが、音響信号Y_nに関する音量以外の音響特性を文字列X_nに応じて制御してもよい。
(2)前述の各実施形態においては、文字列X_nに応じた音響信号Y_nを音声合成処理により生成したが、音響信号Y_nを取得する方法は以上の例示に限定されない。例えば、事前に収録または合成された音響信号Y_nを記憶装置22から読出してもよい。例えば、利用者U_nから指示されることが想定される複数の文字列の各々について、各文字列に対応する音声を表す音響信号が記憶装置22に記憶される。制御装置21は、記憶装置22に記憶された複数の音響信号のうち、利用者U_nによる指示に応じた文字列X_nに対応する音響信号を音響信号Y_nとして記憶装置22から読出す。以上の説明から理解される通り、音響信号Y_nを取得する処理は、音声合成処理により音響信号Y_nを生成する処理のほか、事前に収録または合成された音響信号Y_nを記憶装置22から読出す処理も包含される。
 なお、音声合成処理により音響信号Y_nを生成する処理と、事前に用意された音響信号Y_nを読出す処理とを併用してもよい。例えば、文字列X_nに対応する音響信号Y_nが記憶装置22に記憶されている場合、制御装置21は、その音響信号Y_nを記憶装置22から読出す。他方、文字列X_nに対応する音響信号Y_nが記憶装置22に記憶されていない場合、制御装置21は、その文字列X_nを適用した音声合成処理により音響信号Y_nを生成する。
(3)前述の各実施形態においては、動画データMが表す動画の再生と利用者U_nからの指示の受付とを端末装置10_nが実行したが、実施形態はこのような例に限定されない。利用者U_nからの指示を受付ける端末装置10_nとは別個の再生装置に動画データMの動画を再生させてもよい。動画を再生する再生装置は、例えばスマートフォンまたはタブレット端末等の情報端末でもよく、テレビジョン受像機等の映像機器でもよい。
(4)前述の各実施形態においては、利用者U_nが文字列X_nを指示したが、利用者U_nによる文字列X_nの入力は必須ではない。例えば、相異なる文字列に対応する複数の選択肢の何れかを、利用者U_nが操作装置15により選択する。端末装置10_nは、利用者U_nが選択した選択肢の識別情報を含む再生要求R_nを制御システム20に送信する。制御システム20の制御装置21は、相異なる識別情報について記憶装置22に記憶された複数の音響信号のうち、再生要求R_n内の識別情報に対応する音響信号を音響信号Y_nとして記憶装置22から読出す。以上の構成においても、各音響信号Y_nの音響特性を相違させることで、第1実施形態と同様の効果が実現される。
(5)前述の各実施形態においては、音響信号Y_nが音声(発話音)を表す構成を例示したが、音響信号Y_nが表す音は音声に限定されない。例えば、種々の効果音を表す音響信号Y_nを制御装置21が取得してもよい。音響信号Y_nが表す効果音の具体例は、拍手または指笛により発音される音、または、太鼓等の楽器の演奏により発音される楽音を含んでもよい。
(6)再生要求R_nの通信における通信遅延が大きいほど、利用者U_nがより遠隔に位置するという傾向がある。以上の傾向を考慮すると、特定期間D内における各音響信号Y_nの始点の位置を通信遅延に応じて分散させてもよい。例えば、通信遅延が大きいほど基準時点Qに対する時間差がより大きくなるように、各音響信号Y_nの始点が特定期間D内において調整される。以上の構成によれば、制御システム20からの距離が同等である利用者U_nについて音響信号Y_nの始点が近接する。
(7)各利用者U_nは、基本的には、相前後する楽曲演奏の間隔内において文字列X_nを入力することが想定される。しかし、例えば通信遅延等の事情により、楽曲演奏の間隔内に利用者U_nが指示した文字列X_nを含む再生要求R_nが、直後の楽曲の開始後に制御システム20に到達する場合がある。以上の事情を想定すると、例えば音楽イベントにおける楽曲の演奏中には、再生システム40による音の再生を停止する構成も想定される。
 例えば、制御システム20の制御装置21は、施設200内で楽曲が演奏されているか否かを、収録システム30の収音装置が収音する音を解析することで判定する。なお、音楽イベントの運営者が楽曲が演奏中であるか否かを制御システム20に指示してもよい。楽曲が演奏されていないと判定した場合、制御装置21は、前述の各実施形態と同様に、音響信号Zを再生システム40に供給することで施設200内に音を再生させる。他方、楽曲が演奏されていると判定した場合、制御装置21は、再生システム40に対する音響信号Zの供給を停止する。楽曲の演奏中に、音響信号Y_nの生成(処理Sb2)および混合(処理Sb3)を停止してもよい。楽曲が演奏されている場合に、演奏されていない場合と比較して音響信号Zの音量を低下させてから、音響信号Zを再生システム40に供給してもよい。
(8)前述の各実施形態においては音楽イベントを例示したが、前述の各実施形態が適用される場面は音楽イベントに限定されない。例えば、複数の競技者(チーム)がスポーツで競技する競技イベント、俳優が出演する演劇イベント、ダンサーが実演するダンスイベント、講演者が講演する講演イベント、学校や学習塾等の各種の教育機関が生徒に授業を提供する教育イベント等、特定の目的で実施される各種のイベントに、前述の各実施形態を適用してもよい。
(9)以上に例示した制御システム20の機能は、前述の通り、制御装置21を構成する単数または複数のプロセッサと、記憶装置22に記憶されたプログラムとの協働により実現される。プログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記録媒体が、前述の非一過性の記録媒体に相当する。
G:付記
 以上に例示した実施形態から、例えば以下の構成が把握される。
 本開示のひとつの態様(態様1)に係る再生制御方法は、第1利用者による指示に応じた第1再生要求を第1端末装置から受信し、第2利用者による指示に応じた第2再生要求を第2端末装置から受信し、前記第1再生要求に応じた音を表す第1音響信号と、前記第1音響信号が表す音とは音響特性が異なる音であって前記第2再生要求に応じた音を表す第2音響信号とを取得し、前記第1音響信号と前記第2音響信号とを混合することにより第3の音響信号を生成し、前記第3の音響信号が表す音を再生システムに再生させることを含む。以上の構成においては、第1利用者からの指示に応じた音と第2利用者からの指示に応じた音との混合音が再生システムから再生される。第1音響信号が表す音と第2音響信号が表す音とは音響特性が互いに相違するから、再生システムによる再生音の受聴者(例えば各種のイベントの実演者)が、利用者の状況(例えば総数または反応)を把握し易いという利点がある。
 態様1の具体例(態様2)において、前記音響特性は、音高、音量、音質、周波数特性、残響特性、音高の時間変化、音像の定位位置、および音の継続長のうちの1以上を含む。
 態様1または態様2の具体例(態様3)において、前記第1再生要求は、前記第1利用者が指示した第1文字列を含み、前記第2再生要求は、前記第2利用者が指示した第2文字列を含み、前記取得においては、前記第1文字列に対応する音声を表す前記第1音響信号を、前記第1文字列を適用した音声合成処理により生成し、前記第2文字列に対応する音声を表す前記第2音響信号を、前記第2文字列を適用した音声合成処理により生成する。以上の態様によれば、利用者が指示した任意の文字列に対応する多様な音響信号を生成できる。
 態様3の具体例(態様4)において、前記音声合成処理においては、前記第1利用者の属性に応じた音響特性を表す前記第1音響信号を生成し、前記第2利用者の属性に応じた音響特性を表す前記第2音響信号を生成する。以上の態様によれば、利用者の属性に応じた多様な音響特性の音響信号を生成できる。
 態様3または態様4の具体例(態様5)において、前記音声合成処理においては、前記第1文字列に応じた音響特性を表す前記第1音響信号を生成し、前記第2文字列に応じた音響特性を表す前記第2音響信号を生成する。以上の態様によれば、利用者が指示した文字列に応じた多様な音響特性の音響信号を生成できる。
 態様1から態様5の何れかの具体例(態様6)において、前記混合においては、前記第1音響信号の始点と前記第2音響信号の始点とを時間軸上の特定期間内に調整し、前記始点が調整された第1音響信号と前記始点が調整された第2音響信号とを混合する。以上の態様によれば、第1音響信号および第2音響信号の各々の始点が時間軸上の特定期間内に集約される。したがって、複数の音が一斉に発音される状況を再生システムにより再現できる。
 態様6の具体例(態様7)において、前記調整においては、前記第1音響信号の始点と前記第2音響信号の始点とを前記特定期間内に分散させる。以上の態様によれば、第1音響信号の始点と第2音響信号の始点とが特定期間内に分散されるから、第1音響信号の始点と第2音響信号の始点とが時間軸上で一致する場合と比較して、利用者の総数(規模)を受聴者が把握し易い音を再生できる。
 態様6または態様7の具体例(態様8)において、前記特定期間は、前記再生システムが設置される音響空間内において収音される音の音量に応じて設定される。以上の態様によれば、音響空間内の音量に応じて特定期間が設定されるから、再生システムによる混合音の再生を、音響空間内の音量の変化(例えば音響空間内の聴衆の盛上がり)に連動せることが可能である。
 なお、本開示は、前述の各態様(態様1から態様8)に係る再生制御方法を実現する制御システム、または、再生制御方法をコンピュータシステムに実行させるプログラム、としても実現される。
100:通信システム
200:施設、300…通信網
10_n(10_1~10_N):端末装置
11:制御装置
12:記憶装置
13:通信装置
14:再生装置
15:操作装置
20:制御システム
20a:配信制御部
20b:再生制御部
21:制御装置
22:記憶装置
23:通信装置
30:収録システム
40:再生システム
U_n(U_1~U_N)…利用者
P…実演者
R_n(R_1~R_N)…再生要求
Q…基準時点
D…特定期間

Claims (10)

  1.  第1利用者による指示に応じた第1再生要求を第1端末装置から受信し、
     第2利用者による指示に応じた第2再生要求を第2端末装置から受信し、
     前記第1再生要求に応じた音を表す第1音響信号と、前記第1音響信号が表す音とは音響特性が異なる音であって前記第2再生要求に応じた音を表す第2音響信号とを取得し、
     前記第1音響信号と前記第2音響信号とを混合することにより第3の音響信号を生成し、
     前記第3の音響信号が表す音を再生システムに再生させる
     ことを含み、コンピュータシステムにより実現される再生制御方法。
  2.  前記音響特性は、音高、音量、音質、周波数特性、残響特性、音高の時間変化、音像の定位位置、および音の継続長のうちの1以上を含む
     請求項1の再生制御方法。
  3.  前記第1再生要求は、前記第1利用者が指示した第1文字列を含み、
     前記第2再生要求は、前記第2利用者が指示した第2文字列を含み、
     前記取得においては、
     前記第1文字列に対応する音声を表す前記第1音響信号を、前記第1文字列を適用した音声合成処理により生成し、
     前記第2文字列に対応する音声を表す前記第2音響信号を、前記第2文字列を適用した音声合成処理により生成する
     請求項1または請求項2の再生制御方法。
  4.  前記音声合成処理においては、
     前記第1利用者の属性に応じた音響特性を表す前記第1音響信号を生成し、
     前記第2利用者の属性に応じた音響特性を表す前記第2音響信号を生成する
     請求項3の再生制御方法。
  5.  前記音声合成処理においては、
     前記第1文字列に応じた音響特性を表す前記第1音響信号を生成し、
     前記第2文字列に応じた音響特性を表す前記第2音響信号を生成する
     請求項3または請求項4の再生制御方法。
  6.  前記混合においては、
     前記第1音響信号の始点と前記第2音響信号の始点とを時間軸上の特定期間内に調整し、
     前記始点が調整された第1音響信号と前記始点が調整された第2音響信号とを混合する
     請求項1から請求項5の何れか一項に記載の再生制御方法。
  7.  前記調整においては、
     前記第1音響信号の始点と前記第2音響信号の始点とを前記特定期間内に分散させる
     請求項6の再生制御方法。
  8.  前記特定期間は、前記再生システムが設置される音響空間内において収音される音の音量に応じて設定される
     請求項6または請求項7の再生制御方法。
  9.  第1利用者による指示に応じた第1再生要求を第1端末装置から受信し、第2利用者による指示に応じた第2再生要求を第2端末装置から受信する受信部と、
     前記第1再生要求に応じた音を表す第1音響信号と、前記第1音響信号が表す音とは音響特性が異なる音であって前記第2再生要求に応じた音を表す第2音響信号とを取得する取得部と、
     前記第1音響信号と前記第2音響信号とを混合することにより第3の音響信号を生成する混合部と、
     前記第3の音響信号が表す音を再生システムに再生させる再生部と
     を具備する制御システム。
  10.  第1利用者による指示に応じた第1再生要求を第1端末装置から受信し、第2利用者による指示に応じた第2再生要求を第2端末装置から受信する受信部、
     前記第1再生要求に応じた音を表す第1音響信号と、前記第1音響信号が表す音とは音響特性が異なる音であって前記第2再生要求に応じた音を表す第2音響信号とを取得する取得部、
     前記第1音響信号と前記第2音響信号とを混合することにより第3の音響信号を生成する混合部、および、
     前記第3の音響信号が表す音を再生システムに再生させる再生部
     としてコンピュータを機能させるプログラム。
PCT/JP2021/011032 2020-04-17 2021-03-18 再生制御方法、制御システムおよびプログラム WO2021210338A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202180026214.4A CN115398534A (zh) 2020-04-17 2021-03-18 播放控制方法、控制系统及程序
US17/966,771 US20230042477A1 (en) 2020-04-17 2022-10-14 Reproduction control method, control system, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020074260A JP7468111B2 (ja) 2020-04-17 2020-04-17 再生制御方法、制御システムおよびプログラム
JP2020-074260 2020-04-17

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/966,771 Continuation US20230042477A1 (en) 2020-04-17 2022-10-14 Reproduction control method, control system, and program

Publications (1)

Publication Number Publication Date
WO2021210338A1 true WO2021210338A1 (ja) 2021-10-21

Family

ID=78084121

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/011032 WO2021210338A1 (ja) 2020-04-17 2021-03-18 再生制御方法、制御システムおよびプログラム

Country Status (4)

Country Link
US (1) US20230042477A1 (ja)
JP (1) JP7468111B2 (ja)
CN (1) CN115398534A (ja)
WO (1) WO2021210338A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1020885A (ja) * 1996-07-01 1998-01-23 Fujitsu Ltd 音声合成装置
JP2002268666A (ja) * 2001-03-14 2002-09-20 Ricoh Co Ltd 音声合成装置
JP2008096483A (ja) * 2006-10-06 2008-04-24 Matsushita Electric Ind Co Ltd 音響出力制御装置、音響出力制御方法
JP2010128099A (ja) * 2008-11-26 2010-06-10 Toyota Infotechnology Center Co Ltd 車載用音声情報提供システム
JP2010134203A (ja) * 2008-12-04 2010-06-17 Sony Computer Entertainment Inc 情報処理装置および情報処理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1020885A (ja) * 1996-07-01 1998-01-23 Fujitsu Ltd 音声合成装置
JP2002268666A (ja) * 2001-03-14 2002-09-20 Ricoh Co Ltd 音声合成装置
JP2008096483A (ja) * 2006-10-06 2008-04-24 Matsushita Electric Ind Co Ltd 音響出力制御装置、音響出力制御方法
JP2010128099A (ja) * 2008-11-26 2010-06-10 Toyota Infotechnology Center Co Ltd 車載用音声情報提供システム
JP2010134203A (ja) * 2008-12-04 2010-06-17 Sony Computer Entertainment Inc 情報処理装置および情報処理方法

Also Published As

Publication number Publication date
CN115398534A (zh) 2022-11-25
JP7468111B2 (ja) 2024-04-16
JP2021173766A (ja) 2021-11-01
US20230042477A1 (en) 2023-02-09

Similar Documents

Publication Publication Date Title
Corey Audio production and critical listening: Technical ear training
JP4779264B2 (ja) 移動通信端末、楽音生成システム、楽音生成装置および楽音情報提供方法
US7725203B2 (en) Enhancing perceptions of the sensory content of audio and audio-visual media
Rose Producing great sound for film and video: Expert tips from preproduction to final mix
CN114120942A (zh) 无时延地近乎现场演奏和录制现场互联网音乐的方法和系统
d'Escrivan Music technology
Collins Studying Sound: A Theory and Practice of Sound Design
Beggs et al. Designing web audio
JP2004233698A (ja) 音楽支援装置、音楽支援サーバ、音楽支援方法およびプログラム
Rossetti et al. Live Electronics, Audiovisual Compositions, and Telematic Performance: Collaborations During the Pandemic
JP5459331B2 (ja) 投稿再生装置及びプログラム
WO2021210338A1 (ja) 再生制御方法、制御システムおよびプログラム
WO2021246104A1 (ja) 制御方法および制御システム
WO2022163137A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6196839B2 (ja) 通信デュエット時における音声等の切換処理に特徴を有する通信カラオケシステム
Sarkar et al. Recognition and prediction in a network music performance system for Indian percussion
JP2016102982A (ja) カラオケシステム、プログラム、カラオケ音声再生方法及び音声入力処理装置
WO2022018828A1 (ja) 応援支援方法、応援支援装置、およびプログラム
Oliveros Tripping on wires: The wireless body: Who is improvising?
JP7331645B2 (ja) 情報提供方法および通信システム
Shelvock Audio Mastering as a Musical Competency
Greeff The influence of perception latency on the quality of musical performance during a simulated delay scenario
JP2010176042A (ja) 歌唱音声録音カラオケシステム
JP2021128252A (ja) 音源分離プログラム、音源分離装置、音源分離方法及び生成プログラム
WO2024053094A1 (ja) メディア情報強調再生装置、メディア情報強調再生方法、およびメディア情報強調再生プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21789077

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21789077

Country of ref document: EP

Kind code of ref document: A1