WO2023195353A1 - 音処理装置及びカラオケシステム - Google Patents

音処理装置及びカラオケシステム Download PDF

Info

Publication number
WO2023195353A1
WO2023195353A1 PCT/JP2023/011642 JP2023011642W WO2023195353A1 WO 2023195353 A1 WO2023195353 A1 WO 2023195353A1 JP 2023011642 W JP2023011642 W JP 2023011642W WO 2023195353 A1 WO2023195353 A1 WO 2023195353A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound data
sound
data
content
microphone
Prior art date
Application number
PCT/JP2023/011642
Other languages
English (en)
French (fr)
Inventor
茂 神▲崎▼
Original Assignee
株式会社共同テレビジョン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社共同テレビジョン filed Critical 株式会社共同テレビジョン
Publication of WO2023195353A1 publication Critical patent/WO2023195353A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/04Sound-producing devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present invention relates to a sound processing device and a karaoke system.
  • karaoke systems have been known that output from speakers a sound that is a combination of voice input from a microphone and music sounds (see, for example, Patent Document 1).
  • an object of the present invention is to suppress the deviation between the music sound and the voice output from the speaker.
  • a sound processing device includes a signal conversion circuit that converts sound input from an external microphone into microphone sound data, and a processor that reads content sound data from a storage medium and outputs it by executing a program.
  • a sound synthesis circuit that generates synthesized sound data by synthesizing the microphone sound data that has not passed through the processor and the content sound data output by the processor; and outputting the synthesized sound data to the outside. and a speaker.
  • the processor When the processor receives an operation for reproducing the synthetic sound data after storing the synthetic sound data in a storage medium as recorded data, the processor converts the recorded data read from the storage medium into the content sound data.
  • the signal may be input to the sound synthesis circuit as a signal.
  • the sound processing device further includes a communication circuit that transmits the content sound data to an external device and receives external sound data from the external device via a network
  • the processor further includes a communication circuit that transmits the content sound data to an external device and receives external sound data from the external device.
  • Generating recorded data by synthesizing the external sound data with the content sound data delayed by a predetermined delay time with respect to the content sound data transmitted to the device, and storing the generated recorded data in a storage medium. , when an operation for playing the recorded data is received after the recorded data is stored in the storage medium, the recorded data read from the storage medium is input to the sound synthesis circuit as the content sound data; You may.
  • the sound processing device further includes a communication circuit that transmits the content sound data to an external device and receives external sound data synchronized with the content sound data from the external device via a network, and the processor inputs delayed content sound data delayed by a predetermined delay time with respect to the content sound data transmitted by the communication circuit to the external device to the sound synthesis circuit; , the synthesized sound data may be generated by synthesizing the external sound data and the delayed content sound data.
  • the processor When the processor does not detect that the content sound data is included in the external sound data, the processor synthesizes the delayed content sound data with the external sound data, and synthesizes the delayed content sound data with the external sound data. If it is detected that the external sound data includes the delayed content sound data, the delayed content sound data may not be synthesized with the external sound data.
  • the sound processing device further includes a communication circuit that transmits and receives data to and from an external device via a network, and the processor stores the microphone sound data in a storage medium and then stores the microphone sound data in a storage medium.
  • the microphone sound data and the content sound data are transmitted to the external device via the communication circuit, and synchronized with the microphone sound data and the content sound data.
  • External sound data and delayed content sound data delayed by a predetermined delay time with respect to the content sound data transmitted by the communication circuit to the external device are input to the sound synthesis circuit, and the sound synthesis circuit
  • the synthesized sound data may be generated by synthesizing sound data, the external sound data, and the delayed content sound data.
  • the sound processing device further includes a communication circuit that transmits the content sound data to an external device and receives external sound data from the external device via a network, and the processor is configured to transmit the content sound data from the plurality of external microphones. a first mode in which a plurality of the microphone sound data based on the input sound and the content sound data are synthesized; and a first mode in which the microphone sound data based on the sound input from the external microphone and the external sound data are synthesized; An operation for selecting one of the second modes may be accepted.
  • the sound synthesis circuit generates the synthesized sound data by synthesizing the microphone sound data obtained by performing echo processing on the sound input from the external microphone and the content sound data not subjected to echo processing. You may.
  • a karaoke system includes a sound processing device and an image display device, and the sound processing device includes a signal conversion circuit that converts sound input from an external microphone into microphone sound data, and a program.
  • Synthesized sound data is generated by synthesizing a processor that reads and outputs content sound data from a storage medium by executing the processor, the microphone sound data that has not passed through the processor, and the content sound data output by the processor.
  • a sound synthesis circuit that generates the synthesized sound data, a speaker that outputs the synthesized sound data to the outside, and an image data output section that outputs image data synchronized with the content sound data to the image display device, The device displays the image data while the speaker outputs the synthesized sound data.
  • FIG. 3 is a diagram showing the relationship between content sound included in synthesized sound and microphone sound.
  • 1 is a diagram showing the configuration of a sound processing device 1.
  • FIG. It is a figure showing the composition of karaoke system S2 of a 2nd embodiment.
  • FIG. 3 is a diagram for explaining a first method.
  • FIG. 6 is a diagram schematically showing the timing of sound data when performing a duet using the first method.
  • FIG. 7 is a diagram for explaining a second method.
  • FIG. 7 is a diagram schematically showing the timing of sound data when performing a duet using the second method.
  • FIG. 7 is a diagram for explaining a third method.
  • FIG. 7 is a diagram schematically showing the timing of sound data when performing a duet in a third method.
  • FIG. 1 is a diagram showing the configuration of a karaoke system S1 according to the first embodiment.
  • the karaoke system S1 is a system for enjoying karaoke at home, at a store, or the like.
  • the karaoke system S1 includes a sound processing device 1, a television 2, and a server 3.
  • the sound processing device 1, the television 2, and the server 3 are connected to a network N.
  • Network N is, for example, the Internet.
  • the sound processing device 1 is a rod-shaped device that is installed in front of the television 2 while being connected to the television 2, for example on a stand on which the television 2 is installed.
  • the sound processing device 1 has built-in speakers near both ends thereof.
  • the sound processing device 1 converts the voices input by the users U (users U1 and U2 in FIG. 1) of the karaoke system S1 from the microphones M (microphones M1 and M2 in FIG. 1), which are an example of external microphones, into the sounds of songs (hereinafter referred to as , sometimes referred to as "content sound"), and outputs the synthesized sound generated from the speaker.
  • FIG. 1 illustrates a case where the microphone M is a wireless microphone, the microphone M and the sound processing device 1 may be connected by a cable.
  • the sound processing device 1 obtains karaoke content from the server 3, including content sound data corresponding to content sound and video data corresponding to video synchronized with the content sound data.
  • the sound processing device 1 transmits video data synchronized with content sound data to the television 2 while outputting the synthesized sound from the speaker. Thereby, the user U can sing while watching the video on the television 2 and listening to the content sound.
  • the television 2 is an image processing device that can receive television broadcasts and display the received broadcast content.
  • the television 2 can be connected to the sound processing device 1 via, for example, an HDMI (registered trademark) cable, and can also display video based on video data input from the sound processing device 1.
  • the television 2 displays video data corresponding to the karaoke content while the speaker of the sound processing device 1 outputs the synthesized sound.
  • the television 2 has built-in application software for karaoke, and may start the sound processing device 1 when an operation for starting karaoke is performed using a remote control.
  • the television 2 can acquire various contents via the network N. For example, while video data for karaoke is not being sent from the sound processing device 1, advertising content, content related to beauty and health, etc. are acquired from the server 3, and the acquired content is displayed.
  • the television 2 also functions as an input device for performing various setting operations on the sound processing device 1.
  • the television 2 receives, for example, an operation to set the volume and echo level of the microphone M, or an operation to select an operation mode of the sound processing device 1, and notifies the sound processing device 1 of the content of the operation. do.
  • the television 2 displays a screen for the user U to select a song to sing.
  • the television 2 notifies the sound processing device 1 of information for identifying the music selected by the user U.
  • the sound processing device 1 can acquire karaoke content corresponding to the selected song from the server 3.
  • the server 3 provides karaoke content to the sound processing device 1.
  • the server 3 stores karaoke content in association with a content ID for identifying the karaoke content, and transmits the karaoke content corresponding to the content ID received from the sound processing device 1 to the sound processing device 1.
  • the server 3 receives the recorded data created by recording the voice of the user U while singing from the sound processing device 1, and provides a user ID for identifying the user U and a user ID for identifying the song.
  • the recorded data may be stored in association with the recorded data ID.
  • the server 3 transmits the recorded data corresponding to the user ID and recorded data ID to the sound processing device 1.
  • FIG. 2 is a diagram showing the relationship between the content sound included in the synthesized sound output from the speaker by the sound processing device 1 and the microphone sound.
  • the content sound is a sound based on the sound data of a song included in the content data that the sound processing device 1 acquires from the server 3.
  • the microphone sound data is user U's voice input into microphone M.
  • a plurality of rectangles in FIG. 2 indicate periods in which sound exists, and the length of one rectangle in the horizontal direction corresponds to 200 ms.
  • FIG. 2(a) shows the relationship between the content sound and the microphone sound in the synthesized sound when the content sound and the microphone sound are synthesized and generated by the CPU.
  • the microphone sound is delayed by 150 ms with respect to the content sound. If the delay amount of the microphone sound with respect to the content sound is large in this way, the user U will feel a sense of discomfort because the music and the user's own voice may be heard out of sync.
  • FIG. 2(b) shows the relationship between the content sound and the microphone sound in the synthesized sound when the content sound and the microphone sound are synthesized and generated without using a CPU. Since the sound processing device 1 of the present embodiment synthesizes the content sound and the microphone sound in this way without using the CPU, the delay time of the microphone sound with respect to the content sound is 30 ms or less, and for the user U, the music and the It is difficult to hear the voice spoken by the person.
  • FIG. 3 is a diagram showing the configuration of the sound processing device 1.
  • the sound processing device 1 includes a communication circuit 11, an HDMI circuit 12, a processor 13, a storage section 14, a wireless circuit 15, an AD converter 16, a sound synthesis circuit 17, an amplifier 18, a speaker 19, has.
  • the communication circuit 11 has a communication interface for transmitting and receiving data to and from the server 3 via the network N.
  • the communication circuit 11 includes, for example, a LAN (Local Area Network) controller.
  • the HDMI circuit 12 has an HDMI interface for transmitting video data to the television 2, and functions as an image data output section that outputs image data synchronized with content sound data to the television 2.
  • the processor 13 is a CPU that performs various processes by executing programs stored in the storage unit 14.
  • the processor 13 acquires karaoke content from the server 3 via the communication circuit 11 and stores it in the storage unit 14, and transmits video data based on the karaoke content to the television 2 via the HDMI circuit.
  • the processor 13 receives an operation for performing a karaoke operation from the user U, the processor 13 reads content sound data from the storage unit 14 by executing a program and outputs it to the sound synthesis circuit 17. Furthermore, the processor 13 executes a process of scoring the singing ability of the user U by analyzing the microphone sound data input from the sound synthesis circuit 17.
  • the storage unit 14 includes a ROM (Read Only Memory) and a RAM (Random Access Memory).
  • the storage unit 14 stores programs executed by the processor 13. Furthermore, the storage unit 14 temporarily stores the karaoke content that the processor 13 acquires from the server 3.
  • the wireless circuit 15 includes an antenna, a demodulation circuit, and the like for receiving a first sound signal and a second sound signal corresponding to the sounds input to the microphones M1 and M2 from the microphones M1 and M2.
  • the radio circuit 15 demodulates the received first sound signal and second sound signal and inputs the signals to the AD converter 16 .
  • the AD converter 16 is a signal conversion circuit that converts sound input from at least one of the microphone M1 and the microphone M2 into microphone sound data. Specifically, the AD converter 16 converts the analog signal of the microphone sound input from the wireless circuit 15 into digital data. The AD converter 16 inputs the converted microphone sound data to the sound synthesis circuit 17. The AD converter 16 transmits, for example, microphone sound data to the sound synthesis circuit 17 in a format based on the I 2 S (Inter-IC Sound) standard.
  • the sound synthesis circuit 17 generates synthetic sound data by synthesizing the microphone sound data that has not passed through the processor and the content sound data output by the processor.
  • the sound synthesis circuit 17 generates synthetic sound data by synthesizing microphone sound data based on the user U1's voice input through the microphone M1 and microphone sound data based on the user U2's voice input through the microphone M2. It's okay. Thereby, user U1 and user U2 can enjoy a duet.
  • the sound synthesis circuit 17 inputs the generated synthetic sound data to the amplifier 18.
  • the sound synthesis circuit 17 transmits synthesized sound data to the amplifier 18 based on, for example, the I 2 S standard.
  • the sound synthesis circuit 17 is constituted by, for example, a DSP (Digital Signal Processor), and generates synthetic sound data by executing digital signal processing at every predetermined sampling time. Since the sound synthesis circuit 17 is configured with a DSP, it is possible to process product-sum calculations at high speed, so the delay time from when the user U inputs voice to the microphone M until the synthesized sound data is generated is reduced. can be suppressed to 30 ms or less. Note that the sound synthesis circuit 17 may transmit the microphone sound data before being synthesized to the processor 13 based on the I 2 S standard.
  • DSP Digital Signal Processor
  • the sound synthesis circuit 17 may generate synthesized sound data by synthesizing microphone sound data obtained by performing echo processing on the sound input from the microphone M and content sound data not subjected to echo processing. . By performing the echo processing by the sound synthesis circuit 17, it becomes possible to apply an echo to the voice sung by the user U while suppressing the delay time.
  • the amplifier 18 amplifies the synthesized sound data input from the sound synthesis circuit 17 and inputs the amplified analog synthesized sound to the speaker 19.
  • the speaker 19 outputs the input analog synthesized sound.
  • the processor 13 stores synthesized sound data obtained by synthesizing microphone sound data and content sound data corresponding to user U's voice in a storage medium as recording data, and then receives an operation for reproducing the synthesized sound data.
  • the recorded data read from the storage medium may be input to the sound synthesis circuit 17 as content sound data.
  • the storage medium is, for example, a hard disk included in the server 3, but the processor 13 may cause the storage unit 14 to store the synthesized sound data.
  • FIG. 4 is a diagram showing the configuration of the karaoke system S2 of the second embodiment.
  • the karaoke system S2 shown in FIG. 4 differs from FIG. 1 in that a sound processing device 1a and a television 2a are installed at a first base, and a sound processing device 1b and a television 2b are installed at a second base. This is different from the karaoke system S1 shown.
  • Each of the sound processing device 1a and the sound processing device 1b has the functions of the sound processing device 1 described in the first embodiment.
  • the television 2a and the television 2b have the functions of the television 2 described in the first embodiment.
  • the karaoke system S2 differs from the karaoke system S1 in that the user U1 who uses the sound processing device 1a and the user U2 who uses the external device (the sound processing device 1b in the example of FIG. 4) can perform a duet.
  • the sound processing device 1a and the sound processing device 1b can realize a duet between the user U1 and the user U2 using various methods. Each method will be explained in detail below.
  • the first method is to pre-record the voice of the user U2 singing along with the content sound data, and then listen to the content sound data and the recorded voice of the user U2 while listening to the voice of the user U2 into the microphone M1.
  • the method is to input.
  • FIG. 5 is a diagram for explaining the first method.
  • FIG. 5 shows the processor 13 of the sound processing device 1a, the sound synthesis circuit 17, the AD converter 16, and the sound processing device 1b.
  • FIG. 6 is a diagram schematically showing the timing of sound data when performing a duet using the first method.
  • the processor 13 of the sound processing device 1a stores the synthesized sound data received from the sound processing device 1b in the storage medium as recorded data, and then receives an operation from the user U1 to play the synthesized sound data. If received, the recorded data read from the storage medium is input to the sound synthesis circuit 17 as content sound data.
  • the storage medium is, for example, a hard disk included in the server 3, but the processor 13 may cause the storage unit 14 to store the synthesized sound data.
  • the communication circuit 11 transmits the content sound data to the sound processing device 1b via the network N, and from the sound processing device 1b, the external Receive sound data (ie, second microphone sound data).
  • the external Receive sound data ie, second microphone sound data
  • the directivity of the microphone M2 is sufficiently strong and the content sound is not included in the microphone sound.
  • the sound synthesis circuit 17 performs processing to remove the content sound from the microphone sound, so that the content sound data is included in the second microphone sound data transmitted to the sound processing device 1a. It may not be included.
  • the processor 13 generates recording data by synthesizing the second microphone sound data and the content sound data delayed by a predetermined delay time with respect to the content sound data transmitted by the communication circuit 11 to the sound processing device 1b. , the generated recording data is stored in a storage medium.
  • the processor 13 receives an operation to play the recorded data after storing the recorded data in the storage medium, the processor 13 inputs the recorded data read from the storage medium to the sound synthesis circuit 17 as content sound data. .
  • the processor 13 of the sound processing device 1a transmits content sound data to the sound processing device 1b, and the sound processing device 1b transmits content sound data based on the content sound data received from the sound processing device 1a.
  • Content sound is output from the speaker 19.
  • the sound processing device 1b transmits second microphone sound data based on the user U2's voice input to the microphone M2 to the sound processing device 1a.
  • the processor 13 of the sound processing device 1a sends to the server 3 recording data obtained by synthesizing the second microphone sound data received from the sound processing device 1b and content sound data (delayed content sound data) synchronized with the second microphone sound data. Record by memorizing it. At this time, the processor 13 causes the server 3 to store the recorded data associated with the user ID of the user U2 and the content ID (for example, song name).
  • the processor 13 performs a recording corresponding to the user ID and content ID selected by the user U1.
  • Read data The processor 13 inputs the read recording data to the sound synthesis circuit 17 as output content sound data, and inputs the read recording data to the sound synthesis circuit 17 as second microphone recording data.
  • the sound synthesis circuit 17 generates synthetic sound data by synthesizing the recorded data and the first microphone sound data input from the microphone M1 via the AD converter 16. As shown in FIG. 6, the first microphone sound data has a delay time of 30 ms or less with respect to the recorded data. By outputting a synthesized voice based on the generated synthesized voice data from the speaker 19, the user U1 can sing as if performing a duet with the user U2.
  • the processor 13 may store the second microphone sound data as recorded data in the storage medium without synthesizing the content sound data synchronized with the voice of the user U2 included in the second microphone sound data. With such a configuration, the processing load on the processor 13 can be reduced.
  • the processor 13 performs different processing depending on whether it is not detected that the second microphone sound data includes content sound data or when it is detected that the second microphone sound data includes content sound data. It's okay.
  • the processor 13 does not detect that the second microphone sound data includes content sound data
  • the processor 13 synchronizes the second microphone sound data with the user U2's voice included in the second microphone sound data.
  • the delayed content sound data is synthesized into recorded data.
  • the processor 13 detects that content sound data is included in the second microphone sound data
  • the processor 13 outputs the second microphone sound data as recording data without synthesizing the delayed content sound data with the second microphone sound data. Good too.
  • the content sound data recorded by the microphone M2 and the delayed content sound data read from the storage medium are not synthesized, so that the same content sound data is synthesized with a slight deviation. This can prevent the discomfort that may occur.
  • FIG. 7 is a diagram for explaining the second method. Similar to FIG. 5, FIG. 7 shows the processor 13 of the sound processing device 1a, the sound synthesis circuit 17, the AD converter 16, and the sound processing device 1b.
  • FIG. 8 is a diagram schematically showing the timing of sound data when performing a duet using the second method.
  • the second method differs from the first method in that the user U1 can perform a duet with the user U2 in real time without using recorded voice data of the user U2.
  • the processor 13 of the sound processing device 1a transmits the content sound data to the sound processing device 1b, which is an external device, via the network N, and receives the second microphone sound data from the sound processing device 1b. receive.
  • the sound processing device 1b causes the speaker 19 to output content sound based on the content sound data received from the sound processing device 1a.
  • the sound processing device 1b transmits second microphone sound data based on the user U2's voice input to the microphone M2 to the sound processing device 1a.
  • the processor 13 of the sound processing device 1a inputs content sound data delayed by a predetermined delay time (that is, delayed content sound data) to the sound synthesis circuit 17 with respect to the content sound data transmitted by the communication circuit 11 to the sound processing device 1b. do.
  • the predetermined delay time is the transmission time until the content sound data transmitted from the sound processing device 1a reaches the sound processing device 1b, and the transmission time until the second microphone sound data transmitted from the sound processing device 1b reaches the sound processing device 1a.
  • the content sound data that is delayed by a time corresponding to the round-trip transmission time between the sound processing device 1a and the sound processing device 1b with respect to the content sound data transmitted by the communication circuit 11 to the sound processing device 1b is transmitted to the second microphone.
  • the sound data will be synchronized with the sound data.
  • the sound synthesis circuit 17 generates first microphone sound data corresponding to the user U1's voice input to the microphone M1, second microphone sound data corresponding to the user U2's voice input to the microphone M2, and delayed content sound data. Synthesized sound data is generated by synthesizing these. As the sound processing device 1a operates in this manner, as shown in FIG. 8, the time when the second microphone sound data reaches the sound processing device 1a is delayed relative to the content sound data transmitted by the sound processing device 1a. Even if the second microphone sound data and the delayed content sound data are synchronized.
  • the delay time of the first microphone sound data with respect to the second microphone sound data is 30 ms or less, and the user U1 can listen to the content sound. It is possible to sing along with the synchronized voice of user U2.
  • the processor 13 determines whether the content sound data is included in the second microphone sound data or if it is not detected that the second microphone sound data includes content sound data. The processing may be different depending on whether this is detected.
  • the processor 13 does not detect that the second microphone sound data includes content sound data
  • the processor 13 synchronizes the second microphone sound data with the user U2's voice included in the second microphone sound data.
  • the delayed content sound data is synthesized into recorded data.
  • the processor 13 detects that content sound data is included in the second microphone sound data
  • the processor 13 outputs the second microphone sound data as recording data without synthesizing the delayed content sound data with the second microphone sound data. Good too.
  • the content sound data recorded by the microphone M2 and the delayed content sound data read from the storage medium are not synthesized, so that the same content sound data is synthesized with a slight deviation. This can prevent the discomfort that may occur.
  • FIG. 9 is a diagram for explaining the third method. Similar to FIG. 5, FIG. 9 shows the processor 13 of the sound processing device 1a, the sound synthesis circuit 17, the AD converter 16, and the sound processing device 1b.
  • FIG. 10 is a diagram schematically showing the timing of sound data when performing a duet using the third method.
  • the third method differs from the first and second methods in that both user U1 and user U2 can perform a duet in real time.
  • the processor 13 of the sound processing device 1a first acquires the recording microphone sound data inputted into the microphone M1 by the user U1 by the method described in the first embodiment, and acquires the recording microphone sound data. is recorded by storing it in the storage unit 14 as the first microphone recording data.
  • the directivity of the microphone M1 is sufficiently high and the first microphone recording data does not include content sound data.
  • the processor 13 receives an operation for transmitting the first microphone recording data to the sound processing device 1b, which is an external device, after storing the first microphone recording data in the storage unit 14, the processor 13 transmits the first microphone recording data to the communication circuit. 11, the first microphone recording data and content sound data are transmitted to the sound processing device 1b.
  • the operation for transmitting the first microphone recording data to the sound processing device 1b is, for example, an operation for performing a duet with the user U2 who uses the sound processing device 1b.
  • the sound processing device 1b generates second microphone sound data corresponding to the sound of the user U2 singing while listening to the sound based on the first microphone recording data and the content sound data.
  • the processor 13 of the sound processing device 1b transmits the generated second microphone sound data to the sound processing device 1a.
  • the processor 13 of the sound processing device 1a When the processor 13 of the sound processing device 1a receives the second microphone sound data from the sound processing device 1b, the processor 13 of the sound processing device 1a delays the second microphone sound data and the content sound data transmitted by the communication circuit 11 to the sound processing device 1b by a predetermined delay.
  • the delayed content sound data delayed by the time is input to the sound synthesis circuit 17.
  • the predetermined delay time is a time corresponding to the transmission time between the sound processing device 1a and the sound processing device 1b.
  • the sound synthesis circuit 17 generates synthetic sound data by synthesizing the first microphone sound data, the second microphone sound data, and the delayed content sound data. As the sound processing device 1a and the sound processing device 1b operate in this manner, as shown in FIG. Even if the arrival time is delayed, the second microphone sound data and the delayed content sound data are synchronized.
  • the user U2 who uses the sound processing device 1b sings a duet song while listening to the voice recorded in advance by the user U1, and the user U1 listens to the voice of the user U2 singing. You can sing the same duet song while listening. Therefore, even if two people are in separate locations, they can enjoy a duet at the same time.
  • the processor 13 A first mode in which a plurality of users U using the sound processing device 1a perform a duet, and a second mode in which a user U using the sound processing device 1a performs a duet with another user U using an external device can be switched. Good too.
  • the processor 13 operates in a first mode in which a plurality of microphone sound data and content sound data are synthesized based on sounds input from the microphones M1 and M2 connected to the sound processing device 1a, and the sound processing device An operation for selecting one of the second modes in which microphone sound data based on the sound input from the microphone M connected to the microphone 1a and external sound data received from the sound processing device 1b are synthesized may be accepted. .
  • the processor 13 may further accept an operation to select any one of the first to third methods described above.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

音処理装置1は、外部マイクロホンMから入力された音をマイク音データに変換するAD変換器16と、プログラムを実行することによりコンテンツ音データを記憶媒体から読み出して出力するプロセッサ13と、プロセッサ13を経由していないマイク音データと、プロセッサ13が出力したコンテンツ音データと、を合成することにより合成音データを生成する音合成回路17と、合成音データを外部に出力するスピーカ19と、を有する。

Description

音処理装置及びカラオケシステム
 本発明は、音処理装置及びカラオケシステムに関する。
 従来、マイクロホンから入力された音声と楽曲音とを合成した音をスピーカから出力するカラオケシステムが知られている(例えば、特許文献1を参照)。
特開2011-191357号公報
 従来のカラオケシステムにおいては、マイクロホンから入力された音声がCPU(Central Processing Unit)に取り込まれてから楽曲音と合成されていた。CPUで音声を処理する場合には、マイクロホンから音声が入力されてから音声がスピーカから出力されるまでの遅延時間が大きい。遅延時間が50ms以上になると、スピーカから聞こえる楽曲音と音声のタイミングがずれることにより違和感が生じる場合があるという問題が生じていた。
 そこで、本発明はこれらの点に鑑みてなされたものであり、スピーカから出力される楽曲音と音声のずれを抑制することを目的とする。
 本発明の第1の態様の音処理装置は、外部マイクロホンから入力された音をマイク音データに変換する信号変換回路と、プログラムを実行することによりコンテンツ音データを記憶媒体から読み出して出力するプロセッサと、前記プロセッサを経由していない前記マイク音データと、前記プロセッサが出力した前記コンテンツ音データと、を合成することにより合成音データを生成する音合成回路と、前記合成音データを外部に出力するスピーカと、を有する。
 前記プロセッサは、前記合成音データを記憶媒体に録音データとして記憶させた後に、前記合成音データを再生するための操作を受けた場合に、前記記憶媒体から読み出した前記録音データを前記コンテンツ音データとして前記音合成回路に入力してもよい。
 前記音処理装置は、ネットワークを介して、前記コンテンツ音データを外部装置に送信し、かつ前記外部装置から外部音データを受信する通信回路をさらに有し、前記プロセッサは、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した前記コンテンツ音データと前記外部音データとを合成することにより録音データを生成し、生成した前記録音データを記憶媒体に記憶させ、前記録音データを前記記憶媒体に記憶させた後に、前記録音データを再生するための操作を受けた場合に、前記記憶媒体から読み出した前記録音データを前記コンテンツ音データとして前記音合成回路に入力してもよい。
 前記音処理装置は、ネットワークを介して、前記コンテンツ音データを外部装置に送信し、かつ前記外部装置から、前記コンテンツ音データに同期した外部音データを受信する通信回路をさらに有し、前記プロセッサは、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した遅延コンテンツ音データを前記音合成回路に入力し、前記音合成回路は、前記マイク音データと、前記外部音データと、前記遅延コンテンツ音データとを合成することにより前記合成音データを生成してもよい。
 前記プロセッサは、前記外部音データに前記コンテンツ音データが含まれていることを検出していない場合に、前記外部音データに前記遅延コンテンツ音データを合成し、前記外部音データに前記コンテンツ音データが含まれていることを検出した場合に、前記外部音データに前記遅延コンテンツ音データを合成しないでもよい。
 前記音処理装置は、ネットワークを介して、外部装置との間でデータを送受信する通信回路をさらに有し、前記プロセッサは、前記マイク音データを記憶媒体に記憶させた後に、前記マイク音データを外部装置に送信するための操作を受けた場合に、前記通信回路を介して前記マイク音データと前記コンテンツ音データとを前記外部装置に送信し、前記マイク音データ及び前記コンテンツ音データに同期した外部音データと、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した遅延コンテンツ音データを前記音合成回路に入力し、前記音合成回路は、前記マイク音データと、前記外部音データと、前記遅延コンテンツ音データとを合成することにより前記合成音データを生成してもよい。
 前記音処理装置は、ネットワークを介して、前記コンテンツ音データを外部装置に送信し、かつ前記外部装置から外部音データを受信する通信回路をさらに有し、前記プロセッサは、複数の前記外部マイクロホンから入力された音に基づく複数の前記マイク音データと前記コンテンツ音データとを合成する第1モード、及び前記外部マイクロホンから入力された音に基づく前記マイク音データと、前記外部音データとを合成する第2モードからいずれかのモードを選択する操作を受け付けてもよい。
 前記音合成回路は、前記外部マイクロホンから入力された音にエコー処理を施した後の前記マイク音データと、エコー処理を施していない前記コンテンツ音データとを合成することにより前記合成音データを生成してもよい。
 本発明の第2の態様のカラオケシステムは、音処理装置と画像表示装置とを備え、前記音処理装置は、外部マイクロホンから入力された音をマイク音データに変換する信号変換回路と、プログラムを実行することによりコンテンツ音データを記憶媒体から読み出して出力するプロセッサと、前記プロセッサを経由していない前記マイク音データと、前記プロセッサが出力した前記コンテンツ音データと、を合成することにより合成音データを生成する音合成回路と、前記合成音データを外部に出力するスピーカと、前記コンテンツ音データに同期した画像データを前記画像表示装置に出力する画像データ出力部と、を有し、前記画像表示装置は、前記スピーカが前記合成音データを出力している間に前記画像データを表示する。
 本発明によれば、スピーカから出力される楽曲音と音声のずれを抑制することができるという効果を奏する。
第1の実施形態のカラオケシステムS1の構成を示す図である。 合成音に含まれるコンテンツ音とマイク音との関係を示す図である。 音処理装置1の構成を示す図である。 第2の実施形態のカラオケシステムS2の構成を示す図である。 第1の方法について説明するための図である。 第1の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。 第2の方法について説明するための図である。 第2の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。 第3の方法について説明するための図である。 第3の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。
<第1の実施形態>
[カラオケシステムS1の概要]
 図1は、第1の実施形態のカラオケシステムS1の構成を示す図である。カラオケシステムS1は、自宅又は店舗等においてカラオケを楽しむためのシステムである。カラオケシステムS1は、音処理装置1と、テレビ2と、サーバ3と、を備える。音処理装置1、テレビ2及びサーバ3は、ネットワークNに接続されている。ネットワークNは例えばインターネットである。
 音処理装置1は、例えばテレビ2が設置された台上に、テレビ2と接続された状態でテレビ2の前方に設置される棒状のデバイスである。音処理装置1は、その両端付近にスピーカを内蔵している。音処理装置1は、カラオケシステムS1のユーザU(図1におけるユーザU1、U2)が外部マイクロホンの一例であるマイクロホンM(図1におけるマイクロホンM1、M2)から入力された音声を楽曲の音(以下、「コンテンツ音」という場合がある)と合成することにより生成した合成音をスピーカから出力する。図1においては、マイクロホンMがワイヤレスマイクロホンである場合を例示しているが、マイクロホンMと音処理装置1とはケーブルにより接続されていてもよい。
 音処理装置1は、コンテンツ音に対応するコンテンツ音データと、コンテンツ音データに同期した映像に対応する映像データとを含むカラオケコンテンツをサーバ3から取得する。音処理装置1は、合成音をスピーカから出力している間に、テレビ2に対して、コンテンツ音データに同期した映像データを送信する。これにより、ユーザUは、テレビ2で映像を見て、コンテンツ音を聞きながら歌唱することができる。
 テレビ2は、テレビジョン放送を受信して、受信した放送コンテンツを表示することができる画像処理装置である。テレビ2は、例えばHDMI(登録商標)ケーブルにより音処理装置1と接続可能であり、音処理装置1から入力された映像データに基づく映像を表示することもできる。テレビ2は、音処理装置1のスピーカが合成音を出力している間、カラオケコンテンツに対応する映像データを表示する。テレビ2は、カラオケ用のアプリケーションソフトウェアを内蔵しており、リモコンにより、カラオケを開始するための操作が行われた場合に音処理装置1を起動させてもよい。
 テレビ2は、ネットワークNを介して、各種のコンテンツを取得することができる。例えば、音処理装置1からカラオケ用の映像データが送られてきていない間は、広告コンテンツ、美容・健康に関するコンテンツ等をサーバ3から取得して、取得したコンテンツを表示する。
 テレビ2は、音処理装置1の各種の設定操作をするための入力デバイスとしても機能する。テレビ2は、例えば、マイクロホンMの音量及びエコーのレベル等を設定するための操作や、音処理装置1の動作モードを選択するための操作を受け付けて、操作の内容を音処理装置1に通知する。
 また、テレビ2は、ユーザUが歌唱する楽曲を選択するための画面を表示する。テレビ2は、ユーザUにより選択された楽曲を識別するための情報を音処理装置1に通知する。これにより、音処理装置1は、サーバ3から、選択された楽曲に対応するカラオケコンテンツを取得することができる。
 サーバ3は、カラオケコンテンツを音処理装置1に提供する。サーバ3は、カラオケコンテンツを識別するためのコンテンツIDに関連付けてカラオケコンテンツを記憶しており、音処理装置1から受信したコンテンツIDに対応するカラオケコンテンツを音処理装置1に送信する。サーバ3は、ユーザUが歌唱している間の音声が録音されることにより作成された録音データを音処理装置1から受信し、ユーザUを識別するためのユーザID及び楽曲を識別するための録音データIDに関連付けて録音データを記憶してもよい。サーバ3は、音処理装置1からユーザID及び録音データIDを受信したことに応じて、当該ユーザID及び録音データIDに対応する録音データを音処理装置1に送信する。
 図2は、音処理装置1がスピーカから出力する合成音に含まれるコンテンツ音とマイク音との関係を示す図である。コンテンツ音は、音処理装置1がサーバ3から取得したコンテンツデータに含まれる楽曲の音データに基づく音である。マイク音データは、マイクロホンMに入力されたユーザUの音声である。図2における複数の長方形は、音が存在する期間を示しており、一つの長方形の横方向の長さは200msに相当する。
 図2(a)は、コンテンツ音とマイク音とをCPUで合成して生成した場合の合成音におけるコンテンツ音とマイク音との関係を示している。図2(a)に示す例においては、コンテンツ音に対してマイク音が150ms遅延している。このようにコンテンツ音に対するマイク音の遅延量が大きいと、ユーザUには、楽曲と自分が発した声とがずれて聞こえるので違和感が生じる。
 図2(b)は、コンテンツ音とマイク音とをCPUを用いないで合成して生成した場合の合成音におけるコンテンツ音とマイク音との関係を示している。本実施形態の音処理装置1は、このようにコンテンツ音とマイク音とをCPUを用いることなく合成するので、コンテンツ音に対するマイク音の遅延時間が30ms以下となり、ユーザUにとっては、楽曲と自分が発した声とがずれて聞こえにくい。
[音処理装置1の構成]
 図3は、音処理装置1の構成を示す図である。音処理装置1は、通信回路11と、HDMI回路12と、プロセッサ13と、記憶部14と、無線回路15と、AD変換器16と、音合成回路17と、アンプ18と、スピーカ19と、を有する。
 通信回路11は、ネットワークNを介してサーバ3との間でデータを送受信するための通信インターフェイスを有する。通信回路11は、例えばLAN(Local Area Network)コントローラを有する。
 HDMI回路12は、テレビ2に映像データを送信するためのHDMIインターフェイスを有しており、コンテンツ音データに同期した画像データをテレビ2に出力する画像データ出力部として機能する。
 プロセッサ13は、記憶部14に記憶されたプログラムを実行することにより各種の処理をするCPUである。プロセッサ13は、通信回路11を介してサーバ3からカラオケコンテンツを取得して記憶部14に記憶させたり、HDMI回路を介して、カラオケコンテンツに基づく映像データをテレビ2に送信したりする。プロセッサ13は、カラオケの動作を実行するための操作をユーザUから受けた場合に、プログラムを実行することによりコンテンツ音データを記憶部14から読み出して、音合成回路17に対して出力する。また、プロセッサ13は、音合成回路17から入力されたマイク音データを解析することにより、ユーザUの歌唱力を採点する処理を実行する。
 記憶部14は、ROM(Read Only Memory)及びRAM(Random Access Memory)を有している。記憶部14は、プロセッサ13が実行するプログラムを記憶している。また、記憶部14は、プロセッサ13がサーバ3から取得したカラオケコンテンツを一時的に記憶する。
 無線回路15は、マイクロホンM1及びマイクロホンM2から、マイクロホンM1及びマイクロホンM2に入力された音に対応する第1音信号及び第2音信号を受信するためのアンテナ及び復調回路等を有する。無線回路15は、受信した第1音信号及び第2音信号を復調した後の信号をAD変換器16に入力する。
 AD変換器16は、マイクロホンM1又はマイクロホンM2の少なくともいずれかから入力された音をマイク音データに変換する信号変換回路である。具体的には、AD変換器16は、無線回路15から入力されたマイク音のアナログ信号をデジタルデータに変換する。AD変換器16は、変換後のマイク音データを音合成回路17に入力する。AD変換器16は、例えばマイク音データをIS(Inter-IC Sound)規格に基づくフォーマットで音合成回路17に送信する。
 音合成回路17は、プロセッサを経由していないマイク音データと、プロセッサが出力したコンテンツ音データと、を合成することにより合成音データを生成する。音合成回路17は、マイクロホンM1において入力されたユーザU1の声に基づくマイク音データと、マイクロホンM2において入力されたユーザU2の声に基づくマイク音データとを合成することにより合成音データを生成してもよい。これにより、ユーザU1とユーザU2がデュエットを楽しむことができる。音合成回路17は、生成した合成音データをアンプ18に入力する。音合成回路17は、例えばIS規格に基づいて合成音データをアンプ18に送信する。
 音合成回路17は、例えばDSP(Digital Signal Processor)により構成されており、所定のサンプリング時間ごとにデジタル信号処理を実行することで、合成音データを生成する。音合成回路17がDSPにより構成されていることで、積和演算を高速に処理することができるので、ユーザUがマイクロホンMに音声を入力してから合成音データが生成されるまでの遅延時間を30ms以下に抑えることができる。なお、音合成回路17は、合成する前のマイク音データをIS規格に基づいてプロセッサ13に送信してもよい。
 音合成回路17は、マイクロホンMから入力された音にエコー処理を施した後のマイク音データと、エコー処理を施していないコンテンツ音データとを合成することにより合成音データを生成してもよい。音合成回路17がエコー処理を施すことで、遅延時間を抑えつつ、ユーザUが歌った声にエコーをかけることが可能になる。
 アンプ18は、音合成回路17から入力された合成音データを増幅し、増幅した後のアナログ合成音をスピーカ19に入力する。スピーカ19は、入力されたアナログ合成音を出力する。
 ところで、デュエット曲を歌う場合に、デュエットをする相手がいないという場合がある。そこで、プロセッサ13は、ユーザUの音声に対応するマイク音データとコンテンツ音データとを合成した合成音データを記憶媒体に録音データとして記憶させた後に、合成音データを再生するための操作を受けた場合に、記憶媒体から読み出した録音データをコンテンツ音データとして音合成回路17に入力してもよい。記憶媒体は例えばサーバ3が有するハードディスクであるが、プロセッサ13は記憶部14に合成音データを記憶させてもよい。ユーザUは、このコンテンツ音データを聞きながら歌唱することで、過去の自分自身、又は音処理装置1を過去に使用した他のユーザUとデュエットをすることが可能になる。
<第2の実施形態>
[カラオケシステムS2の概要]
 図4は、第2の実施形態のカラオケシステムS2の構成を示す図である。図4に示すカラオケシステムS2は、第1の拠点に音処理装置1a及びテレビ2aが設置されており、第2の拠点に音処理装置1b及びテレビ2bが設置されているという点で図1に示したカラオケシステムS1と異なる。音処理装置1a及び音処理装置1bのそれぞれは、第1の実施形態において説明した音処理装置1の機能を有する。テレビ2a及びテレビ2bは、第1の実施形態において説明したテレビ2の機能を有する。
 カラオケシステムS2においては、音処理装置1aを使用するユーザU1と外部装置(図4の例では音処理装置1b)を使用するユーザU2とがデュエットをできるという点でカラオケシステムS1と異なる。音処理装置1a及び音処理装置1bは、各種の方法によりユーザU1とユーザU2とのデュエットを実現することができる。以下、それぞれの方法を詳細に説明する。
[第1の方法]
 第1の方法は、ユーザU2がコンテンツ音データに合わせて歌ったときの音声を予め録音しておき、ユーザU1が、コンテンツ音データと録音されたユーザU2の音声とを聞きながらマイクロホンM1に音声を入力するという方法である。図5は、第1の方法について説明するための図である。図5には、音処理装置1aのプロセッサ13と、音合成回路17と、AD変換器16と、音処理装置1bと、が示されている。図6は、第1の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。
 第1の方法において、音処理装置1aのプロセッサ13は、音処理装置1bから受信した合成音データを記憶媒体に録音データとして記憶させた後に、合成音データを再生するための操作をユーザU1から受けた場合に、記憶媒体から読み出した録音データをコンテンツ音データとして音合成回路17に入力する。第1の実施形態と同様に、記憶媒体は例えばサーバ3が有するハードディスクであるが、プロセッサ13は記憶部14に合成音データを記憶させてもよい。
 このようにするために、通信回路11は、ネットワークNを介して、コンテンツ音データを音処理装置1bに送信し、かつ音処理装置1bから、ユーザU2がマイクロホンMに入力した音声に対応する外部音データ(すなわち第2マイク音データ)を受信する。マイクロホンM2には、スピーカ19から出力されるコンテンツ音も入るが、ここでは、マイクロホンM2の指向性が十分に強く、マイク音にはコンテンツ音が含まれていないものとする。なお、マイク音にコンテンツ音が含まれる場合、音合成回路17が、マイク音からコンテンツ音を除去する処理をすることにより、音処理装置1aに送信される第2マイク音データにコンテンツ音データが含まれないようにしてもよい。
 そして、プロセッサ13は、通信回路11が音処理装置1bに送信したコンテンツ音データに対して所定の遅延時間だけ遅延したコンテンツ音データと第2マイク音データとを合成することにより録音データを生成し、生成した録音データを記憶媒体に記憶させる。そして、プロセッサ13は、録音データを記憶媒体に記憶させた後に、録音データを再生するための操作を受けた場合に、記憶媒体から読み出した録音データをコンテンツ音データとして音合成回路17に入力する。
 図5に示す例においては、まず、音処理装置1aのプロセッサ13が音処理装置1bに対してコンテンツ音データを送信し、音処理装置1bは、音処理装置1aから受信したコンテンツ音データに基づくコンテンツ音をスピーカ19から出力させる。音処理装置1bは、マイクロホンM2に入力されたユーザU2の音声に基づく第2マイク音データを音処理装置1aに送信する。
 音処理装置1aのプロセッサ13は、音処理装置1bから受信した第2マイク音データと、第2マイク音データに同期させたコンテンツ音データ(遅延コンテンツ音データ)とを合成した録音データをサーバ3に記憶させることで録音する。この際、プロセッサ13は、ユーザU2のユーザID及びコンテンツID(例えば楽曲名)に関連付けた録音データをサーバ3に記憶させる。
 その後、ユーザU1が、ユーザU2が録音した第2マイク音データを用いてユーザU2とデュエットをするための操作をすると、プロセッサ13は、ユーザU1により選択されたユーザID及びコンテンツIDに対応する録音データを読み出す。プロセッサ13は、読み出した録音データを出力コンテンツ音データとして音合成回路17に入力し、読み出した録音データを第2マイク録音データとして音合成回路17に入力する。
 音合成回路17は、録音データと、AD変換器16を介してマイクロホンM1から入力された第1マイク音データとを合成することにより、合成音データを生成する。図6に示すように、第1マイク音データは、録音データに対して30ms以下の遅延時間となる。生成された合成音データに基づく合成音がスピーカ19から出力されることにより、ユーザU1は、ユーザU2とデュエットしている気分で歌唱することができる。
 なお、以上の説明においては、マイクロホンM2の指向性が高く、音処理装置1bから送信された第2マイク音データにはコンテンツ音データが含まれていない場合を例示したが、第2マイク音データにコンテンツ音データが含まれていてもよい。この場合、プロセッサ13は、第2マイク音データに含まれているユーザU2の音声に同期したコンテンツ音データを合成させず、第2マイク音データを録音データとして記憶媒体に記憶させてもよい。このような構成により、プロセッサ13の処理の負荷を軽くすることができる。
 プロセッサ13は、第2マイク音データにコンテンツ音データが含まれていることを検出していない場合と第2マイク音データにコンテンツ音データが含まれていることを検出した場合とで処理を変えてもよい。プロセッサ13は、第2マイク音データにコンテンツ音データが含まれていることを検出していない場合に、第2マイク音データに、第2マイク音データに含まれているユーザU2の音声に同期した遅延コンテンツ音データを合成して録音データとする。プロセッサ13は、第2マイク音データにコンテンツ音データが含まれていることを検出した場合に、第2マイク音データに遅延コンテンツ音データを合成することなく、第2マイク音データを録音データとしてもよい。このような構成により、マイクロホンM2で録音されたコンテンツ音データと、記憶媒体から読み出された遅延コンテンツ音データとが合成されないので、同じコンテンツ音データがわずかにずれた状態で合成されることにより生じる違和感が生じることを防げる。
[第2の方法]
 図7は、第2の方法について説明するための図である。図5と同様に、図7には、音処理装置1aのプロセッサ13と、音合成回路17と、AD変換器16と、音処理装置1bと、が示されている。図8は、第2の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。第2の方法においては、ユーザU2の音声の録音データを使わず、リアルタイムでユーザU1がユーザU2とデュエットをできるという点で第1の方法と異なる。
 音処理装置1aのプロセッサ13は、第1の方法と同様に、ネットワークNを介して、コンテンツ音データを外部装置である音処理装置1bに送信し、かつ音処理装置1bから第2マイク音データを受信する。音処理装置1bは、音処理装置1aから受信したコンテンツ音データに基づくコンテンツ音をスピーカ19から出力させる。音処理装置1bは、マイクロホンM2に入力されたユーザU2の音声に基づく第2マイク音データを音処理装置1aに送信する。
 音処理装置1aのプロセッサ13は、通信回路11が音処理装置1bに送信したコンテンツ音データに対して所定の遅延時間だけ遅延したコンテンツ音データ(すなわち遅延コンテンツ音データ)を音合成回路17に入力する。所定の遅延時間は、音処理装置1aから送信したコンテンツ音データが音処理装置1bに到達するまでの伝送時間と、音処理装置1bから送信した第2マイク音データが音処理装置1aに到達するまでの伝送時間とを加算した時間に相当する。通信回路11が音処理装置1bに送信したコンテンツ音データに対して、音処理装置1aと音処理装置1bとの間の往復の伝送時間に相当する時間だけ遅延したコンテンツ音データは、第2マイク音データに同期した音データになる。
 音合成回路17は、マイクロホンM1に入力されたユーザU1の音声に対応する第1マイク音データと、マイクロホンM2に入力されたユーザU2の音声に対応する第2マイク音データと、遅延コンテンツ音データとを合成することにより合成音データを生成する。音処理装置1aがこのように動作することで、図8に示すように、音処理装置1aが送信したコンテンツ音データに対して、第2マイク音データが音処理装置1aに到達した時間が遅れていたとしても、第2マイク音データと遅延コンテンツ音データとが同期する。そして、音合成回路17がこれらの音データと第1マイク音データとを合成するので、第2マイク音データに対する第1マイク音データの遅延時間は30ms以下であり、ユーザU1は、コンテンツ音に同期したユーザU2の声に合わせて歌唱することができる。
 なお、第1の方法と同様に、プロセッサ13は、第2マイク音データにコンテンツ音データが含まれていることを検出していない場合と第2マイク音データにコンテンツ音データが含まれていることを検出した場合とで処理を変えてもよい。プロセッサ13は、第2マイク音データにコンテンツ音データが含まれていることを検出していない場合に、第2マイク音データに、第2マイク音データに含まれているユーザU2の音声に同期した遅延コンテンツ音データを合成して録音データとする。プロセッサ13は、第2マイク音データにコンテンツ音データが含まれていることを検出した場合に、第2マイク音データに遅延コンテンツ音データを合成することなく、第2マイク音データを録音データとしてもよい。このような構成により、マイクロホンM2で録音されたコンテンツ音データと、記憶媒体から読み出された遅延コンテンツ音データとが合成されないので、同じコンテンツ音データがわずかにずれた状態で合成されることにより生じる違和感が生じることを防げる。
[第3の方法]
 図9は、第3の方法について説明するための図である。図5と同様に、図9には、音処理装置1aのプロセッサ13と、音合成回路17と、AD変換器16と、音処理装置1bと、が示されている。図10は、第3の方法でデュエットをする場合の音データのタイミングを模式的に示す図である。第3の方法においては、ユーザU1とユーザU2の両方がリアルタイムでデュエットをできるという点で第1の方法及び第2の方法と異なる。
 図9に示すように、まず、音処理装置1aのプロセッサ13は、第1の実施形態で説明した方法によりユーザU1がマイクロホンM1に入力した録音用マイク音データを取得し、録音用マイク音データを第1マイク録音データとして記憶部14に記憶させることにより録音する。ここでは、マイクロホンM1の指向性が十分に高く、第1マイク録音データにはコンテンツ音データが含まれていないものとする。
 続いて、プロセッサ13は、第1マイク録音データを記憶部14に記憶させた後に、第1マイク録音データを外部装置である音処理装置1bに送信するための操作を受けた場合に、通信回路11を介して第1マイク録音データとコンテンツ音データとを音処理装置1bに送信する。第1マイク録音データを音処理装置1bに送信するための操作は、例えば、音処理装置1bを利用するユーザU2とデュエットをするための操作である。音処理装置1bは、第1マイク録音データとコンテンツ音データに基づく音を聞きながらユーザU2が歌唱した際の音声に対応する第2マイク音データを生成する。音処理装置1bのプロセッサ13は、生成した第2マイク音データを音処理装置1aに送信する。
 音処理装置1aのプロセッサ13は、音処理装置1bから第2マイク音データを受信すると、第2マイク音データと、通信回路11が音処理装置1bに送信したコンテンツ音データに対して所定の遅延時間だけ遅延した遅延コンテンツ音データとを音合成回路17に入力する。所定の遅延時間は、第2の方法における遅延時間と同様に、音処理装置1aと音処理装置1bとの間の伝送時間に対応する時間である。
 音合成回路17は、第1マイク音データと、第2マイク音データと、遅延コンテンツ音データとを合成することにより合成音データを生成する。音処理装置1a及び音処理装置1bがこのように動作することで、図10に示すように、音処理装置1aが送信したコンテンツ音データに対して、第2マイク音データが音処理装置1aに到達した時間が遅れていたとしても、第2マイク音データと遅延コンテンツ音データとが同期する。
 第3の方法によれば、音処理装置1bを利用するユーザU2は、予めユーザU1が録音をした音声を聞きながらデュエット曲を歌唱し、ユーザU1は、ユーザU2が歌唱をしている音声を聞きながら同じデュエット曲を歌唱することができる。したがって、二人が離れた場所にいる場合であっても、同時にデュエットを楽しむことが可能になる。
[デュエットモードの切り替え]
 音処理装置1aを利用するユーザUが、音処理装置1a以外の外部装置を利用する他のユーザUとデュエットをできるように音処理装置1aが構成されている場合、プロセッサ13は、音処理装置1aを利用する複数のユーザUがデュエットをする第1モードと、音処理装置1aを利用するユーザUが外部装置を利用する他のユーザUとデュエットをする第2モードとを切り替えられるようにしてもよい。
 具体的には、プロセッサ13は、音処理装置1aと接続されたマイクロホンM1及びマイクロホンM2から入力された音に基づく複数のマイク音データとコンテンツ音データとを合成する第1モード、及び音処理装置1aに接続されたマイクロホンMから入力された音に基づくマイク音データと、音処理装置1bから受信した外部音データとを合成する第2モードからいずれかのモードを選択する操作を受け付けてもよい。プロセッサ13は、第2モードが選択された場合に、さらに、上記の第1の方法から第3の方法までのいずれかの方法を選択する操作を受け付けてもよい。プロセッサ13がこのように動作することで、ユーザUがデュエットをしようとする相手の状況に適した方法でデュエットをすることが可能になる。
 以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
1 音処理装置
2 テレビ
3 サーバ
11 通信回路
12 HDMI回路
13 プロセッサ
14 記憶部
15 無線回路
16 AD変換器
17 音合成回路
18 アンプ
19 スピーカ
M マイクロホン
N ネットワーク
S1 カラオケシステム
S2 カラオケシステム

Claims (9)

  1.  外部マイクロホンから入力された音をマイク音データに変換する信号変換回路と、
     プログラムを実行することによりコンテンツ音データを記憶媒体から読み出して出力するプロセッサと、
     前記プロセッサを経由していない前記マイク音データと、前記プロセッサが出力した前記コンテンツ音データと、を合成することにより合成音データを生成する音合成回路と、
     前記合成音データを外部に出力するスピーカと、
     を有する音処理装置。
  2.  前記プロセッサは、前記合成音データを記憶媒体に録音データとして記憶させた後に、前記合成音データを再生するための操作を受けた場合に、前記記憶媒体から読み出した前記録音データを前記コンテンツ音データとして前記音合成回路に入力する、
     請求項1に記載の音処理装置。
  3.  ネットワークを介して、前記コンテンツ音データを外部装置に送信し、かつ前記外部装置から外部音データを受信する通信回路をさらに有し、
     前記プロセッサは、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した前記コンテンツ音データと前記外部音データとを合成することにより録音データを生成し、生成した前記録音データを記憶媒体に記憶させ、前記録音データを前記記憶媒体に記憶させた後に、前記録音データを再生するための操作を受けた場合に、前記記憶媒体から読み出した前記録音データを前記コンテンツ音データとして前記音合成回路に入力する、
     請求項1に記載の音処理装置。
  4.  ネットワークを介して、前記コンテンツ音データを外部装置に送信し、かつ前記外部装置から、前記コンテンツ音データに同期した外部音データを受信する通信回路をさらに有し、
     前記プロセッサは、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した遅延コンテンツ音データを前記音合成回路に入力し、
     前記音合成回路は、前記マイク音データと、前記外部音データと、前記遅延コンテンツ音データとを合成することにより前記合成音データを生成する、
     請求項1に記載の音処理装置。
  5.  前記プロセッサは、前記外部音データに前記コンテンツ音データが含まれていることを検出していない場合に、前記外部音データに前記遅延コンテンツ音データを合成し、前記外部音データに前記コンテンツ音データが含まれていることを検出した場合に、前記外部音データに前記遅延コンテンツ音データを合成しない、
     請求項4に記載の音処理装置。
  6.  ネットワークを介して、外部装置との間でデータを送受信する通信回路をさらに有し、
     前記プロセッサは、前記マイク音データを記憶媒体に記憶させた後に、前記マイク音データを外部装置に送信するための操作を受けた場合に、前記通信回路を介して前記マイク音データと前記コンテンツ音データとを前記外部装置に送信し、前記マイク音データ及び前記コンテンツ音データに同期した外部音データと、前記通信回路が前記外部装置に送信した前記コンテンツ音データに対して所定の遅延時間だけ遅延した遅延コンテンツ音データを前記音合成回路に入力し、
     前記音合成回路は、前記マイク音データと、前記外部音データと、前記遅延コンテンツ音データとを合成することにより前記合成音データを生成する、
     請求項1に記載の音処理装置。
  7.  ネットワークを介して、前記コンテンツ音データを外部装置に送信し、かつ前記外部装置から外部音データを受信する通信回路をさらに有し、
     前記プロセッサは、複数の前記外部マイクロホンから入力された音に基づく複数の前記マイク音データと前記コンテンツ音データとを合成する第1モード、及び前記外部マイクロホンから入力された音に基づく前記マイク音データと、前記外部音データとを合成する第2モードからいずれかのモードを選択する操作を受け付ける、
     請求項1に記載の音処理装置。
  8.  前記音合成回路は、前記外部マイクロホンから入力された音にエコー処理を施した後の前記マイク音データと、エコー処理を施していない前記コンテンツ音データとを合成することにより前記合成音データを生成する、
     請求項1から7のいずれか一項に記載の音処理装置。
  9.  音処理装置と画像表示装置とを備え、
     前記音処理装置は、
      外部マイクロホンから入力された音をマイク音データに変換する信号変換回路と、
      プログラムを実行することによりコンテンツ音データを記憶媒体から読み出して出力するプロセッサと、
      前記プロセッサを経由していない前記マイク音データと、前記プロセッサが出力した前記コンテンツ音データと、を合成することにより合成音データを生成する音合成回路と、
      前記合成音データを外部に出力するスピーカと、
      前記コンテンツ音データに同期した画像データを前記画像表示装置に出力する画像データ出力部と、
     を有し、
     前記画像表示装置は、前記スピーカが前記合成音データを出力している間に前記画像データを表示する、カラオケシステム。
PCT/JP2023/011642 2022-04-07 2023-03-23 音処理装置及びカラオケシステム WO2023195353A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-063864 2022-04-07
JP2022063864A JP7359896B1 (ja) 2022-04-07 2022-04-07 音処理装置及びカラオケシステム

Publications (1)

Publication Number Publication Date
WO2023195353A1 true WO2023195353A1 (ja) 2023-10-12

Family

ID=88242145

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/011642 WO2023195353A1 (ja) 2022-04-07 2023-03-23 音処理装置及びカラオケシステム

Country Status (2)

Country Link
JP (1) JP7359896B1 (ja)
WO (1) WO2023195353A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001042878A (ja) * 1999-08-03 2001-02-16 Taito Corp プレイヤー参加型通信カラオケシステム
JP2004053736A (ja) * 2002-07-17 2004-02-19 Daiichikosho Co Ltd 通信カラオケシステムの使用方法
JP2011242560A (ja) * 2010-05-18 2011-12-01 Yamaha Corp セッション端末及びネットワークセッションシステム
JP2016102982A (ja) * 2014-11-28 2016-06-02 株式会社エクシング カラオケシステム、プログラム、カラオケ音声再生方法及び音声入力処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001042878A (ja) * 1999-08-03 2001-02-16 Taito Corp プレイヤー参加型通信カラオケシステム
JP2004053736A (ja) * 2002-07-17 2004-02-19 Daiichikosho Co Ltd 通信カラオケシステムの使用方法
JP2011242560A (ja) * 2010-05-18 2011-12-01 Yamaha Corp セッション端末及びネットワークセッションシステム
JP2016102982A (ja) * 2014-11-28 2016-06-02 株式会社エクシング カラオケシステム、プログラム、カラオケ音声再生方法及び音声入力処理装置

Also Published As

Publication number Publication date
JP2023154515A (ja) 2023-10-20
JP7359896B1 (ja) 2023-10-11

Similar Documents

Publication Publication Date Title
JP5316189B2 (ja) Avシステム
KR101987473B1 (ko) 온라인 노래방 서비스의 반주 및 가창 음성 간 동기화 시스템 및 이를 수행하기 위한 장치
US7725203B2 (en) Enhancing perceptions of the sensory content of audio and audio-visual media
KR20170011999A (ko) 개인용 오디오의 전달을 위한 시스템들 및 방법들
WO2020182020A1 (zh) 一种音频信号播放方法及显示设备
KR20200029406A (ko) 스마트 단말기를 이용한 노래방 시스템 및 이를 이용한 노래하는 방법
JP5598211B2 (ja) マスカ音出力制御装置
JP5109496B2 (ja) データ配信装置、データ配信方法およびプログラム
JP5590186B2 (ja) Avシステム
WO2023195353A1 (ja) 音処理装置及びカラオケシステム
CN113611272B (zh) 基于多移动终端的扬声方法、装置及存储介质
CN105791937A (zh) 一种音视频处理方法以及相关设备
JP4422656B2 (ja) ネットワークを用いた遠隔多地点合奏システム
JP6220576B2 (ja) 複数人による通信デュエットに特徴を有する通信カラオケシステム
JP5790021B2 (ja) 音声出力システム
JP2010176042A (ja) 歌唱音声録音カラオケシステム
JP2006333051A (ja) 音声配信装置、音声配信システム、及びプログラム
JP7423991B2 (ja) 子局装置、無線システム、子局装置の制御方法、およびプログラム
WO2018173097A1 (ja) ヘッドフォン
JPH09212179A (ja) カラオケ装置
KR102244150B1 (ko) 블록체인과 스마트 단말기를 이용한 온라인 노래방 시스템 및 이를 이용한 온라인으로 노래하는 방법
JP2947184B2 (ja) カラオケシステム
WO2022113289A1 (ja) ライブデータ配信方法、ライブデータ配信システム、ライブデータ配信装置、ライブデータ再生装置、およびライブデータ再生方法
WO2022113288A1 (ja) ライブデータ配信方法、ライブデータ配信システム、ライブデータ配信装置、ライブデータ再生装置、およびライブデータ再生方法
WO2020208811A1 (ja) 再生制御装置、プログラムおよび再生制御方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23784643

Country of ref document: EP

Kind code of ref document: A1