WO2022018864A1 - 音データ処理装置、音データ処理方法及び音データ処理プログラム - Google Patents

音データ処理装置、音データ処理方法及び音データ処理プログラム Download PDF

Info

Publication number
WO2022018864A1
WO2022018864A1 PCT/JP2020/028476 JP2020028476W WO2022018864A1 WO 2022018864 A1 WO2022018864 A1 WO 2022018864A1 JP 2020028476 W JP2020028476 W JP 2020028476W WO 2022018864 A1 WO2022018864 A1 WO 2022018864A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound data
sound
unit
noise
data processing
Prior art date
Application number
PCT/JP2020/028476
Other languages
English (en)
French (fr)
Inventor
賢 金
Original Assignee
2nd Community株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 2nd Community株式会社 filed Critical 2nd Community株式会社
Priority to JP2021531432A priority Critical patent/JP7160264B2/ja
Priority to PCT/JP2020/028476 priority patent/WO2022018864A1/ja
Publication of WO2022018864A1 publication Critical patent/WO2022018864A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present invention relates to a sound data processing device, a sound data processing method, and a sound data processing program.
  • Patent Document 1 describes removing noise included in sound data.
  • the sound data collected over a relatively long time has a relatively large data size, and depending on the software or device for removing noise, it takes time to remove the noise, or In some cases, noise could not be removed from the sound data because it exceeded the processing capacity.
  • An object of the present invention is to provide a sound data processing device, a sound data processing method, and a sound data processing program capable of removing noise contained in a sound.
  • the sound data processing device of one aspect has an acquisition unit that acquires sound data in which sound parts are recorded, a learning model for each part generated by learning a plurality of sounds in advance, and each part acquired by the acquisition unit.
  • a removing unit that performs processing for removing noise for each part based on the sound data, and a mixing unit that mixes each part from which noise has been removed by the removing unit are provided, and the removing unit includes sound data of each part. Is divided into multiple parts, the process of removing noise from the sound is repeated based on the learning model and the divided sound, and the divided sound data from which the noise has been removed are combined so as to be continuous in time. ..
  • the removing unit when the divided sounds are combined, the removing unit makes the weighting of the combination at the combined position of the divided sound data the heaviest, and as the distance from the combined position increases back and forth in time.
  • the weighting of the bond may be gradually lighter than the bond position.
  • the removing unit may acquire a learning model generated based on learning sounds acquired at a plurality of different places with noise.
  • the mixing unit mixes a first adjustment unit that makes predetermined adjustments regarding sound to the sound data of each part and each part that has been adjusted by the first adjustment unit.
  • a second adjustment unit for adjustment may be provided.
  • the first adjustment unit makes at least one adjustment of level adjustment, equalizer adjustment, reverberation effect adjustment, and compression adjustment as a predetermined adjustment regarding sound with respect to the sound data
  • the second adjustment unit May be used to adjust the left and right output balance.
  • a computer acquires sound data by recording sound parts, a learning model for each part generated by learning a plurality of sounds in advance, and an acquisition step. Based on the sound data for each part, a removal step for removing noise for each part and a mixing step for mixing each part from which noise has been removed by the removal step are executed, and the removal step is performed.
  • the sound data of each part is divided into a plurality of parts, and the process of removing noise from the sound is repeated based on the learning model and the divided sound, and the divided sound data from which the noise is removed is continuously in time. Combine to do.
  • One aspect of the sound data processing program is acquired by an acquisition function for acquiring sound data in which sound parts are recorded on a computer, a learning model for each part generated by learning a plurality of sounds in advance, and an acquisition function. Based on the sound data of each part, a removal function that removes noise for each part and a mixing function that mixes each part for which noise has been removed by the removal function are realized, and the removal function is The sound data of each part is divided into a plurality of parts, and the process of removing noise from the sound is repeated based on the learning model and the divided sound, and the divided sound data from which the noise is removed is continuously in time. Combine to do.
  • One aspect of the sound data processing device performs processing for removing noise for each part based on a learning model for each part generated by learning a plurality of sounds in advance and sound data for each part, and noise is generated. Mix each removed part.
  • the sound data processing device divides the sound data of each part into a plurality of parts, repeats the process of removing noise from the sound based on the learning model and the divided sound, and divides the noise.
  • the generated sound data is combined so as to be continuous in time.
  • the sound data processing device can remove noise contained in the sound.
  • the sound data processing method and the sound data processing program of one aspect can have the same effect as the sound data processing device of one aspect.
  • FIG. 1 is a diagram for explaining the sound data processing device 1.
  • the sound data processing device 1 of the present embodiment was invented based on the desire to produce music more easily.
  • the sound data processing device 1 acquires sound data (track data) in which sound parts (first to third parts (plural tracks) in the example shown in FIG. 1) are recorded.
  • the sound data obtained by recording a sound part is, for example, sound data (track data) generated by collecting sound for each one or more instruments, or one or more ranges (for example, soprano, alto, tenor, and soprano). Sound data (track data), etc. generated by collecting sound for each (bus, etc.).
  • the number of sound parts (sound data) may be singular or plural.
  • the number of sound parts (sound data) is described as three parts (first to third parts) in the case illustrated in FIG. 1, but the present invention is not limited to this example, and two or less. It may be the number of parts, or it may be the number of four or more parts. That is, the sound data processing device 1 accepts, for example, a multi-track (or single-track) input.
  • the sound data processing device 1 removes noise from each part (track) based on a learning model in which sound is learned in advance using deep learning or the like (for example, Wave-U-net) and sound data. do. After that, the sound data processing device 1 makes predetermined adjustments (for example, adjustments related to sound such as reverberation) to each part (track) from which noise has been removed. Then, the sound data processing device 1 performs mixing to convert the multitrack into a single track and output the multitrack.
  • a learning model in which sound is learned in advance using deep learning or the like (for example, Wave-U-net) and sound data. do.
  • the sound data processing device 1 makes predetermined adjustments (for example, adjustments related to sound such as reverberation) to each part (track) from which noise has been removed.
  • the sound data processing device 1 performs mixing to convert the multitrack into a single track and output the multitrack.
  • FIG. 2 is a block diagram for explaining the sound data processing device 1 according to the embodiment.
  • the sound data processing device 1 includes a microphone unit 16, a communication unit 17, a storage unit 18, a speaker unit 19, an acquisition unit 12, a removal unit (noise canceller) 13, a mixing unit (mixer) 14, and an output control unit 15.
  • the acquisition unit 12, the removal unit 13, the mixing unit 14, and the output control unit 15 may be realized as one function of the control unit 11 (for example, an arithmetic processing unit or the like) of the sound data processing device 1.
  • the microphone unit 16 is a device that collects sound and voice.
  • the communication unit 17 is a device capable of transmitting and receiving data to and from a device (for example, a server 100, etc.) arranged outside the sound data processing device 1.
  • the storage unit 18 is a device capable of storing various data and programs.
  • the speaker unit 19 is a device that outputs sound and voice.
  • the acquisition unit 12 acquires sound data (track data) in which sound parts (tracks) are recorded.
  • the acquisition unit 12 may acquire the sound data generated by collecting the sound by the microphone unit 16.
  • the acquisition unit 12 may acquire the sound data stored in the server 100 via the communication unit 17.
  • the acquisition unit 12 acquires a plurality of sound data (track data) in order to produce one musical piece using, for example, a plurality of musical instruments and vocals. Sound data may be generated at different locations.
  • the acquisition unit 12 uses the sound data A generated based on the user playing the same music by using the musical instrument A in the room A, and the user using the musical instrument B in the room B different from the room A. It may be possible to acquire the sound data B generated based on the performance.
  • the acquisition unit 12 may acquire only one sound data (track data), for example. When the acquisition unit 12 acquires only one sound data, the second adjustment unit 142, which will be described later, does not have to perform mixing processing.
  • the sound data in which the sound parts are recorded is, for example, the sound data generated by collecting the sound for each one or a plurality of musical instruments, or the sound data generated by collecting the sound for each one or a plurality of sound ranges. It is the sound data etc.
  • a specific sound part it may be a part of a guitar, a vocal, a drum, a piano, or the like, or it may be a part of another musical instrument excluding those examples.
  • the removal unit 13 performs a process of removing noise for each part based on a learning model for each part generated by learning a plurality of sounds in advance and sound data for each part acquired by the acquisition unit 12. ..
  • the removal unit 13 may acquire a learning model generated based on learning sounds acquired at a plurality of different places with noise.
  • the control unit 11 learns a plurality of sounds in advance and generates a learning model for each part. For example, the control unit 11 generates a learning model by learning a sound containing noise. Further, for example, the control unit 11 may generate a learning model by learning a sound containing noise and a sound containing no noise. As a specific example, the control unit 11 may learn a sound including noise such as indoor air conditioning and a person's voice as a sound containing noise. When learning a sound containing noise, the control unit 11 is not limited to the above-mentioned example, and may learn a sound containing other noise. The control unit 11 may generate a learning model by learning a sound containing at least noise for each part (for example, for each musical instrument and vocal).
  • the learning model may not only be generated by the control unit 11, but may also be generated by a server 100 or the like outside the sound data processing device 1.
  • the removal unit 13 acquires the learning model from the server 100 via the communication unit 17.
  • the removing unit 13 removes noise from each part (track) based on the learning model and sound data (track data) by using deep learning such as Wave-U-net. do. That is, the removing unit 13 removes noise from each part in a multi-track state. As a more specific example, the removing unit 13 removes noise by inputting sound (waveform) to Wave-U-net, and outputs the sound (waveform) from which noise is removed from the Wave-U-net. Let me.
  • the removing unit 13 when a learning model is generated for each part (track), the removing unit 13 generates noise from the part based on the sound data (track data) and the learning model corresponding to the sound data. It may be removed. In this case, the removing unit 13 learns the instrument or vocal corresponding to the type information by inputting the type information (type information) such as the instrument or vocal recorded in the sound data together with the sound data. A model may be selected and noise removed from the part (track) based on the sound data and the selected learning model.
  • the type information may be included in the sound data, for example, or may be input to the removing unit 13 based on the user operating an input device or the like (not shown).
  • the removing unit 13 divides the sound data of each part into a plurality of parts, repeats a process of removing noise from the sound based on the learning model and the divided sound, and the divided sound data from which the noise is removed. Are combined so as to be continuous in time. In this case, when the divided sounds are combined, the removing unit 13 makes the weighting of the combination at the combined position of the divided sound data the heaviest, and combines the weights of the combined as the distance from the combined position before and after the time. It may be made lighter gradually than the position.
  • the size of the sound data may be relatively long. If the recording time, sound collection time, or the like is relatively long, the processing capacity for removing noise by the removing unit 13 may be exceeded. Therefore, the removing unit 13 may, for example, divide each part (each track) into predetermined time intervals.
  • the time for division and the timing for division are not limited to the predetermined time described above, and may be appropriately set according to the processing capacity for noise removal of the removing unit 13. That is, the removing unit 13 divides each of the plurality of parts (plurality of tracks) in time to generate a plurality of divided parts (divided tracks) for each part (track). In this case, for example, the removing unit 13 may be divided so that the time-adjacent divided tracks have a time-overlapping portion. The removing unit 13 removes noise from the divided part based on the divided part (divided track) and the learning model.
  • the removing unit 13 recombines the divided parts from which noise has been removed in chronological order.
  • the sound connection between the divided parts may become unnatural.
  • noise for example, artifact noise (Artifact noise), etc.
  • the connection of voices between the divided parts may not feel unnatural to the user.
  • the connection of sounds between the divided parts may feel unnatural to the user. Therefore, for example, when music is recorded in the sound data, the removing unit 13 performs the following processing in order to suppress the connection of sounds between the divided parts from feeling unnatural to the user. May be. Or, for example, the removing unit 13 finds that the connection of sounds between the divided parts feels unnatural to the user in all cases regardless of the contents recorded in the sound data (music, human conversation, etc.). In order to suppress it, the following processing may be performed.
  • FIG. 3 is a diagram for explaining an example of a triangle filter.
  • the removing unit 13 applies a triangle filter between the divided parts (divided tracks) to be combined to combine the divided parts (divided tracks) that are temporally adjacent to each other. That is, for example, the removing unit 13 combines the overlapping portions of the adjacent divided parts by using a triangle filter so as not to cause a sense of discomfort to the user. More specifically, as illustrated in FIG. 3, when the removal unit 13 joins the temporally adjacent division parts (one division part 201 and the other division part 202), the removal unit 13 joins at the connection position 203.
  • the weight 204 of is the heaviest, and the weight 204 of the bond is lightened continuously or stepwise as the distance from the bond position 203 is increased.
  • the removing unit 13 can change the ratio of superimposing sounds according to the weight of the weight, and can suppress the connection of sounds between the divided parts from feeling unnatural to the user. Become.
  • the mixing unit 14 mixes each part from which noise has been removed by the removing unit 13.
  • the mixing unit 14 may include a first adjusting unit 141 and a second adjusting unit 142.
  • the first adjustment unit 141 makes predetermined adjustments regarding sound to the sound data of each part.
  • the first adjustment unit 141 may make at least one of level adjustment, equalizer adjustment, reverberation effect adjustment, and compression (compressor) adjustment as a predetermined adjustment regarding sound with respect to sound data. Each adjustment will be described below.
  • the first adjustment unit 141 adjusts the level so that each track is balanced.
  • the first adjustment unit 141 stores a plurality of model patterns for level adjustment, and when each track is input, selects one of the plurality of model patterns and uses each of them based on the selected pattern. You may also adjust the level of the track.
  • the first adjustment unit 141 has a model pattern that adjusts the roundness according to a predetermined standard, and one of a plurality of tracks is the other track without adjusting the loudness.
  • a plurality of model patterns such as a model pattern to be adjusted so as not to be drowned out are stored in advance.
  • the first adjustment unit 141 adjusts the level of each track based on the selected model pattern by selecting one of the plurality of model patterns by the user.
  • the first adjustment unit 141 When adjusting the equalizer, the first adjustment unit 141 first analyzes the frequency of the sound for each genre of the music in advance, and how to adjust the frequency of the sound of the input part, the music input as each part. Calculates whether it seems to be the genre to which the song belongs. As an example, when the genre of each part (musical piece) is "jazz", the first adjustment unit 141 determines how to adjust the sound frequency band of each part to make it look like "jazz". To calculate. As an example, the first adjustment unit 141 calculates the adjustment amount of the frequency suitable for the genre of each part (musical piece) by using a known method such as "Automatic evaluation of multi-channel audio using cross-adaptive methods". ..
  • the first adjustment unit 141 acquires the genre of those parts (jazz as an example), and the frequency distribution of the sound of each part becomes the frequency distribution analyzed in advance. Adjust the frequency distribution of the sound of each part so that it gets closer.
  • the genre information regarding the genre of each part (musical piece) may be included in the above-mentioned type information, or may be included in the sound data (track data) separately from the type information. Further, the genre information may be input to the mixing unit 14 based on the user operating the input device (not shown).
  • the first adjustment unit 141 has a reverberation effect on each part based on a learning model generated by using, for example, machine learning or deep learning, and each part (each track).
  • the control unit 11 may generate a learning model based on learning a plurality of sounds having reverberation, for example.
  • the control unit 11 may generate a learning model based on learning, for example, a sound having reverberation and a sound having no reverberation.
  • the server 100 outside the sound data processing device 1 may generate the learning model in the same manner as in the case of the control unit 11 described above. In this case, the first adjustment unit 141 acquires the learning model from the server 100 via the communication unit 17.
  • the first adjustment unit 141 makes the first adjustment when the size of the sound data (track data) (for example, recording time or sound collection time) is relatively long. There is a possibility that the processing capacity of the adjustment that adds the reverberation effect is exceeded by the unit 141.
  • the first adjusting unit 141 divides each part (each track) into predetermined time intervals, and a plurality of divided parts (divided tracks) for each part (track). To generate.
  • the first adjusting unit 141 may be divided so that the time-adjacent divided tracks have a time-overlapping portion.
  • the first adjustment unit 141 adds a reverberation effect to the divided part based on the divided part (divided track) and the learning model.
  • the first adjustment unit 141 recombines the divided parts to which the reverberation effect is added in chronological order.
  • noise for example, artifact noise (Artifact noise) or the like
  • the first adjusting unit 141 applies a triangle filter (Triangle Filter) between the divided parts (divided tracks) to be combined, and the divided parts (temporarily adjacent to each other). (Split tracks) are combined. That is, for example, the first adjusting unit 141 combines the overlapping portions of the adjacent divided parts by using a triangle filter so as not to cause a sense of discomfort to the user.
  • Triangle Filter Triangle Filter
  • the first adjusting unit 141 makes the weight of the join at the join position the heaviest, and the join thereof.
  • the weight of the bond is lightened continuously or stepwise as it moves away from the position.
  • the first adjustment unit 141 can suppress the connection of sounds between the divided parts from feeling unnatural to the user.
  • the first adjustment unit 141 acquires, for example, a model for performing compression in advance, and calculates compression adjustment parameters for each part using the model.
  • the first adjustment unit 141 cross-sectionally considers the harmonic and percussion parts for which compression adjustment is most desired, and calculates parameters using the model.
  • the model for example, a known model using "Intelligent Multitrack Dynamic Ramge Compression" or the like can be used.
  • the first adjustment unit 141 can obtain parameters such as threshold, attack, knee, and ratio when performing compression adjustment. More specifically, the first adjustment unit 141 calculates the threshold, attack, knee and ratio parameters based on the harmonic and percussion weights learned using the model.
  • the first adjustment unit 141 performs compression adjustment by applying the above-mentioned parameters as "weights" to the parts (tracks).
  • the second adjusting unit 142 adjusts to mix each part adjusted by the first adjusting unit 141.
  • the second adjusting unit 142 may perform left and right output balance adjustment (panning adjustment). That is, the first adjustment unit 141 described above performs each adjustment on a multi-track.
  • the second adjustment unit 142 mixes the multitracks adjusted by the first adjustment unit 141 into a single track.
  • the second adjustment unit 142 adjusts the left and right output balance (panning adjustment) when making a single track.
  • the second adjustment unit 142 adjusts the frequency band of each track so that each track can be heard clearly and as a stereo channel, for example.
  • the second adjustment unit 142 calculates a value for masking the sound of each track and a value for amplifying the sound of each track, and then adjusts the sound of each track based on the values to perform mixing.
  • the second adjustment unit 142 not only generates data for outputting two channels (stereo output), but also generates data for outputting another number of channels (for example, 5.1 channel, etc.). May be.
  • the output control unit 15 may control the sound data output from the mixing unit 14 so as to be output from the speaker unit 19. Alternatively, the output control unit 15 may control the sound data output from the mixing unit 14 so as to be stored in the storage unit 18. Alternatively, the output control unit 15 may control the communication unit 17 so as to transmit the sound data output from the mixing unit 14 to the server 100.
  • the speaker unit 19, the storage unit 18, and the communication unit 17 may be collectively referred to as an “output unit”.
  • FIG. 4 is a flowchart for explaining the sound data processing method according to the embodiment.
  • step ST101 the acquisition unit 12 acquires sound data (track data) in which a sound part (track) is recorded.
  • the acquisition unit 12 may acquire, for example, sound data generated by collecting sound by the microphone unit 16.
  • the acquisition unit 12 may acquire the sound data stored in the server 100 via, for example, the communication unit 17.
  • the removing unit 13 removes noise from the sound of each part based on the learning model for each part and the sound data (track data) acquired in step ST101.
  • the control unit 11 may generate a learning model by learning a sound containing noise.
  • the control unit 11 may generate a learning model by learning a sound containing noise and a sound containing no noise.
  • the server 100 and the learning model outside the sound data processing device 1 may be generated. In this case, the removal unit 13 acquires the learning model from the server 100 via the communication unit 17.
  • the size of the sound data may exceed the noise removal processing capacity of the removing unit 13 (for example, the processing capacity for removing noise based on the sound data and the learning model).
  • the removing unit 13 may divide each part (each track) into a plurality of parts to generate a divided part (divided track).
  • the removing unit 13 repeats the process of removing noise from the sound of the divided part based on the divided part (divided track) and the learning model. After that, the removing unit 13 combines a plurality of divided parts (divided tracks) from which noise has been removed so as to be continuous in time.
  • the removing unit 13 may use a triangle filter.
  • the removing unit 13 makes the weighting of the connection at the connection position of the temporally adjacent division parts (division track) the heaviest, and gradually weights the connection from the connection position as the distance from the connection position increases and decreases. It may be lightened.
  • the first adjustment unit 141 makes predetermined adjustments regarding sound to the sound data (track data) from which noise has been removed in step ST102.
  • the first adjustment unit 141 may make at least one of level adjustment, equalizer adjustment, reverberation effect adjustment, and compression (compressor) adjustment as a predetermined adjustment regarding sound with respect to sound data.
  • the first adjustment unit 141 makes each adjustment on a multi-track.
  • step ST104 the second adjusting unit 142 (mixing unit 14) performs panning adjustment. That is, the second adjustment unit 142 mixes each part and adjusts the left and right output balance (panning adjustment). The second adjustment unit 142 mixes the multitracks adjusted in step ST103 into a single track.
  • the output control unit 15 controls to output the single track data generated in step ST104.
  • the output control unit 15 may control the sound data output from the second adjustment unit 142 (mixing unit 14) to be output from the speaker unit 19.
  • the output control unit 15 may be controlled to store the sound data output from the second adjustment unit 142 (mixing unit 14) in the storage unit 18.
  • the output control unit 15 may control the communication unit 17 so as to transmit the sound data output from the second adjustment unit 142 (mixing unit 14) to the server 100.
  • the sound data processing device 1 has an acquisition unit 12 for acquiring sound data in which sound parts are recorded, a learning model for each part generated by learning a plurality of sounds in advance, and each part acquired by the acquisition unit 12.
  • a removing unit 13 that performs a process of removing noise for each part based on the sound data of the above, and a mixing unit 14 that mixes each part from which noise has been removed by the removing unit 13 are provided.
  • the removing unit 13 divides the sound data of each part into a plurality of parts, repeats a process of removing noise from the sound based on the learning model and the divided sound, and obtains a track from which noise has been removed. Combine so that they are continuous in time. As a result, the sound data processing device 1 can remove noise contained in the sound.
  • the removing unit 13 makes the weighting of the combination at the combined position of the divided sound data the heaviest, and combines them as they move away from the combined position in time.
  • the weighting of is gradually lighter than the coupling position.
  • the removing unit 13 may acquire a learning model generated based on learning sounds acquired at a plurality of different places having noise. As a result, the sound data processing device 1 can remove noise from the sound data by using, for example, deep learning.
  • the mixing unit 14 mixes the first adjustment unit 141 that makes predetermined adjustments regarding sound to the sound data of each part and each part that has been adjusted by the first adjustment unit 141.
  • a second adjusting unit 142 for adjusting the method may be provided.
  • the first adjustment unit 141 may make at least one of level adjustment, equalizer adjustment, reverberation effect adjustment, and compression adjustment as a predetermined adjustment regarding sound with respect to sound data.
  • the second adjusting unit 142 may adjust the left and right output balance.
  • a computer acquires sound data in which sound parts are recorded, a learning model for each part generated by learning a plurality of sounds in advance, and each part acquired by the acquisition step. Based on the sound data of the above, a removal step of performing a process of removing noise for each part and a mixing step of mixing each part from which noise has been removed by the removal step are executed.
  • the removal step divides the sound data of each part into a plurality of parts, repeats the process of removing noise from the sound based on the learning model and the divided sound, and time the track from which the noise has been removed. Combine so as to be continuous. As a result, the sound data processing method can remove noise contained in the sound.
  • the sound data processing program has an acquisition function for acquiring sound data in which sound parts are recorded on a computer, a learning model for each part generated by learning a plurality of sounds in advance, and each part acquired by the acquisition function.
  • a removal function that removes noise for each part based on the sound data of the above, and a mixing function that mixes each part from which noise has been removed by the removal function are realized.
  • the removal function divides the sound data of each part into multiple parts, repeats the process of removing noise from the sound based on the learning model and the divided sound, and time the track from which the noise has been removed. Combine so as to be continuous. As a result, the sound data processing program can remove noise contained in the sound.
  • Each part of the sound data processing device 1 described above may be realized as a function of a computer arithmetic processing device or the like. That is, the acquisition unit 12, the removal unit 13, the mixing unit 14 (first adjustment unit 141 and the first adjustment unit), and the output control unit 15 of the sound data processing device 1 have an acquisition function and a removal function by a computer arithmetic processing unit or the like. It may be realized as a mixing function (first adjustment function and first adjustment function) and an output control function, respectively.
  • the sound data processing program can realize each of the above-mentioned functions in a computer.
  • the sound data processing program may be recorded on a computer-readable non-temporary recording medium such as an external memory or an optical disk.
  • each part of the sound data processing device 1 may be realized by a computer arithmetic processing device or the like.
  • the arithmetic processing unit and the like are configured by, for example, an integrated circuit and the like. Therefore, each part of the sound data processing device 1 may be realized as a circuit constituting an arithmetic processing unit or the like. That is, the acquisition unit 12, the removal unit 13, the mixing unit 14 (first adjustment unit 141 and the first adjustment unit), and the output control unit 15 of the sound data processing device 1 are the acquisition circuit and the removal circuit constituting the arithmetic processing unit of the computer and the like. It may be realized as a circuit, a mixing circuit (first adjustment circuit and the first adjustment circuit), and an output control circuit.
  • the microphone unit 16, communication unit 17, storage unit 18, and speaker unit 19 of the sound data processing device 1 may be realized as, for example, a microphone function including functions such as an arithmetic processing device, a communication function, a storage function, and a speaker function. good. Further, the microphone unit 16, the communication unit 17, the storage unit 18, and the speaker unit 19 of the sound data processing device 1 are realized as a microphone circuit, a communication circuit, a storage circuit, and a speaker circuit by being configured by, for example, an integrated circuit or the like. You may.
  • the microphone unit 16, the communication unit 17, the storage unit 18, and the speaker unit 19 of the sound data processing device 1 are configured as a microphone device, a communication device, a storage device, and a speaker device by being composed of, for example, a plurality of devices. You may.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

音データ処理装置は音のパートを記録した音データを取得する取得部と、予め複数の音を学習して生成されたパート毎の学習モデルと、取得部によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去部と、除去部によってノイズが除去された各パートをミキシングするミキシング部と、を備え、除去部は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。

Description

音データ処理装置、音データ処理方法及び音データ処理プログラム
 本発明は、音データ処理装置、音データ処理方法及び音データ処理プログラムに関する。
 従来から、マイクロフォンで集音することにより生成される音データには、集音環境において生じる雑音が記録される場合がある。特許文献1には、音データに含まれる雑音を除去することが記載されている。
特開2017-134321号公報
 しかしながら、相対的に長い時間をかけて集音した音データは、データのサイズが相対的に大きくなり、雑音を除去するためのソフトウェア又は装置によっては、雑音を除去する処理に時間がかかり、又は、処理能力を超えるために音データから雑音を除去できない場合があった。
 本発明は、音に含まれる雑音を除去することが可能な音データ処理装置、音データ処理方法及び音データ処理プログラムを提供することを目的とする。
 一態様の音データ処理装置は音のパートを記録した音データを取得する取得部と、予め複数の音を学習して生成されたパート毎の学習モデルと、取得部によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去部と、除去部によってノイズが除去された各パートをミキシングするミキシング部と、を備え、除去部は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。
 一態様の音データ処理装置では、除去部は、分割された音を結合する場合に、分割後の音データの結合位置における結合の重み付けを最も重くし、結合位置から時間的な前後に離れるに従って結合の重み付けを結合位置よりも徐々に軽くすることとしてもよい。
 一態様の音データ処理装置では、除去部は、ノイズのある異なる複数の場所で取得された音を学習することに基づいて生成された学習モデルを取得することとしてもよい。
 一態様の音データ処理装置では、ミキシング部は、各パートの音データに対して音に関する所定の調整を施す第1調整部と、第1調整部によって調整が施された各パートをミキシングするよう調整する第2調整部と、を備えることとしてもよい。
 一態様の音データ処理装置では、第1調整部は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮調整のうち少なくとも1つの調整を行い、第2調整部は、左右の出力バランス調整することとしてもよい。
 一態様の音データ処理方法では、コンピュータが、音のパートを記録した音データを取得する取得ステップと、予め複数の音を学習して生成されたパート毎の学習モデルと、取得ステップによって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去ステップと、除去ステップによってノイズが除去された各パートをミキシングするミキシングステップと、を実行し、除去ステップは、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。
 一態様の音データ処理プログラムは、コンピュータに、音のパートを記録した音データを取得する取得機能と、予め複数の音を学習して生成されたパート毎の学習モデルと、取得機能によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去機能と、除去機能によってノイズが除去された各パートをミキシングするミキシング機能と、を実現させ、除去機能は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。
 一態様の音データ処理装置は、予め複数の音を学習して生成されたパート毎の学習モデルと、パート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行い、ノイズが除去された各パートをミキシングする。この場合、音データ処理装置は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。これにより、音データ処理装置は、音に含まれる雑音を除去することができる。
 また、一態様の音データ処理方法及び音データ処理プログラムは、一態様の音データ処理装置と同様の効果を奏することができる。
音データ処理装置について説明するための図である。 一実施形態に係る音データ処理装置について説明するためのブロック図である。 トライアングルフィルタの一例について説明するための図である。 一実施形態に係る音データ処理方法について説明するためのフローチャートである。
 以下、本発明の一実施形態について説明する。
 本明細書では、「情報」の文言を使用しているが、「情報」の文言は「データ」と言い換えることができ、「データ」の文言は「情報」と言い換えることができる。
 図1は、音データ処理装置1について説明するための図である。
 本実施形態の音データ処理装置1は、より簡単に楽曲を制作したいとの要望に基づき発明されたものである。音データ処理装置1、例えば、コンピュータ及びサーバ等の情報処理装置であってよい。
 音データ処理装置1は、音のパート(図1に例示する場合では、第1~3パート(複数のトラック))を記録した音データ(トラックデータ)を取得する。音のパートを記録した音データは、例えば、1又は複数の楽器毎に集音することにより生成された音データ(トラックデータ)、又は、1又は複数の音域(例えば、ソプラノ、アルト、テノール及びバス等)毎に集音することにより生成された音データ(トラックデータ)等である。音のパート(音データ)の数は、単数又は複数であってよい。音のパート(音データ)の数は、図1に例示する場合では3つのパート(第1~3パート)を記載するが、本発明はこの例示に限定されることはなく、2つ以下のパート数であってもよく、4つ以上のパート数であってもよい。すなわち、音データ処理装置1は、例えば、マルチトラック(又は、シングルトラック)の入力を受け付ける。
 音データ処理装置1は、深層学習等(一例として、Wave-U-net)を利用して予め音を学習した学習モデルと、音データとに基づいて、各パート(各トラック)からノイズを除去する。その後、音データ処理装置1は、ノイズが除去されたパート(トラック)それぞれに対して所定の調整(一例として、残響等の音に関連する調整)を加える。そして、音データ処理装置1は、ミキシングを行うことにより、マルチトラックをシングルトラックにして出力する。
 次に、音データ処理装置1について詳細に説明する。
 図2は、一実施形態に係る音データ処理装置1について説明するためのブロック図である。
 音データ処理装置1は、マイク部16、通信部17、記憶部18、スピーカ部19、取得部12、除去部(ノイズキャンセラ)13、ミキシング部(ミキサ)14及び出力制御部15を備える。取得部12、除去部13、ミキシング部14及び出力制御部15は、音データ処理装置1の制御部11(例えば、演算処理装置等)の一機能として実現されてもよい。
 マイク部16は、音及び音声を集音する装置である。
 通信部17は、音データ処理装置1の外部に配される装置(例えば、サーバ100等)との間でデータの送受信を行うことが可能な装置である。
 記憶部18は、種々のデータ及びプログラムを記憶することが可能な装置である。
 スピーカ部19は、音及び音声を出力する装置である。
 取得部12は、音のパート(トラック)を記録した音データ(トラックデータ)を取得する。
 取得部12は、マイク部16で集音されることにより生成された音データを取得することとしてもよい。又は、取得部12は、通信部17を介して、サーバ100に蓄積される音データを取得することとしてもよい。
 取得部12は、例えば、複数の楽器及びボーカルを利用して1つの楽曲を制作するために、複数の音データ(トラックデータ)を取得する。音データは、異なる場所で生成されてもよい。取得部12は、例えば、同一の楽曲について、部屋Aにおいてユーザが楽器Aを利用して演奏すること基づいて生成された音データAと、部屋Aとは異なる部屋Bにおいてユーザが楽器Bを利用して演奏することに基づいて生成された音データBとを取得することとしてもよい。
 なお、取得部12は、例えば、1つの音データ(トラックデータ)のみを取得することとしてもよい。取得部12は、1つの音データのみ取得する場合には、後述する第2調整部142は、ミキシングの処理を行わなくともよい。
 上述したように、音のパートを記録した音データは、例えば、1又は複数の楽器毎に集音することにより生成された音データ、又は、1又は複数の音域毎に集音することにより生成された音データ等である。具体的な音のパートの一例として、ギター、ボーカル、ドラム及びピアノ等のパートであってもよく、それらの例示を除く他の楽器のパートであってもよい。
 除去部13は、予め複数の音を学習して生成されたパート毎の学習モデルと、取得部12によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う。除去部13は、ノイズのある異なる複数の場所で取得された音を学習することに基づいて生成された学習モデルを取得することとしてもよい。
 ここで、例えば、制御部11は、予め複数の音を学習して生成されたパート毎の学習モデルを生成する。例えば、制御部11は、ノイズが含まれる音を学習することにより、学習モデルを生成する。また、例えば、制御部11は、ノイズが含まれる音と、ノイズが含まれない音とを学習することにより、学習モデルを生成してもよい。具体的な一例として、制御部11は、ノイズが含まれる音として、室内の空調及び人の話し声等のノイズが含まれる音を学習することとしてもよい。制御部11は、ノイズが含まれる音を学習する場合、上述した一例に限らず、他のノイズが含まれる音を学習することとしてもよい。
 制御部11は、パート毎(例えば、楽器及びボーカル毎)に少なくともノイズが含まれる音を学習することにより学習モデルを生成することとしてもよい。
 又は、学習モデルは、制御部11が生成するばかりでなく、音データ処理装置1の外部にあるサーバ100等によって生成されてもよい。この場合、除去部13は、通信部17を介して、サーバ100から学習モデルを取得する。
 除去部13は、具体的な一例として、Wave-U-net等の深層学習等を利用することにより、学習モデルと音データ(トラックデータ)とに基づいて、パート(トラック)それぞれからノイズを除去する。すなわち、除去部13は、マルチトラックの状態で、各パートからノイズを除去する。より具体的な一例として、除去部13は、Wave-U-netに音(波形)を入力することによりノイズを除去し、そのWave-U-netからノイズが除去された音(波形)を出力させる。
 ここで、パート(トラック)毎に学習モデルが生成されている場合には、除去部13は、音データ(トラックデータ)と、その音データに対応する学習モデルとに基づいて、パートからノイズを除去することとしてもよい。この場合、除去部13は、音データと共に、音データに記録される楽器又はボーカル等の種類の情報(種類情報)とが入力されることにより、種類情報に対応する楽器又はボーカルを学習した学習モデルを選択し、その音データと選択した学習モデルとに基づいて、パート(トラック)からノイズを除去することとしてもよい。種類情報は、例えば、音データに含まれていてもよく、又は、ユーザが入力装置等(図示せず)を操作することに基づいて除去部13に入力されてもよい。
 除去部13は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する。この場合、除去部13は、分割された音を結合する場合に、分割後の音データの結合位置における結合の重み付けを最も重くし、結合位置から時間的な前後に離れるに従って結合の重み付けを結合位置よりも徐々に軽くすることとしてもよい。
 取得部12によって取得される音データ(除去部13に入力される音データ)では、音データのサイズ(例えば、録音時間又は集音時間等)が相対的に長時間になる場合がある。録音時間又は集音時間等が相対的に長時間になる場合には、除去部13によってノイズを除去する際の処理能力を超える可能性がある。このため、除去部13は、例えば、各パート(各トラック)を所定時間毎に分割することとしてもよい。分割する時間及び分割のタイミングは、上述した所定時間毎に限定されず、除去部13のノイズ除去に関する処理能力等に応じて適宜設定されてもよい。すなわち、除去部13は、複数のパート(複数のトラック)それぞれを時間的に分割して、パート(トラック)毎に複数の分割パート(分割トラック)を生成する。この場合、例えば、除去部13は、時間的に隣接する分割トラックが時間的にオーバーラップする部分を有するように、分割することとしてもよい。除去部13は、分割パート(分割トラック)と、学習モデルとに基づいて、分割パートからノイズを除去する。
 その後、除去部13は、ノイズが除去された分割パートを、時間的な順に再度結合する。この際に、分割パート間(一方の分割パートと他方の分割パートとの間)で音の繋がりが不自然になる可能性がある。例えば、結合される分割パート間にノイズ(例えば、アーティファクトノイズ(Artifact noise)等)が入る可能性がある。人の会話(スピーチ)の場合には、分割パート間での音声の繋がりがユーザにとって不自然に感じない場合がある。一方、音楽の場合には、分割パート間での音の繋がりがユーザにとって不自然に感じる場合がある。このため、例えば、除去部13は、音データに音楽が記録されている場合に、分割パート間での音の繋がりがユーザにとって不自然に感じることを抑制するために、以下の処理を行うこととしてもよい。又は、例えば、除去部13は、音データに記録されている内容(音楽及び人の会話等)にかかわらず全ての場合に、分割パート間での音の繋がりがユーザにとって不自然に感じることを抑制するために、以下の処理を行うこととしてもよい。
 図3は、トライアングルフィルタの一例について説明するための図である。
 例えば、除去部13は、結合する分割パート(分割トラック)間にトライアングルフィルタ(Triangle Filter)を適用して、時間的に隣接する分割パート(分割トラック)同士を結合する。すなわち、例えば、除去部13は、隣接する分割パートのオーバーラップする部分を、トライアングルフィルタを利用してユーザが違和感を生じないように結合する。より具体的には、図3に例示するように、除去部13は、時間的に隣接する分割パート(一方の分割パート201及び他方の分割パート202)を結合する際に、結合位置203における結合の重み204を最も重くし、その結合位置203から離れるに従って連続的に又は段階的に結合の重み204を軽くする。これによい、除去部13は、重みの重さに応じて音を重畳させる割合が変えることができ、分割パート間での音の繋がりがユーザにとって不自然に感じることを抑制することが可能になる。
 ミキシング部14は、除去部13によってノイズが除去された各パートをミキシングする。具体的には、ミキシング部14は、第1調整部141及び第2調整部142を備えることとしてもよい。
 第1調整部141は、各パートの音データに対して音に関する所定の調整を施す。第1調整部141は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮(コンプレッサ)調整のうち少なくとも1つの調整を行うこととしてもよい。各調整については、以下で説明する。
 第1調整部141は、レベル調整を行う場合、各トラックのバランスが取れるようにレベルを調整する。例えば、第1調整部141は、レベル調整を行うモデルパターンを複数記憶しておき、各トラックが入力されると、複数のモデルパターンのうち1つを選択して、選択したパターンに基づいて各トラックのレベルを調整することとしてもよい。より具体的な一例として、第1調整部141は、予め決められた基準でラウンドネスの調整を行うモデルパターン、及び、ラウドネスは調整せずに、複数のトラックのいずれかのトラックが他のトラックでかき消されないように調整するモデルパターン等の複数のモデルパターンを予め記憶する。例えば、第1調整部141は、ユーザによって複数のモデルパターンのうち1つが選択されることにより、選択されたモデルパターンに基づいて各トラックのレベルを調整する。
 第1調整部141は、イコライザ調整を行う場合、まず、予め楽曲のジャンル毎に音の周波数解析を行い、入力されたパートの音についてどのように周波数調整すれば、各パートとして入力された楽曲がその楽曲の属するジャンルらしくなるのかを計算する。一例として、第1調整部141は、各パート(楽曲)のジャンルが「ジャズ」の場合には、各パートの音周波数帯域をどのように調整すれば「ジャズ」らしくなるのか、周波数の調整量を計算する。一例として、第1調整部141は、「Automatic equalization of multi-channel audio using cross-adaptive methods」等の公知の方法を利用して、各パート(楽曲)のジャンルにふさわしい周波数の調整量を計算する。
 この場合、例えば、第1調整は、予め、ジャズ、クラシック、ロック、フォーク及び声楽等の複数の音楽ジャンルの周波数分布解析を行う。次に、例えば、第1調整部141は、各パートが入力された場合、それらのパートのジャンル(一例として、ジャズ)を取得し、各パートの音の周波数分布が予め解析された周波数分布に近づくように、各パートの音の周波数分布を調整する。
 各パート(楽曲)のジャンルに関するジャンル情報は、上述した種類情報に含まれていてもよく、種類情報とは別に音データ(トラックデータ)に含まれていてもよい。また、ジャンル情報は、ユーザが入力装置(図示せず)を操作することに基づいて、ミキシング部14に入力されてもよい。
 第1調整部141は、残響効果調整を行う場合、例えば、機械学習又は深層学習等を利用することにより生成された学習モデルと、各パート(各トラック)とに基づいて、各パートに残響効果を加える。
 ここで、制御部11は、例えば、残響を有する音を複数学習することに基づいて、学習モデルを生成することとしてもよい。又は、制御部11は、例えば、残響を有する音と、残響を有しない音とを学習することに基づいて、学習モデルを生成することとしてもよい。
 又は、音データ処理装置1の外部にあるサーバ100が、上述した制御部11の場合と同様にして、学習モデルを生成することとしてもよい。この場合、第1調整部141は、通信部17を介してサーバ100から学習モデルを取得する。
 なお、第1調整部141は、残響効果調整を行う場合、音データ(トラックデータ)のサイズ(例えば、録音時間又は集音時間等)が相対的に長時間になる場合には、第1調整部141によって残響効果を加える調整の処理能力を超える可能性がある。この場合、上述した除去部13の場合と同様に、第1調整部141は、各パート(各トラック)を所定時間毎に分割して、パート(トラック)毎に複数の分割パート(分割トラック)を生成する。この場合、例えば、第1調整部141は、時間的に隣接する分割トラックが時間的にオーバーラップする部分を有するように、分割することとしてもよい。第1調整部141は、分割パート(分割トラック)と、学習モデルとに基づいて、分割パートに残響効果を加える。
 その後、第1調整部141は、残響効果が加えられた分割パートを、時間的な順に再度結合する。この際に、上述した除去部13の場合と同様に、結合される分割パート間にノイズ(例えば、アーティファクトノイズ(Artifact noise)等)が入る可能性がある。このため、第1調整部141は、上述した除去部13の場合と同様に、結合する分割パート(分割トラック)間にトライアングルフィルタ(Triangle Filter)を適用して、時間的に隣接する分割パート(分割トラック)同士を結合する。すなわち、例えば、第1調整部141は、隣接する分割パートのオーバーラップする部分を、トライアングルフィルタを利用してユーザが違和感を生じないように結合する。より具体的には、第1調整部141は、時間的に隣接する分割パート(一方の分割パート及び他方の分割パート)を結合する際に、結合位置における結合の重みを最も重くし、その結合位置から離れるに従って連続的に又は段階的に結合の重みを軽くする。これにより、第1調整部141は、分割パート間での音の繋がりがユーザにとって不自然に感じることを抑制することが可能になる。
 第1調整部141は、圧縮調整を行う場合、例えば、予め圧縮を行うためのモデルを取得し、そのモデルを利用して各パートに対する圧縮調整のパラメータを計算する。一例として、第1調整部141は、圧縮調整を最も行いたいハーモニック及びパーカッションの部分を横断的に考慮して、そのモデルを利用してパラメータを計算する。モデルは、例えば、「Intelligent Multitrack Dynamic Ramge Compression」等を利用した公知のモデルを利用することができる。第1調整部141は、そのモデルを利用することにより、圧縮調整を行う際のスレッショルド、アタック、ニー及びレシオ等のパラメータを得ることができる。より具体的には、第1調整部141は、モデルを利用して学習されたハーモニック及びパーカッションの重みに基づいて、スレッショルド、アタック、ニー及びレシオのパラメータを計算する。第1調整部141は、パート(トラック)に対して上述したパラメータを「重み」として適用することにより、圧縮調整を行う。
 第2調整部142は、第1調整部141によって調整が施された各パートをミキシングするよう調整する。第2調整部142は、左右の出力バランス調整(パニング調整)を行うこととしてもよい。
 すなわち、上述した第1調整部141はマルチトラックで各調整を行う。第2調整部142は、第1調整部141によって各調整が行われたマルチトラックをミキシングしてシングルトラックにする。第2調整部142は、シングルトラックにする際、左右の出力バランスの調整(パニング調整)を行う。第2調整部142は、パニング調整を行う場合、例えば、各トラックが明確に聴こえるように、及び、ステレオチャンネルとして聴こえるように、各トラックの周波数帯を調整する。一例として、第2調整部142は、各トラックの音をマスキングする値及び各トラックの音を増幅する値を計算した後、その値に基づいて各トラックの音を調整してミキシングを行う。
 なお、第2調整部142は、2チャンネルの出力(ステレオ出力)を行うデータを生成するばかりでなく、他のチャンネル数(一例として、5.1チャンネル等)の出力を行うデータを生成することとしてもよい。
 出力制御部15は、ミキシング部14から出力される音データをスピーカ部19から出力するように制御することとしてもよい。又は、出力制御部15は、ミキシング部14から出力される音データを記憶部18に記憶するように制御することとしてもよい。又は、出力制御部15は、ミキシング部14から出力される音データをサーバ100に送信するよう通信部17を制御することとしてもよい。スピーカ部19、記憶部18及び通信部17は、まとめて「出力部」と言い換えてもよい。
 次に、一実施形態に係る音データ処理方法について説明する。
 図4は、一実施形態に係る音データ処理方法について説明するためのフローチャートである。
 ステップST101において、取得部12は、音のパート(トラック)を記録した音データ(トラックデータ)を取得する。取得部12は、例えば、マイク部16で集音されることにより生成された音データを取得することとしてもよい。又は、取得部12は、例えば、通信部17を介して、サーバ100に蓄積される音データを取得することとしてもよい。
 ステップST102において、除去部13は、パート毎の学習モデルと、ステップST101で取得された音データ(トラックデータ)とに基づいて、それぞれのパートの音からノイズを除去する。
 ここで、例えば、制御部11は、ノイズが含まれる音を学習することにより、学習モデルを生成することとしてもよい。又は、例えば、制御部11は、ノイズが含まれる音と、ノイズが含まれない音とを学習することにより、学習モデルを生成してもよい。
 又は、制御部11の代わりに、音データ処理装置1の外部にあるサーバ100、学習モデルを生成することとしてもよい。この場合、除去部13は、通信部17を介して、サーバ100から学習モデルを取得する。
 ここで、音データ(トラックデータ)のサイズが除去部13のノイズ除去の処理能力(例えば、音データと学習モデルとに基づいて、ノイズを除去する際の処理能力等)を越える可能性がある場合、除去部13は、各パート(各トラック)それぞれを複数に分割して、分割パート(分割トラック)を生成することとしてもよい。除去部13は、分割パート(分割トラック)と、学習モデルとに基づいて、分割パートの音からノイズを除去する処理を繰り返す。その後、除去部13は、ノイズが除去された複数の分割パート(分割トラック)を時間的に連続するように結合する。この場合、除去部13は、トライアングルフィルタを利用することとしてもよい。すなわち、除去部13は、時間的に隣接する分割パート(分割トラック)の結合位置における結合の重み付けを最も重くし、結合位置から時間的な前後に離れるに従って結合の重み付けを結合位置よりも徐々に軽くすることとしてもよい。
 ステップST103において、第1調整部141(ミキシング部14)は、ステップST102でノイズが除去された音データ(トラックデータ)に対して、音に関する所定の調整を施す。第1調整部141は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮(コンプレッサ)調整のうち少なくとも1つの調整を行うこととしてもよい。第1調整部141は、マルチトラックで各調整を行う。
 ステップST104において、第2調整部142(ミキシング部14)は、パニング調整を行う。
すなわち、第2調整部142は、各パートをミキシングすると共に、左右の出力バランス調整(パニング調整)を行う。第2調整部142は、ステップST103で各調整が行われたマルチトラックをミキシングしてシングルトラックにする。
 ステップST105において、出力制御部15は、ステップST104で生成されるシングルトラックのデータを出力するよう制御する。例えば、出力制御部15は、第2調整部142(ミキシング部14)から出力される音データをスピーカ部19から出力するように制御することとしてもよい。又は、例えば、出力制御部15は、第2調整部142(ミキシング部14)から出力される音データを記憶部18に記憶するように制御することとしてもよい。又は、例えば、出力制御部15は、第2調整部142(ミキシング部14)から出力される音データをサーバ100に送信するよう通信部17を制御することとしてもよい。
 次に、本実施形態の効果について説明する。
 音データ処理装置1は、音のパートを記録した音データを取得する取得部12と、予め複数の音を学習して生成されたパート毎の学習モデルと、取得部12によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去部13と、除去部13によってノイズが除去された各パートをミキシングするミキシング部14と、を備える。この場合、除去部13は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去されたトラックを時間的に連続するように結合する。
 これにより、音データ処理装置1は、音に含まれる雑音を除去することができる。
 音データ処理装置1では、除去部13は、分割された音を結合する場合に、分割後の音データの結合位置における結合の重み付けを最も重くし、結合位置から時間的な前後に離れるに従って結合の重み付けを結合位置よりも徐々に軽くすることとしてもよい。
 これにより、音データ処理装置1は、除去部13によるノイズ除去の処理能力を超えるサイズの音データが入力される可能性があっても、音データを分割することによりノイズを除去することができる。
 音データ処理装置1では、除去部13は、ノイズのある異なる複数の場所で取得された音を学習することに基づいて生成された学習モデルを取得することとしてもよい。
 これにより、音データ処理装置1は、例えば、深層学習等を利用して、音データからノイズを除去することができる。
 音データ処理装置1では、ミキシング部14は、各パートの音データに対して音に関する所定の調整を施す第1調整部141と、第1調整部141によって調整が施された各パートをミキシングするよう調整する第2調整部142と、を備えることとしてもよい。
 これにより、音データ処理装置1は、ノイズが除去された音に対して音に関する所定の調整を行うことにより、容易に楽曲を作成することができる。
 音データ処理装置1では、第1調整部141は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮調整のうち少なくとも1つの調整を行うこととしてもよい。第2調整部142は、左右の出力バランス調整することとしてもよい。
 これにより、音データ処理装置1は、楽曲の制作に必要な音に関する調整を行うことができるので、楽曲制作に関するユーザの利便性を向上できる。
 音データ処理方法では、コンピュータが、音のパートを記録した音データを取得する取得ステップと、予め複数の音を学習して生成されたパート毎の学習モデルと、取得ステップによって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去ステップと、除去ステップによってノイズが除去された各パートをミキシングするミキシングステップと、を実行する。この場合、除去ステップは、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去されたトラックを時間的に連続するように結合する。
 これにより、音データ処理方法は、音に含まれる雑音を除去することができる。
 音データ処理プログラムは、コンピュータに、音のパートを記録した音データを取得する取得機能と、予め複数の音を学習して生成されたパート毎の学習モデルと、取得機能によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去機能と、除去機能によってノイズが除去された各パートをミキシングするミキシング機能と、を実現させる。この場合、除去機能は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去されたトラックを時間的に連続するように結合する。
 これにより、音データ処理プログラムは、音に含まれる雑音を除去することができる。
 上述した音データ処理装置1の各部は、コンピュータの演算処理装置等の機能として実現されてもよい。すなわち、音データ処理装置1の取得部12、除去部13、ミキシング部14(第1調整部141及び第調整部)並びに出力制御部15は、コンピュータの演算処理装置等による取得機能、除去機能、ミキシング機能(第1調整機能及び第調整機能)並びに出力制御機能としてそれぞれ実現されてもよい。
 音データ処理プログラムは、上述した各機能をコンピュータに実現させることができる。音データ処理プログラムは、外部メモリ又は光ディスク等の、コンピュータで読み取り可能な非一時的な記録媒体に記録されていてもよい。
 また、上述したように、音データ処理装置1の各部は、コンピュータの演算処理装置等で実現されてもよい。その演算処理装置等は、例えば、集積回路等によって構成される。このため、音データ処理装置1の各部は、演算処理装置等を構成する回路として実現されてもよい。すなわち、音データ処理装置1の取得部12、除去部13、ミキシング部14(第1調整部141及び第調整部)並びに出力制御部15は、コンピュータの演算処理装置等を構成する取得回路、除去回路、ミキシング回路(第1調整回路及び第調整回路)並びに出力制御回路として実現されてもよい。
 また、音データ処理装置1のマイク部16、通信部17、記憶部18及びスピーカ部19は、例えば、演算処理装置等の機能を含むマイク機能、通信機能、記憶機能及びスピーカ機能として実現されもよい。また、音データ処理装置1のマイク部16、通信部17、記憶部18及びスピーカ部19は、例えば、集積回路等によって構成されることによりマイク回路、通信回路、記憶回路及びスピーカ回路として実現されてもよい。また、音データ処理装置1のマイク部16、通信部17、記憶部18及びスピーカ部19は、例えば、複数のデバイスによって構成されることによりマイク装置、通信装置、記憶装置及びスピーカ装置として構成されてもよい。
1 音データ処理装置
11 制御部
12 取得部
13 除去部
14 ミキシング部
141 第1調整部
142 第2調整部
15 出力制御部

Claims (7)

  1.  音のパートを記録した音データを取得する取得部と、
     予め複数の音を学習して生成されたパート毎の学習モデルと、前記取得部によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去部と、
     前記除去部によってノイズが除去された各パートをミキシングするミキシング部と、を備え、
     前記除去部は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する
    音データ処理装置。
  2.  前記除去部は、分割された音を結合する場合に、分割後の音データの結合位置における結合の重み付けを最も重くし、前記結合位置から時間的な前後に離れるに従って結合の重み付けを前記結合位置よりも徐々に軽くする
    請求項1に記載の音データ処理装置。
  3.  前記除去部は、ノイズのある異なる複数の場所で取得された音を学習することに基づいて生成された学習モデルを取得する
    請求項1又は2に記載の音データ処理装置。
  4.  前記ミキシング部は、
     各パートの音データに対して音に関する所定の調整を施す第1調整部と、
     第1調整部によって調整が施された各パートをミキシングするよう調整する第2調整部と、
    を備える請求項1~3のいずれか1項に記載の音データ処理装置。
  5.  前記第1調整部は、音データに対する音に関する所定の調整として、レベル調整、イコライザ調整、残響効果調整及び圧縮調整のうち少なくとも1つの調整を行い、
     第2調整部は、左右の出力バランス調整を行う
    請求項4に記載の音データ処理装置。
  6.  コンピュータが、
     音のパートを記録した音データを取得する取得ステップと、
     予め複数の音を学習して生成されたパート毎の学習モデルと、前記取得ステップによって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去ステップと、
     前記除去ステップによってノイズが除去された各パートをミキシングするミキシングステップと、を実行し、
     前記除去ステップは、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する
    音データ処理方法。
  7.  コンピュータに、
     音のパートを記録した音データを取得する取得機能と、
     予め複数の音を学習して生成されたパート毎の学習モデルと、前記取得機能によって取得されたパート毎の音データとに基づいて、パートそれぞれについてノイズを除去する処理を行う除去機能と、
     前記除去機能によってノイズが除去された各パートをミキシングするミキシング機能と、を実現させ、
     前記除去機能は、各パートの音データを複数に分割し、学習モデルと、分割後の音とに基づいて、その音からノイズを除去する処理を繰り返し、ノイズが除去された分割された音データを時間的に連続するように結合する
    音データ処理プログラム。
PCT/JP2020/028476 2020-07-22 2020-07-22 音データ処理装置、音データ処理方法及び音データ処理プログラム WO2022018864A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021531432A JP7160264B2 (ja) 2020-07-22 2020-07-22 音データ処理装置、音データ処理方法及び音データ処理プログラム
PCT/JP2020/028476 WO2022018864A1 (ja) 2020-07-22 2020-07-22 音データ処理装置、音データ処理方法及び音データ処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/028476 WO2022018864A1 (ja) 2020-07-22 2020-07-22 音データ処理装置、音データ処理方法及び音データ処理プログラム

Publications (1)

Publication Number Publication Date
WO2022018864A1 true WO2022018864A1 (ja) 2022-01-27

Family

ID=79729354

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/028476 WO2022018864A1 (ja) 2020-07-22 2020-07-22 音データ処理装置、音データ処理方法及び音データ処理プログラム

Country Status (2)

Country Link
JP (1) JP7160264B2 (ja)
WO (1) WO2022018864A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010249940A (ja) * 2009-04-13 2010-11-04 Sony Corp ノイズ低減装置、ノイズ低減方法
WO2013051084A1 (ja) * 2011-10-03 2013-04-11 パイオニア株式会社 記録装置、記録方法、及び記録制御用のコンピュータプログラム、並びに再生装置、再生方法、及び再生制御用のコンピュータプログラム
JP2020034624A (ja) * 2018-08-27 2020-03-05 株式会社東芝 信号生成装置、信号生成システム、信号生成方法およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305774B (zh) * 2016-04-22 2020-11-03 腾讯科技(深圳)有限公司 语音检测方法和装置
CN108615535B (zh) * 2018-05-07 2020-08-11 腾讯科技(深圳)有限公司 语音增强方法、装置、智能语音设备和计算机设备
CN111354367B (zh) * 2018-12-24 2023-06-23 中国移动通信有限公司研究院 一种语音处理方法、装置及计算机存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010249940A (ja) * 2009-04-13 2010-11-04 Sony Corp ノイズ低減装置、ノイズ低減方法
WO2013051084A1 (ja) * 2011-10-03 2013-04-11 パイオニア株式会社 記録装置、記録方法、及び記録制御用のコンピュータプログラム、並びに再生装置、再生方法、及び再生制御用のコンピュータプログラム
JP2020034624A (ja) * 2018-08-27 2020-03-05 株式会社東芝 信号生成装置、信号生成システム、信号生成方法およびプログラム

Also Published As

Publication number Publication date
JPWO2022018864A1 (ja) 2022-01-27
JP7160264B2 (ja) 2022-10-25

Similar Documents

Publication Publication Date Title
US10623879B2 (en) Method of editing audio signals using separated objects and associated apparatus
CN101361123B (zh) 声音处理装置和声音处理方法
KR20150131268A (ko) 다수의 오디오 스템들로부터의 자동 다-채널 뮤직 믹스
JP2009524104A (ja) 信号デコーディング方法及び装置
WO2008065731A1 (fr) Processeur audio et procédé de traitement audio
CN106796792A (zh) 用于增强音频信号的装置和方法、声音增强系统
CN103650538B (zh) 用于使用采用谱权重生成器的频域处理分解立体声录音的方法和装置
US20220386062A1 (en) Stereophonic audio rearrangement based on decomposed tracks
CN114067827A (zh) 一种音频处理方法、装置及存储介质
US8913760B2 (en) Sound reproducing device, reproduced sound adjustment method, acoustic characteristic adjustment device, acoustic characteristic adjustment method, and computer program
CN111724757A (zh) 一种音频数据处理方法及相关产品
WO2022018864A1 (ja) 音データ処理装置、音データ処理方法及び音データ処理プログラム
US7834261B2 (en) Music composition reproducing device and music composition reproducing method
JP4392040B2 (ja) 音響信号処理装置、音響信号処理方法、音響信号処理プログラムおよびコンピュータに読み取り可能な記録媒体
JP5598722B2 (ja) 音声再生装置、音声再生装置における再生音調整方法
Reiss An intelligent systems approach to mixing multitrack audio
Moralis Live popular Electronic music ‘performable recordings’
JP5588129B2 (ja) 同期再生装置、同期再生方法および同期再生プログラム
Matsakis Mastering Object-Based Music with an Emphasis on Philosophy and Proper Techniques for Streaming Platforms
JP7487060B2 (ja) 音響装置および音響制御方法
JP6810773B2 (ja) 再生装置、再生方法、及び、プログラム
Morrell et al. Auditory cues for gestural control of multi-track audio
Salas Camilo D Salas, Basics of Music Production (Audio Workshop for visually impaired musicians)
Exarchos et al. Audio processing
Brandberg Is there a correlation between the natural reverberation in a critical listening environment and adjustments of an artificial reverb?

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2021531432

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20946264

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20946264

Country of ref document: EP

Kind code of ref document: A1