WO2013018397A1 - 歌詞出力データ修正装置,及びプログラム - Google Patents

歌詞出力データ修正装置,及びプログラム Download PDF

Info

Publication number
WO2013018397A1
WO2013018397A1 PCT/JP2012/058542 JP2012058542W WO2013018397A1 WO 2013018397 A1 WO2013018397 A1 WO 2013018397A1 JP 2012058542 W JP2012058542 W JP 2012058542W WO 2013018397 A1 WO2013018397 A1 WO 2013018397A1
Authority
WO
WIPO (PCT)
Prior art keywords
output
lyrics
sound
timing
musical
Prior art date
Application number
PCT/JP2012/058542
Other languages
English (en)
French (fr)
Inventor
久美 太田
Original Assignee
ブラザー工業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ブラザー工業株式会社 filed Critical ブラザー工業株式会社
Publication of WO2013018397A1 publication Critical patent/WO2013018397A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings

Definitions

  • the present invention relates to a lyrics output data correction device and a program for correcting the output timing of lyrics defined in association with musical score data so as to be synchronized with music data.
  • a discriminator (a so-called discriminating model) generated in advance by machine learning by extracting a pre-defined feature quantity from a signal (hereinafter referred to as a vocal signal) corresponding to a vocal voice included in a music acoustic signal. ) To identify each phoneme of the vocal speech. Further, in this type of system, each of the specified phonemes and each character constituting the lyrics are sequentially associated with each other along the time axis.
  • Patent Document 1 has a problem that the total amount of processing required to specify the time in the music acoustic signal to which the characters constituting the lyrics should be associated becomes enormous.
  • an object of the present invention is to associate the characters constituting the lyrics with the time in the music acoustic signal corresponding to the characters by a simpler method.
  • the musical sound transition acquisition means acquires a musical sound transition waveform in which the sound pressure of the musical sound constituting the target music has changed along the time axis, and outputs it.
  • the sound transition acquisition means represents the musical score of the musical piece simulating the target musical piece, and for each output sound output from the sound source module, the sound of the output sound is based on musical score data in which at least the pitch and the performance start timing are defined.
  • An output sound transition waveform in which the pressure has shifted along the time axis is acquired.
  • the lyrics output data acquisition means is data defining the lyrics output timing, which is the output timing of the lyrics constituent characters constituting the lyrics of the target song, and the lyrics output timing for at least one of the lyrics constituent characters is the score data
  • the lyrics output data associated with the specific start timing which is at least one timing defined for the above is acquired.
  • the time deviation amount derivation means is extracted from the musical sound information indicating the characteristics of the musical sound transition waveform extracted from the musical sound transition waveform acquired by the musical sound transition acquisition means and the output sound transition waveform acquired by the output sound transition acquisition means. Based on the result of comparison with the output sound information representing the characteristics of the output sound transition waveform, the amount of time deviation representing the amount of deviation of the performance start timing of the musical sound corresponding to each output sound with respect to the performance start timing of each output sound Is derived.
  • the timing correction means corrects the lyrics output timing in the lyrics output data acquired by the lyrics output data acquisition means according to the time deviation amount derived by the time deviation amount deriving means so as to coincide with the musical performance start timing. Specify the timing of the revised lyrics output.
  • the lyrics output timing in the lyrics output data can be corrected to match the performance start timing of the musical sound constituting the target music along the time axis.
  • the lyrics output data correction device of the present invention it is not necessary to execute any speech recognition processing when correcting the lyrics output timing (that is, defining the corrected lyrics output timing). Therefore, according to the lyrics output data correction device of the present invention, the total processing required to specify the musical performance start timing (that is, the time in the musical sound transition waveform (musical sound signal)) to which the lyrics constituent characters should be associated. The amount can be reduced as compared with the apparatus described in Patent Document 1.
  • the music composition corresponding to the lyrics constituent characters is played back in a simpler manner (i.e., the musical sound transition waveform (music acoustic signal)). Time).
  • the lyrics output data corrected by the lyrics output data correction device of the present invention is delivered to an apparatus not equipped with a sound module along with lyrics telop data representing individual lyrics constituent characters and music acoustic data. To do. At this time, if the device outputs the lyrics constituent characters in time synchronization with the musical sound in the music sound data in conjunction with the reproduction of the music sound data, the device can also enjoy karaoke.
  • the tone transition waveform referred to here includes, for example, a sampled (sampled) analog waveform in which the sound pressures of all the tone sounds constituting the target music have shifted along the time axis.
  • the output sound transition waveform here includes an audio signal generated by rendering data representing a musical piece simulating the target musical piece in the MIDI format.
  • the lyric constituent characters referred to here may be each of the characters constituting the lyric, or may be a phrase or a phrase in which each of the characters is grouped according to a specific rule.
  • the musical sound change derivation means extracts a musical tone non-harmonic that is a non-harmonic component of the musical tone transition waveform from the musical tone transition waveform, and follows the time axis.
  • the tone change representing the change in tone non-harmonic is derived as tone information
  • the output tone change deriving means derives the output tone non-harmonic, which is a non-harmonic component of the output tone transition waveform, from the output tone transition waveform.
  • An output sound change representing the change of the output sound inharmonic along the time axis is extracted as output sound information.
  • the time correlation deriving means sets the time correlation value indicating the correlation value between the musical sound change and the output sound change to the reference position defined on the musical sound change time axis on the time base of the output sound change.
  • the time derived by the time correlation deriving means is derived every time the output sound change is expanded or contracted along the time axis by matching the set position, and the set position is sequentially changed along the time axis within the specified range.
  • the time correction amount deriving means derives the expansion / contraction rate and the set position of the output sound change corresponding to the time correlation value having the maximum value as a time correction amount (time shift amount). ).
  • inharmonic components included in musical tone transitions and output sound transitions are often instrumental sounds of musical instruments (for example, drums and basses) that rhythm.
  • the instrument sound of the instrument that engraves this rhythm can be detected more reliably than other instrument sounds. For this reason, the amount of time deviation derived by the lyrics output data correction device of the present invention can more reliably match the performance start timing of each output sound in the score data with the performance start timing of the musical sound. It will be a thing.
  • the corrected lyrics output timing can be surely matched with the musical performance start timing.
  • the pitch correction amount deriving means converts the pitch of the output sound to the output sound based on the result of comparing one piece of musical sound information with one piece of output sound information.
  • the pitch correction amount is derived so as to match the pitch of the corresponding musical sound
  • the score data correction means derives the pitch of each output sound specified in the score data by the pitch correction amount derivation means.
  • Modified score data in which the score data is corrected may be generated by shifting according to the high correction amount.
  • the time deviation amount derivation means may use the corrected sound transition waveform, which is the output sound transition waveform based on the modified musical score data, as the output sound transition waveform acquired by the output sound transition acquisition means (claim 3).
  • the lyrics output data correction device since the output sound transition waveform acquired by the output sound transition acquisition means becomes the correction sound transition waveform, the pitch deviation between the musical sound transition waveform is suppressed to a minimum, The accuracy of deriving the amount of time deviation can be improved. As a result, according to the lyrics output data correction device of the present invention, the corrected lyrics output timing can be surely matched with the tone output timing.
  • the tone distribution deriving unit represents the frequency included in the tone transition waveform and the strength of each frequency, and normalized the strength of the frequency.
  • the tone pitch distribution is derived as one piece of tone information
  • the output tone distribution deriving means represents the frequency included in the output tone transition waveform and the strength of each frequency, and the output tone normalized with respect to the strength of the frequency.
  • the pitch distribution is derived as one of the output sound information
  • the pitch correlation deriving means determines the pitch correlation value representing the correlation value between the output pitch distribution and the musical tone pitch distribution as the musical pitch distribution.
  • the output pitch distribution may be derived from the specified position every time the output pitch distribution is shifted along the frequency axis.
  • the pitch correction amount deriving unit is arranged along the frequency axis from the specified position corresponding to the pitch correlation value having the maximum value among the pitch correlation values derived by the pitch correlation deriving unit.
  • the shift amount may be derived as a pitch correction amount.
  • the ratio of the frequency and the strength of each frequency included in the corrected output sound transition waveform is changed to the frequency and each frequency included in the musical sound transition waveform.
  • the strength ratio can be more closely approximated.
  • the musical tone pitch distribution and the output pitch distribution derived by the lyrics output data correction device of the present invention are the frequency included in the tone transition waveform and the output tone transition waveform, and the strength of the frequency. Has been normalized. Therefore, according to the lyrics output data correction device of the present invention, even if the amplitude of the tone transition waveform and the amplitude of the output tone transition waveform are greatly different from each other, the output transition waveform based on the corrected score data is converted into the tone transition waveform. Can be approached.
  • the lyrics output data may have the lyrics output timing defined by the elapsed time from the specific start timing for at least some of the lyrics constituent characters.
  • the associating means may specify the corrected lyrics output timing for at least the lyrics output timing of the lyrics constituent characters whose lyrics output timing is specified by the elapsed time ( Claim 5).
  • a lyrics output data correction device it is possible to specify the corrected lyrics output timing even for the lyrics output data in which the lyrics output timing is specified by the elapsed time from one lyrics constituent character.
  • the definition of the lyrics output timing of the lyrics constituent characters whose lyrics output timing is specified by the elapsed time is that the lyrics output timing of each lyrics constituent character is associated with the performance start timing of the output sound corresponding to the lyrics constituent character. In addition, it may be performed without performing the association. As a specific method of this association, a section where the tempo is constant in the target music is specified, and the performance start timing of the output sound included in the score data is included in the lyrics output data for the same section where the tempo is constant It may be associated with the lyrics output timing of the lyrics constituent characters.
  • the musical score data is generated in advance as data of the MIDI (Music Instrument Digital Interface) standard
  • MIDI Music Instrument Digital Interface
  • the musical score data has the performance start timing of at least some of the output sounds defined as the specific start timing
  • the lyrics output data has the lyrics composition timing at the lyrics output timing of each of the lyrics constituent characters.
  • the performance start timing of the output sound corresponding to the character may be associated.
  • the timing correction means in the present invention may define the corrected lyrics output timing for each of the lyrics constituent characters. According to such a lyric output data correction device, it is possible to generate lyric output data in which the lyric output timing of each lyric constituent character is associated with the performance start timing of the output sound corresponding to the lyric constituent character.
  • the performance start timing correction means derives a modified performance start timing obtained by shifting the performance start timing of the output sound by a time shift amount, and the timing correction means corrects the performance start timing correction means derived by the performance start timing correction means.
  • the performance start timing may be the corrected lyrics output timing.
  • the performance start timing correction means derives a corrected performance start timing obtained by shifting the performance start timing of the output sound by a time shift amount, and the timing correction means performs the correction performance start timing and the performance of the output sound.
  • the corrected lyrics output timing may be defined by shifting the difference from the start timing and the lyrics output timing (claim 8).
  • the corrected lyrics output timing can be defined by shifting the difference between the corrected performance start timing and the performance start timing of the output sound, and the lyrics output timing. According to such a lyrics output data correction device, the corrected lyrics output timing can be replaced with the corrected performance start timing.
  • the performance start timing correction means derives a corrected performance start timing obtained by shifting the performance start timing of the output sound by a time shift amount, and the timing correction means performs the correction performance start timing and the performance of the output sound.
  • the corrected lyrics output timing may be defined by shifting the difference from the start timing and the lyrics output timing (claim 9).
  • the corrected lyrics output timing can be defined by shifting the difference between the corrected performance start timing and the performance start timing of the output sound, and the lyrics output timing.
  • the present invention may be a tangible storage medium that stores a program for causing a computer to function as a lyrics output data correction device.
  • the program acquires a musical sound transition waveform in which the sound pressure of the musical sound constituting the target music changes along the time axis in the musical sound transition acquisition procedure. Then, in the output sound transition acquisition procedure, represents the music score of the music simulating the target music, and for each output sound output from the sound source module, based on the music score data in which at least the pitch and the performance start timing are defined, An output sound transition waveform in which the sound pressure of the output sound has shifted along the time axis is acquired.
  • the data is for defining the lyrics output timing, which is the output timing of the lyrics constituent characters constituting the lyrics of the target music, and the lyrics output timing for at least one of the lyrics constituent characters is a score.
  • the lyrics output data associated with the specific start timing which is at least one timing defined for the data is acquired.
  • the musical sound information representing the characteristics of the musical sound transition waveform extracted from the musical sound transition waveform and the output sound information representing the characteristics of the output sound transition waveform extracted from the output sound transition waveform are compared. Based on the result, a time deviation representing the deviation of the performance start timing of the musical sound corresponding to each output sound with respect to the performance start timing of each output sound is derived, and the musical performance start timing is determined by the timing correction procedure.
  • a corrected lyrics output timing obtained by correcting the lyrics output timing in the lyrics output data acquired in the lyrics output data acquisition procedure according to the time shift amount derived in the time shift amount derivation procedure is defined so as to match (claim 10).
  • the program of the present invention can be recorded on a computer-readable recording medium such as a DVD-ROM, CD-ROM, hard disk, etc. If necessary, it can be used by being acquired and activated by a computer via a communication line. And by making a computer perform each procedure, the computer can be functioned as a lyrics output data correction apparatus described in Claim 1.
  • FIG. 1 is a block diagram showing a schematic configuration of a music data distribution system including a lyrics output data correction device to which the present invention is applied.
  • the music data distribution system 1 includes a music data storage server 3 that stores music data MD including lyrics output data DO, and an information processing device 20 that performs processing on the music data MD stored in the music data storage server 3. And at least one portable terminal 5A to 5n to which music data MD processed by the information processing apparatus 20 is distributed.
  • the aforementioned n represents a natural number of 1 or more that represents the number of mobile terminals.
  • the music data storage server 3 is a device that functions as a database for storing the music data MD1 to MDm.
  • the above m represents a natural number of 1 or more representing the number of music data.
  • the music data MD in the present embodiment includes music acoustic data DW, music MIDI data DM, and lyrics data DL.
  • the music acoustic data DW is a musical tone transition waveform in which the sound pressures of all musical sounds constituting a single musical piece, which are indicated by a specific musical piece, are changed along the time axis, that is, an analog waveform as sampled data.
  • an audio file in WAV or MP3 format prepared in advance for each music piece.
  • the music MIDI data DM is data representing a music score of a music simulating a specific music corresponding to the music score data of the present invention according to the MIDI standard indicated by the Musical Instrument Digital Interface, and is prepared in advance for each music. .
  • Each of the music MIDI data DM is obtained by dividing the music such as identification data which is data for distinguishing music, a music track representing a music score for each instrument used in the music, and A melody or chorus, for example. And at least tempo data representing the tempo in each section.
  • the musical score track defines at least the pitch indicated by the so-called note number and the period during which the sound source module indicated by the note length outputs the output sound for each output sound output from the MIDI sound source.
  • the note length of the score track is indicated by the note-on timing, the performance start timing indicating the time from the performance start of the music until the output of the output sound is started, and the output indicated by the note-off timing. It is defined by the performance end timing representing the time from the start of the performance of the music until the output of the sound is completed.
  • a musical score track is prepared for each instrument such as a keyboard instrument such as a piano, a stringed instrument such as a violin, a percussion instrument such as a drum, and a wind instrument such as a trumpet.
  • the lyric data DL is data relating to lyrics displayed on a display device that constitutes a well-known karaoke device, and includes lyrics telop data DT representing characters (hereinafter, lyric constituent characters) constituting the lyrics of the specific music, and lyrics constituent characters.
  • Lyric output data DO in which a timing correspondence relationship for associating the lyric output timing with the performance of the music MIDI data DM is defined.
  • the timing correspondence relationship in the present embodiment is that the timing for starting the output of the lyrics telop data DT is associated with the timing for starting the performance of the music MIDI data DM, which means the specific start timing.
  • the lyrics output timing of each lyrics constituent character along the time axis of the target song is defined by the elapsed time from the start of the performance of the song MIDI data DM.
  • the elapsed time referred to here is, for example, a time representing the timing of executing color change of the displayed lyrics constituent characters, and is defined by the color change speed.
  • the lyric constituent characters here may be each of the characters constituting the lyric, or may be a phrase or a phrase in which each of the characters is grouped according to a specific rule along the time axis.
  • timing correspondence in the present embodiment means the lyrics output end timing, the timing at which the output of each lyric constituent character specified from the speed of color change is elapsed from the start of the performance of the music MIDI data DM. It may be specified by time.
  • the mobile terminal 5 is a terminal (for example, a well-known mobile phone) that can reproduce the music acoustic data DW acquired from the information processing apparatus 20, and includes an information receiving unit 6, a display unit 7, and a sound output unit 8.
  • the information receiving unit 6 receives information input via an input device such as a touch panel.
  • the display unit 7 displays an image including at least information indicated by a character code based on a command from the control unit 11.
  • the sound output unit 8 reproduces and outputs at least the music sound data DW, and includes, for example, a PCM sound source and a speaker.
  • the communication unit 9 is for the mobile terminal 5 to perform information communication with the outside via, for example, a mobile phone network or a network communication network.
  • the storage unit 10 stores various processing programs and various data.
  • the control unit 11 controls the units 6, 7, 8, 9, and 10 that constitute the mobile terminal 5 according to a processing program stored in the storage unit 10 and the like. Next, the information processing apparatus 20 will be described.
  • the information processing apparatus 20 includes a communication unit 21, an input receiving unit 22, a display unit 23, a voice input unit 24, a voice output unit 25, a sound source module 26, a storage unit 27, and a control unit 30. I have.
  • the communication unit 21 performs communication between the information processing apparatus 20 and the outside via a communication network (for example, a public wireless communication network or a network line).
  • the input receiving unit 22 is an input device that receives input of information and commands in accordance with external operations such as a keyboard and a pointing device.
  • the display unit 23 is a display device that displays an image including information indicated by a character code, such as a liquid crystal display or a CRT.
  • the voice input unit 24 is a device such as a microphone that converts voice into an electrical signal and inputs the signal to the control unit 30.
  • the sound output unit 25 is a device such as a speaker that converts an electrical signal from the control unit 30 into sound and outputs the sound.
  • the sound source module 26 is a device that uses, as an output sound, a sound that simulates a sound from a sound source based on the music MIDI data DM, such as a MIDI sound source.
  • the storage unit 27 is a nonvolatile storage device configured to be able to read and write stored contents, such as a hard disk device, for example.
  • control unit 30 is stored in the ROM 31 that stores processing programs and data that need to retain stored contents even when the power is turned off, the RAM 32 that temporarily stores processing programs and data, and the ROM 31 and RAM 32.
  • a known computer having at least a CPU 33 that executes each process according to the processing program is mainly configured.
  • the CPU 33 performs a data correction process for correcting the lyrics output timing in the lyrics output data DO corresponding to the target music so as to coincide with the musical performance start timing in the music acoustic data DW corresponding to the target music.
  • the processing program for executing is stored. That is, by executing the data correction process, the information processing apparatus 20 functions as the lyrics output data correction apparatus of the present invention. Next, data correction processing executed by the CPU 33 will be described.
  • FIG. 2 is a flowchart showing a processing procedure of data correction processing in the present embodiment.
  • the data correction process is started when an activation command for starting the data correction process is input via the input receiving unit 22.
  • the music MIDI data DM corresponding to the target music specified by the information input via the input receiving unit 22 is stored in the music data storage server. 3 (S110).
  • the music acoustic data DW corresponding to the target music is acquired from the music data storage server 3 (S130).
  • a musical sound transition waveform in the music acoustic data DW is acquired from the acquired music acoustic data DW (S140).
  • the musical composition is set so that the pitch of the output sound matches the pitch of the musical sound constituting the target musical composition.
  • a pitch correction process for correcting the MIDI data DM is executed (S150).
  • the music MIDI data DM in which the output sound has been corrected is referred to as corrected music MIDI data DM.
  • the musical tone performance which indicates the corrected output tone, and the output start timing of the output tone modified so that the pitch of the output tone matches the pitch of the musical tone, and the amount of time deviation, are indicated by the pitch correction process.
  • a time deviation amount derivation process for deriving a deviation amount from the start timing and correcting the modified music MIDI data DM so that the performance start timing of each output sound matches the performance start timing of the musical sound constituting the target music. Execute (S170).
  • the pitch correction process started in S150 of the data correction process will be described.
  • the obtained output sound transition waveform is subjected to frequency analysis for each unit time set along the time axis, and the frequency included in the output sound transition waveform of the unit time, and A power spectrum representing the intensity at each frequency is derived (S320).
  • an average output sound spectrum obtained by arithmetically averaging the intensity at each frequency for each frequency along the time axis is derived (S330).
  • the intensity at the frequency of the derived average output sound spectrum is averaged for each frequency range (for example, a semitone unit, hereinafter, a specified pitch range) so that the boundaries are adjacent to each other to obtain a representative value (S340). ).
  • the normalized normalized output sound spectrum shown in FIG. 4A is derived so that the intensity at the frequency in the average output sound spectrum averaged in S340 becomes dispersion “1” and average “0” ( S350).
  • the musical sound transition waveform acquired in the previous S140 is subjected to frequency analysis for each unit time set along the time axis, and a power spectrum in that unit time is derived (S360).
  • a power spectrum in that unit time is derived (S360).
  • an average musical sound spectrum obtained by arithmetically averaging the intensity at each frequency for each frequency along the time axis is derived (S370).
  • the intensity at the frequency of the derived average tone spectrum is averaged for each specified pitch range to obtain a representative value (S380), and the intensity at the frequency of the average tone spectrum averaged at S380 is expressed as variance “1”, average “ A normalized normalized tone spectrum shown in FIG. 4B is derived so as to be “0” (S390).
  • the representative value obtained in S340 and S380 of the present embodiment may be the intensity at the frequency corresponding to the center value in the specified pitch range.
  • a process of extracting a frequency value closest to the 20 Cent grid corresponding to power is performed for every 20 Cent corresponding to one fifth of a semitone.
  • a correlation value between the normalized output sound spectrum and the normalized musical sound spectrum indicating the pitch correlation value is derived (S400). Then, it is determined whether or not the shift amount of the normalized output sound spectrum with respect to the normalized musical sound spectrum is equal to or greater than a predetermined upper limit value (S410). As a result of the determination, if the shift amount is less than the upper limit value (S410: NO), the normalized output sound spectrum is shifted by a predetermined amount along the frequency axis (S420), and the process returns to S400. The pitch correlation value is derived again.
  • the normalized output sound spectrum is shifted from the lower limit value to the upper limit value along the frequency axis with respect to the normalized musical sound spectrum. Every time the normalized output sound spectrum is shifted, a pitch correlation value is derived.
  • a correction amount for matching the pitch of the output sound to the pitch of the musical sound constituting the target music. Is determined (S430).
  • pitch correction a correction amount for matching the pitch of the output sound to the pitch of the musical sound constituting the target music.
  • the corrected music MIDI data is generated by correcting the pitches of the individual output sounds defined for all the score tracks in the music MIDI data DM (S440). That is, the corrected music MIDI data generated in S440 of the present embodiment is obtained by shifting the pitch of the output sound from the pitch of the output sound prepared in advance by a pitch correction amount.
  • an output sound non-harmonic that is a non-harmonic component of the acquired modified sound transition waveform is derived from the modified sound transition waveform (S520), and further, the non-harmonic of the musical sound transition waveform acquired in the previous S140 is obtained.
  • a musical tone non-harmonic wave component is derived from the musical tone transition waveform (S530). The derivation of these non-harmonic components may be performed by passing the corrected sound transition waveform or the musical sound transition waveform through a filter prepared in advance.
  • the output sound non-harmonic and the musical sound non-harmonic are each divided into specific blocks each having a time length defined along the time axis (S540).
  • the specific block to be divided is a constant tempo section indicating that the tempo of the target music is constant.
  • This fixed tempo section is determined by specifying the time at which the tempo is changed according to the tempo specified in the tempo data of the music MIDI data DM as the start time and end time of each fixed tempo section.
  • the specific block of musical tone non-harmonic after the specific block of output non-harmonic is determined, the start time and the end time of each specific block of output sound non-harmonic are determined from the start of the performance of the target music. The time is determined by specifying the start time and the end time of each specific block of the musical tone non-harmonic.
  • Unit data representing the change is generated (S560).
  • the unit data in the present embodiment adds the amplitude value of the non-harmonic component within the specified section for each specified section that is shorter in time than the specific block. After that, it is generated by normalizing the value added for each specified section.
  • unit data for output sound non-harmonic corresponding to the output sound change in the present invention is set as output sound unit data
  • FIG. 6B is a non-music sound corresponding to the sound change in the present invention.
  • the unit data for harmonics is used as musical tone unit data.
  • the correlation value between the output sound unit data and the sound unit data (Hereinafter referred to as a time correlation value) is derived (S570). Then, it is determined whether or not the expansion / contraction rate of the output sound unit data with respect to the musical sound unit data is equal to or higher than a predetermined upper limit value (expansion rate upper limit value) (S580).
  • the shift amount along the time axis of the output sound unit data with respect to the musical sound unit data is set to a predetermined upper limit value. It is determined whether or not it is equal to or greater than (the upper limit value of the shift amount) (S600). As a result of the determination, if the shift amount of the musical sound unit data is less than the upper limit value of the shift amount (S600: NO), the set position of the output sound unit data is shifted by a predetermined time (S610) and output. After setting the expansion / contraction rate of the sound unit data as the lower limit value, the process returns to S570.
  • a time correlation value is derived each time the musical sound unit data is expanded until the expansion / contraction rate of the output sound unit data reaches the upper limit value. Then, the derivation of the time correlation value is executed while shifting the output sound unit data along the time axis until the upper limit value of the shift amount is reached with respect to the musical sound unit data.
  • the performance of the modified output sound is performed at the performance start timing of the musical sound constituting the target music.
  • a correction amount for matching the start timing that is, a time shift amount is derived (S620).
  • S620 of this embodiment specifically, the expansion / contraction of the output sound unit data corresponding to the time correlation value having the maximum value among all the time correlation values derived in S570 for a set of specific blocks.
  • the rate and the shift amount are derived as a time shift amount with respect to the specific block selected in S550.
  • the modified score data in which the performance start timing of each output sound is corrected is generated according to the derived time deviation amount (S630).
  • the pitch of the output sound is corrected based on the shift amount of the output sound unit data and the expansion / contraction rate of the output sound unit data derived as the amount of time shift with respect to the specific block selected in S550.
  • the start time and end time of the specific block in the corrected musical score data are corrected.
  • the performance start timing of the output sound is expanded or contracted according to the period specified by the start time and the end time after the correction so that the interval ratio of the performance start timing of the output sound before the correction is maintained.
  • modified score data in which the performance start timing of each output sound for the specific block is modified is generated.
  • the performance end timing of the output sound is also corrected.
  • the method for correcting the performance end timing of the output sound may be the same method as the performance start timing of the output sound.
  • S640 it is determined whether or not the amount of time deviation is derived for all the specific blocks divided in S540 (S640). As a result of the determination, the amount of time deviation is derived for all the specific blocks. If not (S640: NO), the process returns to S550. In S550, a new specific block is selected, and the steps up to S620 are executed. In S550, specific blocks are acquired in order from the longest time length, and the amount of time shift is derived. However, in a specific block adjacent to a specific block for which the amount of time deviation has already been derived, the corrected start time or end time of the specific block that has already been derived is derived as a value in the own specific block.
  • the lyrics output timing of each lyrics constituent character of the lyrics output track defined in S120 is acquired (S190). Subsequently, according to the time deviation amount derived in the time deviation amount derivation process, the lyrics output timing of each of the lyrics constituent characters acquired in S190 is corrected so as to coincide with the musical performance start timing in the music acoustic data DW. (S200).
  • the method of correcting the lyrics output timing in S200 of the present embodiment may be the same method as the correction of the performance start timing and performance end timing of the output sound in S630.
  • the lyrics output data DO which is the corrected lyrics output timing
  • the lyrics output timing corrected in S200 and the lyrics output end timing, which is the corrected lyrics output data, is generated (S210).
  • the lyrics output timing in the lyrics output data DO is made to coincide with the performance start timing of the musical sound constituting the target music along the time axis. It can be corrected.
  • the lyrics output timing of the lyrics constituent characters can be associated with the musical performance start timing corresponding to the lyrics constituent characters by a simpler method.
  • the pitch correction process is executed before the time deviation amount derivation process, and the correction has the pitch of the output sound corrected to match the pitch of the musical sound.
  • the music MIDI data DM is generated, an output sound transition waveform is acquired from the corrected music MIDI data DM.
  • the corrected lyrics output data DO generated in the data correction processing of the present embodiment is data for making the lyrics output timing for each lyric constituent character coincide with the musical performance start timing in the music sound data DW. . Therefore, in the music data distribution system 1 of the present embodiment, the lyrics telop data DT and the modified lyrics output data DO are distributed to the portable terminal 5 that does not have the sound source module, together with the music acoustic data DW, and the portable If the terminal 5 outputs the lyrics constituent characters in time synchronization with the musical sound in the music acoustic data in conjunction with the reproduction of the music acoustic data DW, the mobile terminal 5 can also enjoy karaoke. [Second Embodiment]
  • the music data distribution system in the second embodiment is different from the music data distribution system 1 in the first embodiment only in the structure of the lyrics output data DO and the processing content of the data correction processing executed by the information processing apparatus 20. .
  • symbol is attached
  • the contents of the data correction process executed by will be mainly described.
  • the lyrics output data DO of this embodiment the timing correspondence relationship for associating the lyrics output timing of the lyrics constituent characters with the performance of the music MIDI data DM is defined in the same way as the lyrics output data DO of the first embodiment.
  • the lyrics output timing for each of the lyrics constituent characters is associated with the performance start timing of the output sound corresponding to the lyrics constituent characters.
  • the lyrics output end timing for each of the lyrics constituent characters is associated with the performance end timing of the output sound corresponding to the lyrics constituent characters.
  • FIG. 8 is a flowchart showing a processing procedure of data correction processing in the present embodiment.
  • the data correction process is started when an activation command for starting the data correction process is input via the input receiving unit 22.
  • the music MIDI data DM corresponding to the target music is acquired from the music data storage server 3 (S710).
  • music acoustic data DW corresponding to the target music is acquired from the music data storage server 3 (S730).
  • a musical sound transition waveform in the music acoustic data DW is acquired from the acquired music acoustic data DW (S740).
  • a pitch correction process is executed (S750). Since the pitch correction process is the same as the pitch correction process (S150) in the first embodiment, a detailed description thereof will be omitted. Further, a time deviation amount derivation process is executed (S770). Since this time deviation amount derivation process is the same as the time deviation amount derivation process (S170) in the first embodiment, a detailed description thereof will be omitted.
  • a difference between the performance start timing of the output sound in the music MIDI data DM corrected in S770 and the performance start timing of the output sound in the music MIDI data DM before correction acquired in S710 is derived (S790).
  • S790 of this embodiment specifically, an onset difference time dOnset and an offset difference time dOffset, which are differences for individual output sounds, are derived based on the following equation (1).
  • aOnset is the performance start timing of the output sound in the modified music MIDI data DM
  • bOnset is the performance start timing of the output sound in the music MIDI data DM before correction
  • aOffset in the equation (1) is the performance end timing of the output sound in the modified music MIDI data DM
  • bOffset is the performance end timing of the output sound in the music MIDI data DM before correction.
  • an onset difference time dOnset and an offset difference time dOffset are derived for each output sound.
  • the lyrics output data DO for the target music is acquired from the music data storage server 3, and the lyrics output timing of each lyrics constituent character in the lyrics output data DO is acquired (S800).
  • the lyrics output timing is corrected (S810).
  • the corrected lyrics output timing mOnset and the corrected lyrics output end timing mOffset are derived for each of the lyrics constituent characters based on the following (2).
  • lOnset in the expression (2) is the lyrics output timing of the lyrics constituent characters in the lyrics output data DO
  • lOffset is the lyrics output end timing of the lyrics constituent characters in the lyrics output data DO.
  • the onset difference time dOnset and the offset difference time dOffset are shifted so that the lyrics output timing and the lyrics output end timing of each of the lyrics constituent characters coincide with the performance start timing of each musical sound in the music acoustic data DW. Will be fixed.
  • lyrics output data (ie, corrected lyrics output data) in which the lyrics output timing (ie, corrected lyrics output timing) corrected in S810 and the lyrics output end timing are defined is generated (S820).
  • the lyrics output timing and the lyrics output end timing of each of the lyrics constituent characters are corrected by shifting the onset difference time dOnset and the offset difference time dOffset.
  • the correction method of the lyrics output timing and the lyrics output end timing is not limited to this, and the lyrics output data correction method in the data correction processing of the first embodiment may be applied.
  • the lyrics output data DO corresponding to the target music is acquired from the music data storage server 3, and the performance start timing of the output sound defined in the music MIDI data DM is obtained.
  • the lyrics output timing of the lyrics constituent characters associated with the performance start timing of the output sound may be corrected.
  • the lyrics output end timing may also be associated with the performance end timing of the output sound estimated to correspond to each lyrics constituent character.
  • the music MIDI data DM in which the lyrics output timing of each lyrics constituent character specified from the speed of color change is set as the performance start timing of the output sound estimated to correspond to each lyrics constituent character.
  • a new track (hereinafter referred to as a lyrics output track) is generated.
  • the method of correcting the lyrics output timing or lyrics output end timing of the lyrics constituent characters in the data correction processing of the first embodiment is the lyrics of the lyrics constituent characters included in the same tempo fixed intervals.
  • the output timing or the lyrics output end timing may be shifted by the onset difference time dOnset or the offset difference time dOffset.
  • S140 and S740 in the data correction process of the above embodiment correspond to the musical sound transition acquisition means in the description of the claims
  • S510 of the time shift amount derivation process corresponds to the output sound transition acquisition means
  • S190 and S800 correspond to the lyrics output data acquisition means
  • S520 to S620 of the time shift amount derivation process correspond to time shift amount derivation means
  • S200 and S810 in the data correction process correspond to timing correction means.
  • S520, S540 to S560 in the time deviation amount derivation process correspond to output sound change derivation means
  • S530 to S560 correspond to musical sound change derivation means
  • S570 to S610 correspond to time correlation derivation means
  • S620 corresponds to time correction amount deriving means
  • S320 to S430 in the pitch correction process correspond to a pitch correction amount deriving unit
  • S440 corresponds to a score data correcting unit.
  • S360 to S390 correspond to the musical sound distribution deriving means
  • S320 to S350 correspond to the output sound distribution deriving means
  • S400 to S420 correspond to the pitch correlation deriving means.
  • S630 in the time deviation amount derivation process corresponds to performance start timing correction means.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

より簡易な方法で、歌詞を構成する文字を、当該文字に対応する音楽音響信号での時刻に対応付けること。楽曲音響データDWにおける楽音推移波形を取得する(S140)。楽曲MIDIデータDMから出力音推移波形を取得した上で、出力音の演奏開始タイミングと、楽音の演奏開始タイミングとのズレ量(以下、時間ズレ量と称す)を導出する時間ズレ量導出処理を実行する(S170)。歌詞出力データDOにおける各歌詞構成文字の歌詞出力タイミングを取得し(S190)、その歌詞構成文字の各々の歌詞出力タイミングを、楽曲音響データDWにおける楽音の演奏開始タイミングに一致するように、時間ズレ量導出処理にて導出された時間ズレ量に従って修正する(S200)。

Description

歌詞出力データ修正装置,及びプログラム
 本発明は、楽譜データに対応付けて規定された歌詞の出力タイミングを、楽曲データに時間同期させるように修正する歌詞出力データ修正装置、及びプログラムに関する。
 従来、歌声と伴奏音とを含む楽曲の音楽音響信号に対し、音楽音響信号とは別に用意された歌詞を時間軸に沿って対応付けるシステムが知られている(例えば、特許文献1参照)。
 この種のシステムでは、音楽音響信号に含まれるボーカル音声に対応する信号(以下、ボーカル信号とする)から、予め規定された特徴量を抽出し、機械学習によって予め生成した識別器(いわゆる識別モデル)に照合する音声認識によって、ボーカル音声の音素の各々を特定している。さらに、この種のシステムでは、それらの特定した音素の各々と、歌詞を構成する各文字とを、時間軸に沿って順次対応付けることがなされている。
特開2008-134606号公報
 ところで、特許文献1に記載のシステムでは、ボーカル音声中の音素を特定するために、音声認識処理を用いており、認識フェーズにおいて各音素を特定するまでの処理量が膨大なものとなる。特に、特許文献1に記載のシステムにおいては、音声認識に用いる識別モデルを、機械学習によって生成しているため、学習フェーズに要する処理量は膨大なものとなる。
 つまり、特許文献1に記載のシステムでは、歌詞を構成する各文字を対応付けるべき、音楽音響信号での時刻を特定するまでに要するトータルの処理量が膨大なものとなるという問題があった。
 そこで、本発明は、より簡易な方法で、歌詞を構成する文字を、当該文字に対応する音楽音響信号での時刻に対応付けることを目的とする。
 上記目的を達成するためになされた本発明の歌詞出力データ修正装置では、楽音推移取得手段が、対象楽曲を構成する楽音の音圧が時間軸に沿って推移した楽音推移波形を取得し、出力音推移取得手段が、対象楽曲を模擬した楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽譜データに基づいて、出力音の音圧が時間軸に沿って推移した出力音推移波形を取得する。
 そして、歌詞出力データ取得手段が、対象楽曲の歌詞を構成する歌詞構成文字の出力タイミングである歌詞出力タイミングを規定するデータであり、かつ歌詞構成文字の少なくとも1つに対する歌詞出力タイミングが、楽譜データに対して規定された少なくとも1つのタイミングである特定開始タイミングと対応付けられた歌詞出力データを取得する。
さらに、時間ズレ量導出手段が、楽音推移取得手段にて取得した楽音推移波形から抽出した該楽音推移波形の特性を表す楽音情報と、出力音推移取得手段にて取得した出力音推移波形から抽出した該出力音推移波形の特性を表す出力音情報とを比較した結果に基づき、出力音の各々の演奏開始タイミングに対する、各出力音に対応する楽音の演奏開始タイミングのズレ量を表す時間ズレ量を導出する。
 そして、タイミング修正手段が、楽音の演奏開始タイミングに一致するように、歌詞出力データ取得手段で取得した歌詞出力データにおける歌詞出力タイミングを、時間ズレ量導出手段で導出された時間ズレ量に従って修正した修正歌詞出力タイミングを規定する。
 このような歌詞出力データ修正装置によれば、歌詞出力データにおける歌詞出力タイミングを、対象楽曲を構成する楽音の演奏開始タイミングに対して、時間軸に沿って一致したものへと修正することができる。
 そして、本発明の歌詞出力データ修正装置によれば、歌詞出力タイミングを修正する(即ち、修正歌詞出力タイミングを規定する)際に、音声認識処理を一切実行する必要がない。よって、本発明の歌詞出力データ修正装置によれば、歌詞構成文字を対応付けるべき、楽音の演奏開始タイミング(即ち、楽音推移波形(音楽音響信号)での時刻)を特定するまでに要するトータルの処理量を、特許文献1に記載された装置に比べて低減できる。
 換言すれば、本発明の歌詞出力データ修正装置によれば、より簡易な方法で、歌詞構成文字を、当該歌詞構成文字に対応する楽音の演奏開始タイミング(即ち、楽音推移波形(音楽音響信号)での時刻)に対応付けることができる。
 さらに、音源モジュールを備えていない装置に、本発明の歌詞出力データ修正装置にて修正された歌詞出力データを、個々の歌詞構成文字を表す歌詞テロップデータ、及び楽曲音響データと共に配信するシステムを想定する。このとき、当該装置にて、楽曲音響データの再生に併せて、楽曲音響データ中の楽音に時間同期させて、歌詞構成文字を出力すれば、当該装置においても、カラオケを楽しむことができる。
 なお、ここで言う楽音推移波形には、例えば、対象楽曲を構成する全ての楽音の音圧が時間軸に沿って推移したアナログ波形を標本化(サンプリング)したものを含む。また、ここでいう出力音推移波形には、対象楽曲を模擬した楽曲をMIDI形式にて表したデータをレンダリングすることで生成した音声信号を含む。
 さらに、ここで言う歌詞構成文字とは、歌詞を構成する文字の各々であっても良いし、その文字の各々を特定の規則に従って一群とした文節やフレーズであっても良い。
 本発明の歌詞出力データ修正装置における時間ズレ量導出手段では、楽音変化導出手段が、楽音推移波形から、該楽音推移波形の非調波成分である楽音非調波を抽出し、時間軸に沿った楽音非調波の変化を表す楽音変化を、楽音情報として導出し、出力音変化導出手段が、出力音推移波形から、該出力音推移波形の非調波成分である出力音非調波を抽出し、時間軸に沿った出力音非調波の変化を表す出力音変化を、出力音情報として導出する。
 すると、時間相関導出手段が、楽音変化と出力音変化との相関値を表す時間相関値を、楽音変化の時間軸上に規定された基準位置に、出力音変化の時間軸上に設定された設定位置を一致させて出力音変化を時間軸に沿って伸縮する毎に導出すると共に、設定位置を規定範囲内で時間軸に沿って順次変更し、その時間相関導出手段にて導出された時間相関値の中で、値が最大となる時間相関値に対応する出力音変化の伸縮率及び設定位置を、時間補正量導出手段が、時間補正量(時間ズレ量)として導出する(請求項2)。
一般的に、楽音推移や出力音推移に含まれる非調波成分は、リズムを刻む楽器(例えば、ドラムやベース)の楽器音であることが多い。
 このリズムを刻む楽器の楽器音は、他の楽器音に比して確実に検出できる。このため、本発明の歌詞出力データ修正装置にて導出される時間ズレ量は、楽譜データにおける個々の出力音の演奏開始タイミングと、楽音の演奏開始タイミングとをより確実に一致させることが可能なものとなる。
 よって、本発明の歌詞出力データ修正装置によれば、修正歌詞出力タイミングを、楽音の演奏開始タイミングにより確実に一致させることができる。
 さらに、本発明の歌詞出力データ修正装置では、音高補正量導出手段が、楽音情報の1つと、出力音情報の1つとを比較した結果に基づき、出力音の音高が、該出力音に対応する楽音の音高に一致するように音高補正量を導出し、楽譜データ修正手段が、楽譜データに規定された出力音の各々の音高を、音高補正量導出手段で導出した音高補正量に従ってシフトすることで、楽譜データを修正した修正楽譜データを生成しても良い。
 この場合、時間ズレ量導出手段は、修正楽譜データに基づく出力音推移波形である修正音推移波形を、出力音推移取得手段で取得した出力音推移波形としても良い(請求項3)。
 このような歌詞出力データ修正装置によれば、出力音推移取得手段で取得した出力音推移波形が修正音推移波形となるため、楽音推移波形との間の音高ズレが最小限に抑制され、時間ズレ量の導出精度を向上させることができる。この結果、本発明の歌詞出力データ修正装置によれば、修正歌詞出力タイミングを楽音の出力タイミングにより確実に一致させることができる。
 そして、本発明の歌詞出力データ修正装置における音高補正量導出手段では、楽音分布導出手段が、楽音推移波形に含まれる周波数と各周波数の強さとを表し、該周波数の強さについて正規化した楽音音高分布を、楽音情報の一つとして導出し、出力音分布導出手段が、出力音推移波形に含まれる周波数と各周波数の強さとを表し、該周波数の強さについて正規化した出力音高分布を、出力音情報の一つとして導出し、音高相関導出手段が、出力音高分布と楽音音高分布との相関値を表す音高相関値を、楽音音高分布の予め規定された規定位置から出力音高分布を周波数軸に沿ってシフトさせる毎に導出しても良い。この場合、音高補正量導出手段は、音高相関導出手段にて導出された音高相関値の中で、値が最大となる音高相関値に対応する規定位置からの周波数軸に沿ったシフト量を、音高補正量として導出しても良い(請求項4)。
 このように導出される音高補正量に従って楽譜データを修正すれば、修正後の出力音推移波形に含まれる周波数及び各周波数の強さの比率を、楽音推移波形に含まれる周波数及び各周波数の強さの比率に、より近似させることができる。
 特に、本発明の歌詞出力データ修正装置で導出される楽音音高分布及び出力音高分布は、楽音推移波形及び出力音推移波形に含まれる周波数と各周波数の強さのうち、周波数の強さについて正規化されている。このため、本発明の歌詞出力データ修正装置によれば、楽音推移波形の振幅と、出力音推移波形の振幅とが大きく異なっていたとしても、修正楽譜データに基づく出力音推移波形を楽音推移波形に近づけることができる。
 なお、本発明において、歌詞出力データは、歌詞構成文字のうちの少なくとも一部について、特定開始タイミングからの経過時間によって歌詞出力タイミングが規定されていても良い。この場合、本発明の歌詞出力データ修正装置では、対応付手段が、少なくとも、経過時間によって歌詞出力タイミングが規定された歌詞構成文字の歌詞出力タイミングについて、修正歌詞出力タイミングを規定しても良い(請求項5)。
 このような歌詞出力データ修正装置によれば、1つの歌詞構成文字からの経過時間によって歌詞出力タイミングが規定された歌詞出力データであっても、修正歌詞出力タイミングを規定できる。
 なお、経過時間によって歌詞出力タイミングが規定された歌詞構成文字の修正歌詞出力タイミングの規定は、各歌詞構成文字の歌詞出力タイミングを、当該歌詞構成文字に対応する出力音の演奏開始タイミングと対応付けた上で実施しても良いし、当該対応付けを行うことなく実施しても良い。この対応付けの具体的な方法としては、対象楽曲においてテンポが一定の区間を特定し、そのテンポが一定の同一区間について、楽譜データに含まれる出力音の演奏開始タイミングを、歌詞出力データに含まれる歌詞構成文字の歌詞出力タイミングとを対応付けても良い。また、例えば、楽譜データがMIDI(Music Instrument Digital Interface)規格のデータとして予め生成されたものである場合、歌詞出力データにおける歌詞出力タイミングを表すMIDIのトラックを新たに追加することが考えられる。すなわち、新たに追加したトラックにおいて、歌詞構成文字の各々の歌詞出力タイミングを、各歌詞構成文字に対応する出力音の演奏開始タイミングと対応付けて表しても良い。
 ところで、本発明において、楽譜データは、少なくとも一部の出力音の演奏開始タイミングが、特定開始タイミングとして規定されており、歌詞出力データは、歌詞構成文字の各々の歌詞出力タイミングに、当該歌詞構成文字に対応する出力音の演奏開始タイミングが対応付けられていても良い。
 この場合、本発明におけるタイミング修正手段は、歌詞構成文字の各々について、修正歌詞出力タイミングを規定しても良い(請求項6)。
 このような歌詞出力データ修正装置によれば、歌詞構成文字の各々の歌詞出力タイミングに、当該歌詞構成文字に対応する出力音の演奏開始タイミングが対応付けられた歌詞出力データを生成できる。
 さらに、本発明では、演奏開始タイミング補正手段が、出力音の演奏開始タイミングを、時間ズレ量シフトさせた修正演奏開始タイミングを導出し、タイミング修正手段が、演奏開始タイミング補正手段で導出された修正演奏開始タイミングを、修正歌詞出力タイミングとしても良い(請求項7)。
  また、本発明では、演奏開始タイミング補正手段が、出力音の演奏開始タイミングを、時間ズレ量シフトさせた修正演奏開始タイミングを導出し、タイミング修正手段が、その修正演奏開始タイミングと出力音の演奏開始タイミングとの差分、歌詞出力タイミングをシフトさせることで、修正歌詞出力タイミングを規定しても良い(請求項8)。
 このような歌詞出力データ修正装置によれば、修正歌詞出力タイミングを、修正演奏開始タイミングと出力音の演奏開始タイミングとの差分、歌詞出力タイミングをシフトさせることで規定できる。
 このような歌詞出力データ修正装置によれば、修正歌詞出力タイミングを修正演奏開始タイミングに置き換えることができる。
 また、本発明では、演奏開始タイミング補正手段が、出力音の演奏開始タイミングを、時間ズレ量シフトさせた修正演奏開始タイミングを導出し、タイミング修正手段が、その修正演奏開始タイミングと出力音の演奏開始タイミングとの差分、歌詞出力タイミングをシフトさせることで、修正歌詞出力タイミングを規定しても良い(請求項9)。
 このような歌詞出力データ修正装置によれば、修正歌詞出力タイミングを、修正演奏開始タイミングと出力音の演奏開始タイミングとの差分、歌詞出力タイミングをシフトさせることで規定できる。
 なお、本発明は、コンピュータを歌詞出力データ修正装置として機能させるためのプログラムを記憶した有形の記憶媒体であっても良い。
 本発明がプログラムを記憶した有形の記憶媒体としてなされている場合、そのプログラムでは、楽音推移取得手順にて、対象楽曲を構成する楽音の音圧が時間軸に沿って推移した楽音推移波形を取得し、出力音推移取得手順にて、対象楽曲を模擬した楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽譜データに基づいて、出力音の音圧が時間軸に沿って推移した出力音推移波形を取得する。さらに、歌詞出力データ取得手順にて、対象楽曲の歌詞を構成する歌詞構成文字の出力タイミングである歌詞出力タイミングを規定するデータであり、かつ歌詞構成文字の少なくとも1つに対する歌詞出力タイミングが、楽譜データに対して規定された少なくとも1つのタイミングである特定開始タイミングと対応付けられた歌詞出力データを取得する。
 そして、時間ズレ量導出手順にて、楽音推移波形から抽出した該楽音推移波形の特性を表す楽音情報と、出力音推移波形から抽出した該出力音推移波形の特性を表す出力音情報とを比較した結果に基づき、出力音の各々の演奏開始タイミングに対する、各出力音に対応する楽音の演奏開始タイミングのズレ量を表す時間ズレ量を導出し、タイミング修正手順にて、楽音の演奏開始タイミングに一致するように、歌詞出力データ取得手順で取得した歌詞出力データにおける歌詞出力タイミングを、時間ズレ量導出手順で導出された時間ズレ量に従って修正した修正歌詞出力タイミングを規定する(請求項10)。
 本発明のプログラムが、このようになされていれば、例えば、DVD-ROM、CD-ROM、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項1に記載された歌詞出力データ修正装置として機能させることができる。
本発明が適用された情報処理装置を中心に構成された音楽データ配信システムの概略構成を示すブロック図である。 第一実施形態におけるデータ修正処理の処理手順を示すフローチャートである。 音高補正処理の処理手順を示すフローチャートである。 音高補正処理の概要を説明する説明図である。 音高補正処理の概要を説明する説明図である。 音高補正処理の概要を説明する説明図である。 時間ズレ量導出処理の処理手順を示すフローチャートである。 時間ズレ量導出処理の概要を説明する説明図である。 時間ズレ量導出処理の概要を説明する説明図である。 時間ズレ量導出処理の概要を説明する説明図である。 第二実施形態における歌詞出力データの概要を示す図面である。 第二実施形態におけるデータ修正処理の処理手順を示すフローチャートである。
 以下に本発明の実施形態を図面と共に説明する。
[第一実施形態]
 ここで、図1は、本発明が適用された歌詞出力データ修正装置を備えた音楽データ配信システムの概略構成を示すブロック図である。
 この音楽データ配信システム1は、歌詞出力データDOを含む音楽データMDを格納する音楽データ格納サーバ3と、音楽データ格納サーバ3に格納された音楽データMDに対して処理を加える情報処理装置20と、情報処理装置20にて処理が加えられた音楽データMDが配信される少なくとも1つの携帯端末5A~5nとを備えている。前出のnは、携帯端末の台数を表す1以上の自然数を示す。
 音楽データ格納サーバ3は、音楽データMD1~MDmを格納するデータベースとして機能する装置である。前出のmは、音楽データの数を表す1以上の自然数を示す。本実施形態における音楽データMDには、楽曲音響データDWと、楽曲MIDIデータDMと、歌詞データDLとが含まれる。
 このうち、楽曲音響データDWは、以下、特定楽曲で示される、1つの楽曲を構成する全ての楽音の音圧が時間軸に沿って推移した楽音推移波形、つまり、アナログ波形を標本化データであり、例えば、楽曲毎に予め用意された、WAVやMP3形式の音声ファイルである。
 また、楽曲MIDIデータDMは、Musical Instrument Digital Interfaceで示されるMIDI規格によって、本発明の楽譜データに相当する、特定楽曲を模擬した楽曲の楽譜を表すデータであり、楽曲毎に予め用意されている。この楽曲MIDIデータDMの各々は、楽曲を区別するデータである識別データと、当該楽曲にて用いられる楽器毎の楽譜を表す楽譜トラックと、例えば、Aメロやサビなどの、当該楽曲を分割した区間の各々におけるテンポを表すテンポデータとを少なくとも有している。
 このうちの楽譜トラックには、MIDI音源から出力される個々の出力音について、少なくとも、いわゆるノートナンバーで示される音高と、音符長で示される音源モジュールが出力音を出力する期間とが規定されている。ただし、楽譜トラックの音符長は、ノートオンタイミングで示される、当該出力音の出力を開始するまでの当該楽曲の演奏開始からの時間を表す演奏開始タイミングと、ノートオフタイミングで示される、当該出力音の出力を終了するまでの当該楽曲の演奏開始からの時間を表す演奏終了タイミングとによって規定されている。
 なお、楽譜トラックは、例えば、ピアノなどの鍵盤楽器、バイオリンなどの弦楽器、ドラムなどの打楽器、及びトランペットなどの管楽器など、楽器毎に用意されている。
 歌詞データDLは、周知のカラオケ装置を構成する表示装置に表示される歌詞に関するデータであり、特定楽曲の歌詞を構成する文字(以下、歌詞構成文字)を表す歌詞テロップデータDTと、歌詞構成文字の出力タイミングである歌詞出力タイミングを、楽曲MIDIデータDMの演奏と対応付けるタイミング対応関係が規定された歌詞出力データDOとを備えている。
 具体的に、本実施形態におけるタイミング対応関係は、特定開始タイミングとを意味する、楽曲MIDIデータDMの演奏を開始するタイミングに、歌詞テロップデータDTの出力を開始するタイミングが対応付けられた上で、対象楽曲の時間軸に沿った各歌詞構成文字の歌詞出力タイミングが、楽曲MIDIデータDMの演奏を開始からの経過時間によって規定されている。なお、ここでいう経過時間とは、例えば、表示された歌詞構成文字の色替えを実行するタイミングを表す時間であり、色替えの速度によって規定されている。また、ここでいう歌詞構成文字は、歌詞を構成する文字の各々であっても良いし、その文字の各々を時間軸に沿った特定の規則に従って一群とした文節やフレーズであっても良い。
 なお、本実施形態におけるタイミング対応関係として、歌詞出力終了タイミングを意味する、色替えの速度から特定される各歌詞構成文字の出力を終了するタイミングが、楽曲MIDIデータDMの演奏を開始からの経過時間によって規定されていても良い。
 楽曲音響データDWと、楽曲MIDIデータDMと、歌詞データDLとは、それぞれ対応する楽曲毎に対応付けられて、音楽データ格納サーバ3に格納されている。
〈携帯端末について〉
 このうち、携帯端末5は、情報処理装置20から取得した楽曲音響データDWを再生可能な端末(例えば、周知の携帯電話)であり、情報受付部6と、表示部7と、音出力部8と、通信部9と、記憶部10と、制御部11とを備えている。
 このうちの情報受付部6は、タッチパネルのような入力装置を介して入力された情報を受け付ける。表示部7は、制御部11からの指令に基づいて、少なくとも、文字コードで示される情報を含む画像を表示する。音出力部8は、少なくとも、楽曲音響データDWを再生して出力するものであり、例えば、PCM音源と、スピーカとを備えている。
 通信部9は、例えば、携帯電話網やネットワーク通信網を介して、携帯端末5が外部との間で情報通信を行うものである。記憶部10は、各種処理プログラムや各種データを記憶する。制御部11は、記憶部10に記憶された処理プログラムなどに従って、携帯端末5を構成する各部6,7,8,9,10を制御する。
 次に、情報処理装置20について説明する。
 この情報処理装置20は、通信部21と、入力受付部22と、表示部23と、音声入力部24と、音声出力部25と、音源モジュール26と、記憶部27と、制御部30とを備えている。
 このうち、通信部21は、通信網(例えば、公衆無線通信網やネットワーク回線)を介して、情報処理装置20が外部との間で通信を行う。入力受付部22は、例えば、キーボードやポインティングデバイスなど、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。表示部23は、例えば、液晶ディスプレイやCRT等、文字コードで示される情報を含む画像を表示する表示装置である。また、音声入力部24は、マイクロホンなど、音声を電気信号に変換して制御部30に入力する装置である。音声出力部25は、スピーカなど、制御部30からの電気信号を音声に変換して出力する装置である。
 さらに、音源モジュール26は、例えば、MIDI音源など、楽曲MIDIデータDMに基づいて、音源からの音を模擬した音を出力音とする装置である。記憶部27は、例えば、ハードディスク装置など、記憶内容を読み書き可能に構成された不揮発性の記憶装置である。
 また、制御部30は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するROM31と、処理プログラムやデータを一時的に格納するRAM32と、ROM31やRAM32に記憶された処理プログラムに従って各処理を実行するCPU33とを少なくとも有した周知のコンピュータを中心に構成されている。
 なお、ROM31には、対象楽曲に対応する歌詞出力データDOにおける歌詞出力タイミングを、対象楽曲に対応する楽曲音響データDW中の楽音の演奏開始タイミングに一致するように修正するデータ修正処理を、CPU33が実行するための処理プログラムが格納されている。すなわち、データ修正処理を実行することで、情報処理装置20は、本発明の歌詞出力データ修正装置として機能する。
 次に、CPU33が実行するデータ修正処理について説明する。
 ここで、図2は、本実施形態におけるデータ修正処理の処理手順を示すフローチャートである。
 このデータ修正処理は、入力受付部22を介して、当該データ修正処理を起動するための起動指令が入力されると、実行が開始されるものである。
 そして、図2に示すように、データ修正処理は、起動されると、入力受付部22を介して入力された情報によって指定された、対象楽曲に対応する楽曲MIDIデータDMを、音楽データ格納サーバ3から取得する(S110)。
 続いて、対象楽曲に対応する楽曲音響データDWを音楽データ格納サーバ3から取得する(S130)。その取得した楽曲音響データDWから、当該楽曲音響データDWにおける楽音推移波形を取得する(S140)。
 そして、S110にて取得した楽曲MIDIデータDMと、S140にて取得した楽音推移波形とに基づいて、対象楽曲を構成する楽音の音高に、出力音の音高が一致するように、当該楽曲MIDIデータDMを修正する音高補正処理を実行する(S150)。以下、出力音について修正が実行された楽曲MIDIデータDMを修正楽曲MIDIデータDMと称す。
 さらに、音高補正処理によって、修正出力音を意味する、出力音の音高が楽音の音高に一致するように修正された出力音の演奏開始タイミングと、時間ズレ量を示す、楽音の演奏開始タイミングとのズレ量を導出すると共に、対象楽曲を構成する楽音の演奏開始タイミングに、個々の出力音の演奏開始タイミングが一致するように修正楽曲MIDIデータDMを修正する時間ズレ量導出処理を実行する(S170)。ここで、データ修正処理のS150にて起動される音高補正処理について説明する。
 この音高補正処理は、起動されると、図3に示すように、先のS110にて取得した楽曲MIDIデータDMに含まれる全ての楽譜トラックに基づいて、全ての出力音が時間軸に沿って推移した波形である出力音推移波形を取得する(S310)。具体的に、本実施形態における出力音推移波形の取得は、MIDI規格のデータから音声信号の波形を生成する周知のレンダリングによって実行される。
 続いて、その取得した出力音推移波形を、離散フーリエ変換を用いて、時間軸に沿って設定された単位時間毎に周波数解析して、その単位時間の出力音推移波形に含まれる周波数、及び各周波数における強度を表すパワースペクトルを導出する(S320)。その導出されたパワースペクトルに基づいて、各周波数における強度を、時間軸に沿って周波数毎に相加平均した平均出力音スペクトルを導出する(S330)。その導出した平均出力音スペクトルの周波数における強度を、境界が互いに隣接するように予め規定された周波数範囲(例えば、半音単位、以下、規定音高範囲)毎に平均化して代表値とする(S340)。さらに、そのS340で平均化した平均出力音スペクトルにおける周波数における強度を、分散「1」、平均「0」となるように、図4Aで示される、正規化した正規化出力音スペクトルを導出する(S350)。
 続いて、先のS140にて取得した楽音推移波形を、時間軸に沿って設定された単位時間毎に周波数解析して、その単位時間でのパワースペクトルを導出する(S360)。その導出されたパワースペクトルに基づいて、各周波数における強度を、時間軸に沿って周波数毎に相加平均した平均楽音スペクトルを導出する(S370)。その導出した平均楽音スペクトルの周波数における強度を、規定音高範囲毎に平均化して代表値とし(S380)、そのS380で平均化した平均楽音スペクトルの周波数における強度を、分散「1」、平均「0」となるように図4Bで示される、正規化した正規化楽音スペクトルを導出する(S390)。
 なお、本実施形態のS340,S380にて求める代表値は、規定音高範囲における中心値に対応する周波数における強度を代表値としても良い。この場合、具体的には、半音の5分の1毎に相当する、20Cent毎に、パワーに相当する、20Centグリッドに一番近い周波数の値を抽出する処理を行う。
 そして、詳しくは、後述するように、音高相関値を示す、正規化出力音スペクトルと正規化楽音スペクトルとの相関値を導出する(S400)。そして、正規化楽音スペクトルに対する正規化出力音スペクトルのシフト量が予め規定された上限値以上であるか否かを判定する(S410)。その判定の結果、シフト量が上限値未満であれば(S410:NO)、正規化出力音スペクトルを、周波数軸に沿って予め規定された規定量シフトして(S420)、S400へと戻り、音高相関値を再度導出する。
 すなわち、本実施形態のS400~S420では、図4Cに示すように、正規化楽音スペクトルに対して、正規化出力音スペクトルを周波数軸に沿って下限値から上限値に達するまでシフトさせつつ、その正規化出力音スペクトルをシフトさせる毎に、音高相関値を導出する。
 そして、正規化出力音のシフト量が上限値以上となると(S410:YES)、対象楽曲を構成する楽音の音高に、出力音の音高を一致させるための補正量(以下、音高補正量とする)を導出する(S430)。本実施形態のS430では、具体的に、先のS400にて導出された全ての音高相関値の中で、値が最大である音高相関値に対応する正規化出力音スペクトルのシフト量を音高補正量として導出する。
 続いて、その導出された音高補正量に従って、楽曲MIDIデータDMにおける全ての楽譜トラックに規定された個々の出力音の音高を修正することで、修正楽曲MIDIデータを生成する(S440)。すなわち、本実施形態のS440にて生成される修正楽曲MIDIデータは、出力音の音高が、予め用意された出力音の音高から音高補正量シフトされたものとなる。
 そして、その後、本音高補正処理を終了し、データ修正処理へと戻る。
 次に、データ修正処理のS170にて起動される時間ズレ量導出処理について説明する。
 この時間ズレ量導出処理は、起動されると、図5に示すように、先のS440にて生成された修正楽曲MIDIデータに含まれる全ての楽譜トラックに基づいて、全ての修正出力音が時間軸に沿って推移した波形である修正音推移波形を取得する(S510)。本実施形態における修正音推移波形の取得は、S310と同様の方法により実行すれば良い。
 続いて、その取得した修正音推移波形の非調波成分である出力音非調波を、該修正音推移波形から導出し(S520)、さらに、先のS140で取得した楽音推移波形の非調波成分である楽音非調波を、該楽音推移波形から導出する(S530)。これらの非調波成分の導出は、予め用意されたフィルタに、修正音推移波形または楽音推移波形を通過させることで実行しても良い。
 さらに、出力音非調波及び楽音非調波を、それぞれ、時間軸に沿って規定された時間長である特定ブロック毎に分割する(S540)。その分割する特定ブロックは、対象楽曲においてテンポが一定であることを表すテンポ一定区間である。このテンポ一定区間は、楽曲MIDIデータDMのテンポデータに規定されたテンポに従って、テンポが変更される時刻を、各テンポ一定区間の開始時刻、終了時刻として特定することで決定する。なお、楽音非調波の特定ブロックについては、出力音非調波の特定ブロックを決定した後、出力音非調波の特定ブロックそれぞれの開始時刻、終了時刻に相当する対象楽曲の演奏開始からの時刻を、楽音非調波の特定ブロックそれぞれの開始時刻及び終了時刻として特定することで決定する。
 そして、S540にて分割された特定ブロックの中から、一組の特定ブロックを選択し(S550)、その一組の特定ブロックについて、楽音非調波、出力音非調波共に、時間軸に沿った変化を表すユニットデータを生成する(S560)。本実施形態におけるユニットデータは、図6A,図6B、図6Cに示すように、特定ブロックよりも短い時間長である規定区間毎に、その規定区間内での非調波成分の振幅値を加算した上で、その規定区間毎に加算された値を正規化することによって生成する。なお、以下では、図6Aは、本発明における出力音変化に相当する、出力音非調波についてのユニットデータを出力音ユニットデータとし、図6Bは、本発明における楽音変化に相当する、楽音非調波についてのユニットデータを楽音ユニットデータとする。
 その出力音ユニットデータの時間軸上に規定された出力音設定位置を、楽音ユニットデータの時間軸上に規定された楽音設定位置に一致させて、出力音ユニットデータと楽音ユニットデータとの相関値(以下、時間相関値とする)を導出する(S570)。そして、楽音ユニットデータに対する出力音ユニットデータの伸縮率が、予め規定された上限値(伸縮率の上限値)以上であるか否かを判定する(S580)。その判定の結果、楽音ユニットデータの伸縮率が、伸縮率の上限値未満であれば(S580:NO)、出力音ユニットデータを、時間軸に沿って予め規定された規定率拡大して(S590)、S570へと戻る。
 さらに、楽音ユニットデータの伸縮率が、伸縮率の上限値に達していれば(S580:YES)、楽音ユニットデータに対する出力音ユニットデータの時間軸に沿ったシフト量が、予め規定された上限値(シフト量の上限値)以上であるか否かを判定する(S600)。その判定の結果、楽音ユニットデータのシフト量が、シフト量の上限値未満であれば(S600:NO)、出力音ユニットデータの設定位置を、予め規定された時間シフトして(S610)、出力音ユニットデータの伸縮率を下限値とした上で、S570へと戻る。
 すなわち、本実施形態のS570~S610では、図6Cに示すように、楽音ユニットデータに対して、出力音ユニットデータの伸縮率が上限値に達するまで拡大する毎に、時間相関値を導出する。そして、このような時間相関値の導出を、楽音ユニットデータに対して、出力音ユニットデータを時間軸に沿ってシフト量の上限値に達するまでシフトさせつつ実行する。
 一方、S600での判定の結果、出力音ユニットデータのシフト量が、シフト量の上限値以上であれば(S600:YES)、対象楽曲を構成する楽音の演奏開始タイミングに、修正出力音の演奏開始タイミングを一致させるための補正量、即ち、時間ズレ量を導出する(S620)。本実施形態のS620では、具体的に、一組の特定ブロックに対してS570で導出された全ての時間相関値の中で、値が最大となる時間相関値に対応する出力音ユニットデータの伸縮率及びシフト量を、S550で選択した特定ブロックに対する時間ズレ量として導出する。
 その導出された時間ズレ量に従って、個々の出力音の演奏開始タイミングを修正した修正楽譜データを生成する(S630)。本実施形態のS630では、S550で選択した特定ブロックに対する時間ズレ量として導出された、出力音ユニットデータのシフト量と、出力音ユニットデータの伸縮率とに基づいて、出力音の音高が修正された修正楽譜データにおける当該特定ブロックの開始時刻及び終了時刻を修正する。そして、修正前の出力音の演奏開始タイミングの間隔比率が維持されるように、修正後の開始時刻、及び終了時刻にて規定される期間に応じて、出力音の演奏開始タイミングを伸縮させることで、当該特定ブロックに対する個々の出力音の演奏開始タイミングを修正した修正楽譜データを生成する。なお、本実施形態のS630では、出力音の演奏終了タイミングについても修正する。この出力音の演奏終了タイミングの修正方法は、出力音の演奏開始タイミングと同様の方法を用いれば良い。
 続いて、S540にて分割した全ての特定ブロックに対して、時間ズレ量を導出したか否かを判定し(S640)、その判定の結果、全ての特定ブロックに対して時間ズレ量を導出していなければ(S640:NO)、S550に戻る。そのS550では、新たな特定ブロックを選択し、S620までのステップを実行する。このS550では、時間長が長いものから順に特定ブロックを取得して、時間ズレ量を導出する。ただし、時間ズレ量が既に導出されている特定ブロックに隣接する特定ブロックでは、既に導出されている特定ブロックの修正後の開始時刻または終了時刻を、自特定ブロックでの値として導出する。
 一方、S640での判定の結果、全ての特定ブロックに対して時間ズレ量を導出していれば(S640:YES)、その後、本時間補正処理を終了し、データ修正処理へと戻る。
 そのデータ修正処理(図2参照)のS190へと移行すると、S120にて規定した歌詞出力トラックの各歌詞構成文字の歌詞出力タイミングを取得する(S190)。続いて、時間ズレ量導出処理にて導出された時間ズレ量に従って、楽曲音響データDWにおける楽音の演奏開始タイミングに一致するように、S190にて取得した歌詞構成文字の各々の歌詞出力タイミングを修正する(S200)。
 具体的に、本実施形態のS200において歌詞出力タイミングを修正する方法は、先のS630における出力音の演奏開始タイミング及び演奏終了タイミングの修正と同様の方法でも良い。
 そして、修正歌詞出力タイミングである、S200にて修正された歌詞出力タイミング、及び、修正歌詞出力データである、歌詞出力終了タイミングが規定された歌詞出力データDOを生成する(S210)。
 その後、本データ修正処理を終了する。
[第一実施形態の効果]
 以上説明したように、このようなデータ修正処理によれば、歌詞出力データDOにおける歌詞出力タイミングを、対象楽曲を構成する楽音の演奏開始タイミングに対して、時間軸に沿って一致したものへと修正することができる。
 しかも、本実施形態のデータ修正処理では、修正歌詞出力タイミングを規定するときの、歌詞出力タイミングを修正する際に、音声認識処理を一切実行する必要がないため、歌詞構成文字の歌詞出力タイミングを対応付けるべき、楽音の演奏開始タイミングを特定するまでに要するトータルの処理量を、特許文献1に記載された装置に比べて低減できる。
 換言すれば、本発明の歌詞出力データ修正装置によれば、より簡易な方法で、歌詞構成文字の歌詞出力タイミングを、当該歌詞構成文字に対応する楽音の演奏開始タイミングに対応付けることができる。
 特に、本実施形態のデータ修正処理では、時間ズレ量導出処理の実行前に音高補正処理を実行して、楽音の音高に一致するように修正された出力音の音高を有した修正楽曲MIDIデータDMを生成した上で、その修正楽曲MIDIデータDMから出力音推移波形を取得している。この結果、データ修正処理によれば、出力音推移波形と楽音推移波形との間の音高ズレが最小限に抑制され、時間ズレ量の導出精度を向上させることができる。
 ところで、本実施形態のデータ修正処理にて生成される修正歌詞出力データDOは、各歌詞構成文字についての歌詞出力タイミングを、楽曲音響データDWにおける楽音の演奏開始タイミングに一致させるためのデータである。よって、本実施形態の音楽データ配信システム1において、音源モジュールを有していない携帯端末5に、楽曲音響データDWと共に、歌詞テロップデータDTと、修正歌詞出力データDOとを配信して、当該携帯端末5にて、楽曲音響データDWの再生に併せて、楽曲音響データ中の楽音に時間同期させて、歌詞構成文字を出力すれば、当該携帯端末5においても、カラオケを楽しむことができる。
[第二実施形態]
 次に、本発明の第二実施形態について説明する。
 第二実施形態における音楽データ配信システムは、第一実施形態における音楽データ配信システム1とは、歌詞出力データDOの構造、及び情報処理装置20が実行するデータ修正処理の処理内容が異なるのみである。このため、第二実施形態では、第一実施形態の音楽データ配信システム1と同様の構成には、同一の符号を付して説明を省略し、歌詞出力データDOの構造、及び情報処理装置20が実行するデータ修正処理の処理内容を中心に説明する。
 本実施形態の歌詞出力データDOは、第一実施形態の歌詞出力データDOと同様、歌詞構成文字の歌詞出力タイミングを、楽曲MIDIデータDMの演奏と対応付けるタイミング対応関係が規定されている。
 具体的に、本実施形態におけるタイミング対応関係は、図7に示すように、歌詞構成文字の各々に対する歌詞出力タイミングが、当該歌詞構成文字に対応する出力音の演奏開始タイミングと対応付けられている。さらには、本実施形態におけるタイミング対応関係では、図7に示すように、歌詞構成文字の各々に対する歌詞出力終了タイミングが、当該歌詞構成文字に対応する出力音の演奏終了タイミングと対応付けられている。
 次に、本実施形態におけるデータ修正処理について説明する。
 ここで、図8は、本実施形態におけるデータ修正処理の処理手順を示すフローチャートである。
 このデータ修正処理は、入力受付部22を介して、当該データ修正処理を起動するための起動指令が入力されると、実行が開始されるものである。
 そして、図8に示すように、データ修正処理は、起動されると、対象楽曲に対応する楽曲MIDIデータDMを、音楽データ格納サーバ3から取得する(S710)。
 続いて、対象楽曲に対応する楽曲音響データDWを音楽データ格納サーバ3から取得する(S730)。その取得した楽曲音響データDWから、当該楽曲音響データDWにおける楽音推移波形を取得する(S740)。
 そして、音高補正処理を実行する(S750)。この音高補正処理は、第一実施形態における音高補正処理(S150)と同様であるため、内容の具体的な説明は省略する。
 さらに、時間ズレ量導出処理を実行する(S770)。この時間ズレ量導出処理は、第一実施形態における時間ズレ量導出処理(S170)と同様であるため、内容の具体的な説明は省略する。
 続いて、S770にて修正された楽曲MIDIデータDMにおける出力音の演奏開始タイミングと、S710で取得された修正前の楽曲MIDIデータDMにおける出力音の演奏開始タイミングとの差分を導出する(S790)。本実施形態のS790では、具体的には、下記(1)式に基づいて、個々の出力音についての差分である、オンセット差分時間dOnset,オフセット差分時間dOffsetを導出する。
Figure JPOXMLDOC01-appb-M000001

 ただし、(1)式中のaOnsetは、修正された楽曲MIDIデータDMにおける出力音の演奏開始タイミングであり、bOnsetは、修正前の楽曲MIDIデータDMにおける出力音の演奏開始タイミングである。また、(1)式におけるaOffsetは、修正された楽曲MIDIデータDMにおける出力音の演奏終了タイミングであり、bOffsetは、修正前の楽曲MIDIデータDMにおける出力音の演奏終了タイミングである。
 つまり、S790では、各出力音について、オンセット差分時間dOnset,オフセット差分時間dOffsetが導出される。
 続いて、対象楽曲についての歌詞出力データDOを、音楽データ格納サーバ3から取得して、当該歌詞出力データDOにおける各歌詞構成文字の歌詞出力タイミングを取得する(S800)。
 さらに、S790で導出されたオンセット差分時間dOnset,オフセット差分時間dOffsetに従って、楽曲音響データDWにおける楽音の演奏開始タイミングに一致するように、S800で取得した歌詞出力データDOにおける歌詞構成文字の各々の歌詞出力タイミングを修正する(S810)。
 具体的に、本実施形態のS810では、下記(2)に基づいて、歌詞構成文字の各々について、修正した歌詞出力タイミングmOnset、及び修正した歌詞出力終了タイミングmOffsetを導出する。
Figure JPOXMLDOC01-appb-M000002
 ただし、(2)式中のlOnsetは、歌詞出力データDOにおける歌詞構成文字の歌詞出力タイミングであり、lOffsetは、歌詞出力データDOにおける歌詞構成文字の歌詞出力終了タイミングである。
 つまり、S810では、歌詞構成文字それぞれの歌詞出力タイミング及び歌詞出力終了タイミングについて、楽曲音響データDWにおける楽音それぞれの演奏開始タイミングに一致するように、オンセット差分時間dOnset,オフセット差分時間dOffsetシフトすることで修正される。
 そして、S810にて修正された歌詞出力タイミング(即ち、修正歌詞出力タイミング)及び歌詞出力終了タイミングが規定された歌詞出力データ(即ち、修正歌詞出力データ)を生成する(S820)。
 その後、本データ修正処理を終了する。
[第二実施形態の効果]
 本実施形態のデータ修正処理においても、第一実施形態のデータ修正処理と同様の効果を得ることができる。
 特に、本実施形態のように構成された歌詞出力データDOを修正する場合、各歌詞構成文字の歌詞出力タイミングを、出力音の演奏開始タイミングと対応付ける必要が無いため、修正歌詞出力データDOを容易に生成できる。
[その他の実施形態]
 以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
 例えば、上記第二実施形態のデータ修正処理のS810では、歌詞構成文字それぞれの歌詞出力タイミング及び歌詞出力終了タイミングについて、オンセット差分時間dOnset,オフセット差分時間dOffsetシフトすることで修正していたが、歌詞出力タイミング及び歌詞出力終了タイミングの修正方法は、これに限るものではなく、第一実施形態のデータ修正処理における歌詞出力データの修正方法を適用しても良い。
 また、第一実施形態のデータ修正処理においては、対象楽曲に対応する歌詞出力データDOを音楽データ格納サーバ3から取得し、当該楽曲MIDIデータDMに規定されている出力音の演奏開始タイミングと、歌詞出力データDOに規定された歌詞構成文字の歌詞出力タイミングとを対応付けた上で、その出力音の演奏開始タイミングと対応付けられた、歌詞構成文字の歌詞出力タイミングを修正しても良い。このとき、歌詞出力終了タイミングも、各歌詞構成文字に対応すると推定される出力音の演奏終了タイミングと対応付けても良い。
 この対応付けの方法としては、色替えの速度から特定される各歌詞構成文字の歌詞出力タイミングを、各歌詞構成文字に対応すると推定される出力音の演奏開始タイミングとして設定した、楽曲MIDIデータDMの新たなトラック(以下、歌詞出力トラックとする)を生成する。
 なお、第一実施形態のデータ修正処理における歌詞構成文字の歌詞出力タイミング、または、歌詞出力終了タイミングを修正する方法は、同一のテンポ一定区間ごとに、当該区間に含まれる、歌詞構成文字の歌詞出力タイミング、または、歌詞出力終了タイミングを、オンセット差分時間dOnsetまたはオフセット差分時間dOffsetシフトする方法でも良い。
 また、第一実施形態と第二実施形態のデータ修正処理では、音高補正処理と時間ズレ量導出処理との両方の処理を実行していたが、データ修正処理で実行する処理としては、時間ズレ量導出処理のみであっても良い。
[実施形態と特許請求の範囲との対応関係]
 最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
 上記実施形態のデータ修正処理におけるS140,S740が、特許請求の範囲の記載における楽音推移取得手段に相当し、時間ズレ量導出処理のS510が、出力音推移取得手段に相当し、データ修正処理におけるS190,S800が、歌詞出力データ取得手段に相当する。さらに、時間ズレ量導出処理のS520~S620が、時間ズレ量導出手段に相当し、データ修正処理におけるS200,S810が、タイミング修正手段に相当する。
 また、時間ズレ量導出処理におけるS520,S540からS560が、出力音変化導出手段に相当し、S530からS560が、楽音変化導出手段に相当し、S570からS610が、時間相関導出手段に相当し、S620が、時間補正量導出手段に相当する。さらに、音高補正処理におけるS320からS430が、音高補正量導出手段に相当し、S440が、楽譜データ修正手段に相当する。このうちのS360からS390が、楽音分布導出手段に相当し、S320からS350が、出力音分布導出手段に相当し、S400からS420が、音高相関導出手段に相当する。
 さらに、時間ズレ量導出処理におけるS630が、演奏開始タイミング補正手段に相当する。
 1…音楽データ配信システム 3…音楽データ格納サーバ 5…携帯端末 6…情報受付部 7…表示部 8…音出力部 9…通信部 10…記憶部 11…制御部 20…情報処理装置 21…通信部 22…入力受付部 23…表示部 24…音声入力部 25…音声出力部 26…音源モジュール 27…記憶部 30…制御部 31…ROM 32…RAM 33…CPU

Claims (10)

  1.  対象楽曲を構成する楽音の音圧が時間軸に沿って推移した楽音推移波形を取得する楽音推移取得手段と、
     前記対象楽曲を模擬した楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽譜データに基づいて、前記出力音の音圧が時間軸に沿って推移した出力音推移波形を取得する出力音推移取得手段と、
     前記対象楽曲の歌詞を構成する歌詞構成文字の出力タイミングである歌詞出力タイミングを規定するデータであり、かつ前記歌詞構成文字の少なくとも1つに対する前記歌詞出力タイミングが、前記楽譜データに対して規定された少なくとも1つのタイミングである特定開始タイミングと対応付けられた歌詞出力データを取得する歌詞出力データ取得手段と、
     前記楽音推移取得手段にて取得した楽音推移波形から抽出した該楽音推移波形の特性を表す楽音情報と、前記出力音推移取得手段にて取得した出力音推移波形から抽出した該出力音推移波形の特性を表す出力音情報とを比較した結果に基づき、前記出力音の各々の演奏開始タイミングに対する、各出力音に対応する前記楽音の演奏開始タイミングのズレ量を表す時間ズレ量を導出する時間ズレ量導出手段と、
     前記楽音の演奏開始タイミングに一致するように、前記歌詞出力データ取得手段で取得した歌詞出力データにおける前記歌詞出力タイミングを、前記時間ズレ量導出手段で導出された時間ズレ量に従って修正した修正歌詞出力タイミングを規定するタイミング修正手段と
    を備えることを特徴とする歌詞出力データ修正装置。
  2.  前記時間ズレ量導出手段は、
     前記楽音推移取得手段にて取得した楽音推移波形から、該楽音推移波形の非調波成分である楽音非調波を抽出し、時間軸に沿った楽音非調波の変化を表す楽音変化を、前記楽音情報として導出する楽音変化導出手段と、
     前記出力音推移取得手段にて取得した出力音推移波形から、該出力音推移波形の非調波成分である出力音非調波を抽出し、時間軸に沿った出力音非調波の変化を表す出力音変化を、前記出力音情報として導出する出力音変化導出手段と、
     前記楽音変化導出手段にて導出された楽音変化と、前記出力音変化導出手段にて導出された出力音変化との相関値を表す時間相関値を、前記楽音変化の時間軸上に規定された基準位置に、前記出力音変化の時間軸上に設定された設定位置を一致させて前記出力音変化を時間軸に沿って伸縮する毎に導出すると共に、前記設定位置を規定範囲内で時間軸に沿って順次変更する時間相関導出手段と、
     前記時間相関導出手段にて導出された時間相関値の中で、値が最大となる時間相関値に対応する前記出力音変化の伸縮率及び前記設定位置を、時間補正量として導出する時間補正量導出手段と
     を備え、
     前記時間補正量導出手段にて導出した時間補正量を、前記時間ズレ量とする
     ことを特徴とする請求項1に記載の歌詞出力データ修正装置。
  3.  前記楽音情報の1つと、前記出力音情報の1つとを比較した結果に基づき、前記出力音の音高が、該出力音に対応する前記楽音の音高に一致するように音高補正量を導出する音高補正量導出手段と、
     前記楽譜データに規定された前記出力音の各々の音高を、前記音高補正量導出手段で導出した音高補正量に従ってシフトすることで、前記楽譜データを修正した修正楽譜データを生成する楽譜データ修正手段と、
     を備え、
    前記時間ズレ量導出手段は、
     前記楽譜データ修正手段にて生成された修正楽譜データに基づく前記出力音推移波形である修正音推移波形を、前記出力音推移取得手段で取得した前記出力音推移波形とする
     ことを特徴とする請求項1または請求項2に記載の歌詞出力データ修正装置。
  4.  前記音高補正量導出手段は、
     前記楽音推移波形に含まれる周波数と各周波数の強さとを表し、該周波数の強さについて正規化した楽音音高分布を、前記楽音情報の一つとして導出する楽音分布導出手段と、
     前記出力音推移波形に含まれる周波数と各周波数の強さとを表し、該周波数の強さについて正規化した出力音高分布を、前記出力音情報の一つとして導出する出力音分布導出手段と、
     前記出力音分布導出手段にて導出された出力音高分布と、前記楽音分布導出手段にて導出された楽音音高分布との相関値を表す音高相関値を、前記楽音音高分布の予め規定された規定位置から前記出力音高分布を周波数軸に沿ってシフトさせる毎に導出する音高相関導出手段とを備え、
     前記音高相関導出手段にて導出された音高相関値の中で、値が最大となる音高相関値に対応する前記規定位置からの周波数軸に沿ったシフト量を、前記音高補正量として導出する
     ことを特徴とする請求項3に記載の歌詞出力データ修正装置。
  5.  前記歌詞出力データは、
     前記歌詞構成文字のうちの少なくとも一部について、前記特定開始タイミングからの経過時間によって前記歌詞出力タイミングが規定されており、
     前記タイミング修正手段は、
     前記経過時間によって前記歌詞出力タイミングが規定された前記歌詞構成文字の前記歌詞出力タイミングについて、前記修正歌詞出力タイミングを規定する
     ことを特徴とする請求項4に記載の歌詞出力データ修正装置。
  6.  少なくとも一部の前記出力音の前記演奏開始タイミングが、前記特定開始タイミングとして規定されており、
     前記歌詞出力データは、
     前記歌詞構成文字の各々の歌詞出力タイミングに、当該歌詞構成文字に対応する前記特定開始タイミングが対応付けられており、
     前記タイミング修正手段は、
     前記歌詞構成文字の各々について、前記修正歌詞出力タイミングを規定する
     ことを特徴とする請求項4に記載の歌詞出力データ修正装置。
  7.  前記出力音の演奏開始タイミングを、前記時間ズレ量シフトさせた修正演奏開始タイミングを導出する演奏開始タイミング補正手段を備え、
     前記タイミング修正手段は、
     前記演奏開始タイミング補正手段で導出された修正演奏開始タイミングを、前記修正歌詞出力タイミングとする
     ことを特徴とする請求項6に記載の歌詞出力データ修正装置。
  8.  前記出力音の演奏開始タイミングを、前記時間ズレ量シフトさせた修正演奏開始タイミングを導出する演奏開始タイミング補正手段と、
     前記タイミング修正手段は、
     前記演奏開始タイミング補正手段で導出された修正演奏開始タイミングと前記出力音の演奏開始タイミングとの差分、前記歌詞出力タイミングをシフトさせることで、前記修正歌詞出力タイミングを規定する
     ことを特徴とする請求項5に記載の歌詞出力データ修正装置。
  9. (日本出願、請求項8を単一項としたもの)
     前記出力音の演奏開始タイミングを、前記時間ズレ量シフトさせた修正演奏開始タイミングを導出する演奏開始タイミング補正手段と、
     前記タイミング修正手段は、
     前記演奏開始タイミング補正手段で導出された修正演奏開始タイミングと前記出力音の演奏開始タイミングとの差分、前記歌詞出力タイミングをシフトさせることで、前記修正歌詞出力タイミングを規定する
     ことを特徴とする請求項6に記載の歌詞出力データ修正装置。
  10.  対象楽曲を構成する楽音の音圧が時間軸に沿って推移した楽音推移波形を取得する楽音推移取得手順と、
     前記対象楽曲を模擬した楽曲の楽譜を表し、音源モジュールから出力される個々の出力音について、少なくとも音高及び演奏開始タイミングが規定された楽譜データに基づいて、前記出力音の音圧が時間軸に沿って推移した出力音推移波形を取得する出力音推移取得手順と、
     前記対象楽曲の歌詞を構成する歌詞構成文字の出力タイミングである歌詞出力タイミングを規定するデータであり、かつ前記歌詞構成文字の少なくとも1つに対する前記歌詞出力タイミングが、前記楽譜データに対して規定された少なくとも1つのタイミングである特定開始タイミングと対応付けられた歌詞出力データを取得する歌詞出力データ取得手順と、
     前記楽音推移取得手順にて取得した楽音推移波形から抽出した該楽音推移波形の特性を表す楽音情報と、前記出力音推移取得手順にて取得した出力音推移波形から抽出した該出力音推移波形の特性を表す出力音情報とを比較した結果に基づき、前記出力音の各々の演奏開始タイミングに対する、各出力音に対応する前記楽音の演奏開始タイミングのズレ量を表す時間ズレ量を導出する時間ズレ量導出手順と、
     前記楽音の演奏開始タイミングに一致するように、前記歌詞出力データ取得手順で取得した歌詞出力データにおける前記歌詞出力タイミングを、前記時間ズレ量導出手順で導出された時間ズレ量に従って修正した修正歌詞出力タイミングを規定するタイミング修正手順とを
     歌詞出力データ修正装置に実行させるプログラムを記憶した有形の記憶媒体。
PCT/JP2012/058542 2011-07-29 2012-03-30 歌詞出力データ修正装置,及びプログラム WO2013018397A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-167210 2011-07-29
JP2011167210A JP5549651B2 (ja) 2011-07-29 2011-07-29 歌詞出力データ修正装置,及びプログラム

Publications (1)

Publication Number Publication Date
WO2013018397A1 true WO2013018397A1 (ja) 2013-02-07

Family

ID=47628939

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/058542 WO2013018397A1 (ja) 2011-07-29 2012-03-30 歌詞出力データ修正装置,及びプログラム

Country Status (2)

Country Link
JP (1) JP5549651B2 (ja)
WO (1) WO2013018397A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004212473A (ja) * 2002-12-27 2004-07-29 Matsushita Electric Ind Co Ltd カラオケ装置及びカラオケ再生方法
JP2007219000A (ja) * 2006-02-14 2007-08-30 Yamaha Corp 楽曲再生装置およびデータファイル制作ツール
JP2011053590A (ja) * 2009-09-04 2011-03-17 Yamaha Corp 音響処理装置およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5141397B2 (ja) * 2008-06-24 2013-02-13 ヤマハ株式会社 音声処理装置およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004212473A (ja) * 2002-12-27 2004-07-29 Matsushita Electric Ind Co Ltd カラオケ装置及びカラオケ再生方法
JP2007219000A (ja) * 2006-02-14 2007-08-30 Yamaha Corp 楽曲再生装置およびデータファイル制作ツール
JP2011053590A (ja) * 2009-09-04 2011-03-17 Yamaha Corp 音響処理装置およびプログラム

Also Published As

Publication number Publication date
JP5549651B2 (ja) 2014-07-16
JP2013029762A (ja) 2013-02-07

Similar Documents

Publication Publication Date Title
JP2015069082A (ja) 情報処理装置,データ生成方法,及びプログラム
JP5598516B2 (ja) カラオケ用音声合成システム,及びパラメータ抽出装置
JP5782972B2 (ja) 情報処理システム,プログラム
JP6252420B2 (ja) 音声合成装置、及び音声合成システム
JP6406273B2 (ja) カラオケ装置,及びプログラム
JP5267495B2 (ja) 楽器音分離装置、及びプログラム
JP5810947B2 (ja) 発声区間特定装置、音声パラメータ生成装置、及びプログラム
JP6075314B2 (ja) プログラム,情報処理装置,及び評価方法
JP5413380B2 (ja) 楽曲データ修正装置
JP6075313B2 (ja) プログラム,情報処理装置,及び評価データ生成方法
JP5310677B2 (ja) 音源分離装置、及びプログラム
JP2013210501A (ja) 素片登録装置,音声合成装置,及びプログラム
JP5418525B2 (ja) カラオケ装置
JP5549651B2 (ja) 歌詞出力データ修正装置,及びプログラム
JP5569307B2 (ja) プログラム、及び編集装置
JP5983670B2 (ja) プログラム、情報処理装置、及びデータ生成方法
JP6365483B2 (ja) カラオケ装置,カラオケシステム,及びプログラム
JP2015191177A (ja) プログラム、情報処理装置、及びデータ生成方法
JP5287782B2 (ja) 歌唱補助装置、及びプログラム
JP5541008B2 (ja) データ修正装置、及びプログラム
JP6011506B2 (ja) 情報処理装置,データ生成方法,及びプログラム
JP5805474B2 (ja) 音声評価装置,音声評価方法,及びプログラム
JP4967170B2 (ja) 伴奏作成システム及び伴奏作成方法,プログラム
JP6281447B2 (ja) 音声合成装置,及び音声合成システム
JP6252408B2 (ja) 表示制御装置,及び表示制御システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12819325

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12819325

Country of ref document: EP

Kind code of ref document: A1