WO2010095622A1 - 音楽音響信号生成システム - Google Patents

音楽音響信号生成システム Download PDF

Info

Publication number
WO2010095622A1
WO2010095622A1 PCT/JP2010/052293 JP2010052293W WO2010095622A1 WO 2010095622 A1 WO2010095622 A1 WO 2010095622A1 JP 2010052293 W JP2010052293 W JP 2010052293W WO 2010095622 A1 WO2010095622 A1 WO 2010095622A1
Authority
WO
WIPO (PCT)
Prior art keywords
musical instrument
acoustic signal
harmonic
parameter
type
Prior art date
Application number
PCT/JP2010/052293
Other languages
English (en)
French (fr)
Inventor
武宏 安部
直希 安良岡
克寿 糸山
博 奥乃
Original Assignee
国立大学法人京都大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人京都大学 filed Critical 国立大学法人京都大学
Priority to US13/201,757 priority Critical patent/US8831762B2/en
Priority to JP2011500614A priority patent/JP5283289B2/ja
Priority to EP10743748.5A priority patent/EP2400488B1/en
Publication of WO2010095622A1 publication Critical patent/WO2010095622A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/16Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by non-linear elements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • G10H2250/615Waveform editing, i.e. setting or modifying parameters for waveform synthesis.
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • the present invention relates to a music acoustic signal generation system and method capable of changing the tone color of a music acoustic signal, and a computer program used to implement the method on a computer.
  • instrument sound equalizer In recent years, a new technology called instrument sound equalizer has been developed that specializes in music acoustic signals and can be used to manipulate the volume and replace timbres in musical instruments. Equalizers installed in many audio players change the sound of music by operating the frequency band, but it is expected that the range of music appreciation will be further expanded by the operation of the musical instrument unit provided by the musical instrument sound equalizer.
  • Drumix such as Yoshii described in Non-Patent Document 1, volume operation and tone change are realized in units of percussion instruments such as snare drums and bass drums.
  • Non-Patent Document 2 can perform volume control not only for percussion instruments but also for all musical instruments, but does not deal with the timbre change realized by Drumix.
  • PCT / JP2008 / 57310 WO2008 / 133097
  • the conventional technology it was not possible to change any musical instrument part to the user's favorite tone.
  • the conventional technique cannot synthesize a performance sound signal with a performance expression for a musical score of an unknown performance.
  • An object of the present invention is to provide a music sound signal generation system and method, and a computer program for changing a tone color, which can change the tone color of an arbitrary musical instrument part in an existing music acoustic signal to an arbitrary tone color.
  • Another object of the present invention is to provide a music acoustic signal generating system capable of synthesizing a performance with a performance expression for a musical score of an unknown performance using the tone color of an arbitrary musical instrument part in an existing music acoustic signal. is there.
  • an arbitrary instrument part can be changed to the user's favorite tone, for example, the instrumental sound of guitar, bass, keyboard, etc. that make up a rock-like song can be replaced with the instrumental sound of violin, wood bass, piano, etc.
  • the user can arrange and enjoy the music in a classic style. Further, by extracting a guitar sound from a musical piece played by a favorite guitarist and replacing the guitar part of another musical piece with the guitar sound, the user can cause the guitarist to perform various phrases. Furthermore, by synthesizing the intermediate sound from the target sound to be replaced, it is possible to widen the appreciation of music while widening variations in timbre change.
  • the basic music sound signal tone color changing system includes a signal extraction storage unit, a separated acoustic signal analysis storage unit, a replacement parameter storage unit, a replacement parameter creation storage unit, and a synthesized separated acoustic signal.
  • a generation unit and a signal addition unit are provided.
  • the signal extraction storage unit stores the separated sound signal extracted from the music sound signal including the instrument sound generated from the first type instrument for each single sound, and also stores the residual sound signal.
  • the separated acoustic signal is an acoustic signal including only a single musical instrument sound generated from the first type musical instrument, and the residual acoustic signal includes other acoustic signals such as acoustic signals of other musical instruments.
  • the music sound signal may be separated from a mixed sound signal including sound signals of a plurality of types of instruments, or may be a single instrument sound signal obtained by playing one instrument from the beginning.
  • an acoustic signal separation unit that executes a known acoustic signal separation technique may be provided.
  • separating the music sound signal from the mixed sound signal using the separation technique proposed by Itoyama et al.
  • all the sound signals of other musical instrument parts can be separated individually, Various parameters such as overtone peak parameters can be analyzed.
  • the separated acoustic signal analysis storage unit converts the separated acoustic signal for each single sound into harmonic peak parameters (normally, n harmonic peaks parameters per nth (for nth harmonic)) indicating at least the relative intensity of the nth harmonic component. And a number of parameters including power envelope parameters indicating the power envelope in the time direction of the nth harmonic component (usually there are power envelope parameters for the number of harmonic peaks per single tone).
  • harmonic peak parameters normally, n harmonic peaks parameters per nth (for nth harmonic)
  • power envelope parameters indicating the power envelope in the time direction of the nth harmonic component (usually there are power envelope parameters for the number of harmonic peaks per single tone).
  • Such a harmonic model including a plurality of parameters is described in detail in Non-Patent Document 2 and PCT / JP2008 / 57310 (WO2008 / 133097: Patent Document 1).
  • the harmonic model is composed of a plurality of parameters including at least a harmonic peak parameter indicating the relative intensity of the nth harmonic component and a power envelope parameter indicating the power envelope of the nth harmonic component in the time direction.
  • it is not particularly limited to the harmonic model described in Non-Patent Document 2 above.
  • a harmonic model that incorporates anharmonicity of the harmonic structure is used as the harmonic model, it is possible to improve the parameter generation accuracy when the first type musical instrument is a stringed musical instrument.
  • the overtone structure of the stringed instrument sound does not take a strict integer multiple, and the frequency of each overtone peak slightly increases depending on the string stiffness and length. This is called an inharmonicity trap. This anharmonicity becomes more significant as the frequency increases. Therefore, if a harmonic model that takes into account the inharmonicity is used, when the first type of instrument is a stringed instrument, the parameter can be determined in consideration of the shift of the harmonic peak frequency in the higher direction. Note that the harmonic model considering the inharmonicity is not only used in the analysis but also naturally used in the synthesis. When a harmonic model is used during synthesis, a variable indicating the inharmonicity of the harmonic structure (anharmonicity) can be predicted using a pitch-dependent feature function.
  • a single harmonic peak parameter is typically expressed as a real number representing the intensity of the harmonic peak appearing in the frequency direction.
  • the power envelope parameter is a time direction of the power of the harmonic peak at the same time included in the harmonic peak parameter indicating the relative intensity of the n nth harmonic components (a plurality of harmonic peaks having the same frequency but different times).
  • the power envelope parameter is not limited to the power envelope parameter described in Non-Patent Document 2 above.
  • the power envelope parameter at each frequency has a similar shape.
  • the shape of a single power envelope parameter of an attenuation instrument such as a piano or a stringed instrument has a change pattern that attenuates after a large rise.
  • the shape of the power envelope parameter of a single tone of a continuous instrument such as a trumpet or wind instrument has a change pattern having a gradual change part between a rising part and a falling part.
  • the data format of the harmonic peak parameter and power envelope parameter to be stored is arbitrary.
  • the replacement parameter storage unit generates a single sound of all the first type musical instruments included in the music acoustic signal created from the acoustic signal of the musical instrument sound generated from the second type musical instrument different from the first type musical instrument.
  • Relative of the nth harmonic components of a plurality of single notes generated from the second type musical instrument, which are necessary when expressing a plurality of single-tone acoustic signals generated from the second type musical instrument corresponding to Stores harmonic peak parameters and power envelope parameters indicating intensity.
  • the harmonic peak parameter indicating the relative intensity of the nth harmonic component of a plurality of single notes generated from the second type of musical instrument may be created in advance.
  • the data format of the created harmonic peak parameter may be a real number format or a function format and is arbitrary.
  • the replacement parameter creation storage unit stores a plurality of harmonic peaks included in the harmonic peak parameter indicating the relative intensity of the nth harmonic component for each single tone of the first type musical instrument stored in the separated acoustic signal analysis storage unit, A plurality of overtones included in the harmonic peak parameter indicating the relative intensity of the n-th overtone component of the second type musical instrument corresponding to the first type musical instrument single tone stored in the replacement parameter data storage unit Create and save replacement harmonic peak parameters by replacing with peaks.
  • the replacement overtone peak parameter is obtained by replacing all overtone peak parameters with overtone peak parameters obtained from the instrument sound of the second type of musical instrument.
  • the synthesized separated acoustic signal generation unit uses the other parameters excluding the overtone peak parameter stored in the separated acoustic signal analysis storage unit and the replacement overtone peak parameter stored in the replacement parameter storage unit for each tone.
  • a synthesized separated acoustic signal is generated.
  • the signal adding unit adds the synthesized separated acoustic signal and the residual acoustic signal, and outputs a music acoustic signal including instrument sounds generated from the second type instrument.
  • the timbre of various musical instrument parts can be easily changed. Can be realized. If the change pattern of the power envelope parameter obtained from a single tone of the first type musical instrument is close to the change pattern of the power envelope parameter obtained from a single tone of the second type musical instrument, the change accuracy of the timbre Becomes higher. Conversely, if the change patterns of the two are greatly different, the timbre changes, but the instrument sound of the second type instrument is a timbre change that gives the impression that the atmosphere or image of the first type instrument remains. . Such a timbre change may also be desired by some users. In order to increase the timbre change accuracy, it is preferable to change the timbre between musical instruments having a common power envelope parameter change pattern.
  • the replacement parameter storage unit includes the harmonic peak parameter indicating the relative intensity of the nth harmonic component for each of a plurality of single notes of the second type musical instrument, and the time direction of the nth harmonic component.
  • the power envelope parameter indicating the power envelope is also saved.
  • the replacement parameter creation storage unit saves the replacement harmonic peak parameter in the time direction of the nth harmonic component for each single tone of the first type musical instrument stored in the separated acoustic signal analysis storage unit.
  • the power envelope parameter indicating the power envelope is stored in the replacement parameter storage unit, and the time order of the n-th overtone component in the time direction of the second type musical instrument corresponding to the first type musical instrument single tone is stored.
  • the replacement power envelope parameter created by replacing the power envelope parameter indicating the power envelope is saved.
  • the power envelope is set so that the onset and offset of the power envelope parameter of the second type musical instrument and the power envelope parameter of the music acoustic signal match. Stretch and replace. This sound length operation is described in Non-Patent Document 3.
  • the synthesized separated acoustic signal generation unit then replaces the other parameters except the harmonic peak parameters and power envelope parameters stored in the separated acoustic signal analysis storage unit, and the replacement harmonic peak parameters and replacement stored in the replacement parameter creation storage unit.
  • the power envelope parameter a synthesized separated acoustic signal for each single tone is generated.
  • Others are the same as the first invention. In this way, not only the overtone peak is replaced, but also the power envelope parameter change pattern obtained from the second musical instrument single tone instead of the power envelope parameter change pattern obtained from the first musical instrument single tone. Therefore, the accuracy of the timbre change can be increased.
  • a musical instrument classification determining unit that determines whether the first type musical instrument and the second type musical instrument belong to the same musical instrument classification is further provided.
  • the synthesized separated acoustic signal generation unit used in the third invention is the first invention when the musical instrument classification determination unit determines that the first type musical instrument and the second type musical instrument belong to the same musical instrument classification.
  • the synthesized separated acoustic signal for each single tone is obtained using the other parameters excluding the overtone peak parameter stored in the separated acoustic signal analysis storage unit and the replacement overtone peak parameter stored in the replacement parameter creation storage unit. Is generated.
  • the synthesized separated acoustic signal generation unit is stored in the separated acoustic signal analysis storage unit when the instrument classification determination unit determines that the first type musical instrument and the second type musical instrument belong to different instrument classifications.
  • a synthesized separated acoustic signal is generated for each single tone using the other parameters except the overtone peak parameter and power envelope parameter, and the replacement overtone peak parameter and replacement power envelope parameter stored in the replacement parameter creation and storage unit. To do. In this way, the optimum timbre change can be automatically performed regardless of the second type of musical instrument.
  • the separated acoustic signal analysis storage unit has a function of analyzing and storing non-harmonic component distribution parameters in the separated acoustic signal for each single sound. May be.
  • the replacement parameter creation storage unit stores the inharmonic component distribution parameter for each single tone of the first type musical instrument stored in the separated acoustic signal analysis storage unit, stored in the replacement parameter storage unit.
  • the single harmonic non-harmonic component distribution parameter of the second musical instrument is further stored.
  • the synthesized separated acoustic signal generation unit is stored in the replacement parameter creation storage unit with other parameters except the harmonic peak parameters, power envelope parameters, and non-harmonic component distribution parameters stored in the separated acoustic signal analysis storage unit.
  • the timbre change (operation) accuracy is further increased.
  • the non-harmonic component distribution parameter has a low influence on the operation of the timbre, it is not always necessary to consider it.
  • the separated acoustic signal needs to include not only the harmonic component but also the non-harmonic component. Therefore, when dealing with non-harmonic component distribution parameters, it is necessary to use the harmonic model / non-harmonic model integrated model described in Non-Patent Document 2.
  • the residual acoustic signal itself can be regarded as a non-harmonic component, and therefore the harmonic described in Non-Patent Document 2 above.
  • the substitution of non-harmonic component distribution parameters can be applied without using the model / non-harmonic model integrated model.
  • the replacement parameter storage unit further has a function of storing the inharmonic component distribution parameter for each of the plurality of types of single sound of the sound signal of the instrument sound generated from the second type instrument.
  • the replacement parameter storage unit may include a parameter analysis storage unit and a parameter interpolation generation storage unit.
  • the parameter analysis storage unit is required to express the separated acoustic signal for each of a plurality of types of single sounds obtained from the acoustic signal of the musical instrument sound generated from the second type of musical instrument using a harmonic model.
  • a harmonic peak parameter indicating the relative intensity of at least the nth harmonic component for each of a plurality of types of single notes generated from the instrument is analyzed and stored.
  • the power envelope parameter indicating the power envelope in the time direction of the nth harmonic component for a plurality of types of single sound generated from the second type musical instrument is used together with the harmonic peak parameter obtained by analyzing in advance. It is stored in the parameter analysis storage unit. Further, the parameter analysis storage unit stores non-harmonic component distribution parameters. The parameter interpolation generation storage unit generates the second type musical instrument corresponding to all the single sounds included in the music acoustic signal based on the harmonic overtone peak parameters for the plurality of types of single sound stored in the parameter analysis storage unit.
  • the parameter analysis storage unit may store, as a representative power envelope parameter, a power envelope parameter indicating the power envelope in the time direction of the n-th overtone component obtained by the analysis.
  • the replacement parameter storage unit stores, as a pitch-dependent feature function, a harmonic peak parameter for each of a plurality of second-type single sounds based on the data stored in the parameter analysis storage unit and the parameter interpolation generation storage unit. You may further provide a function production
  • the replacement parameter creation storage unit is configured to acquire a plurality of harmonic peaks included in a single harmonic peak parameter of the second type musical instrument from the pitch-dependent feature function. In this way, the amount of stored data can be reduced. Moreover, it is expected to reduce errors in the analysis of a plurality of learning data by functionalizing.
  • the plurality of parameters analyzed by the separated acoustic signal analysis storage unit include a pitch parameter related to pitch and a pitch parameter related to pitch (note that the pitch parameter includes the power envelope parameter). It is preferable to further include a pitch operation unit that operates the pitch parameter and a pitch parameter operation unit that operates the pitch parameter.
  • a pitch operation unit that operates the pitch parameter
  • a pitch parameter operation unit that operates the pitch parameter.
  • the score structure When the plurality of parameters analyzed by the separated acoustic signal analysis storage unit are obtained separately for all the single notes generated from the first type musical instrument, the correspondence between the score structure and the acoustic features is used. It is possible to provide a score operation unit for configuring pitch parameters, tone length parameters, and parameters related to timbres for each single tone of a score having an arbitrary structure.
  • the score manipulating section assumes a pitch parameter corresponding to each single note on the score played by the first type musical instrument, on the assumption that a score having a similar structure is played with a similar sound. Using all of the tone length parameters and the parameters related to the timbre, a pitch parameter, a tone length parameter, and a parameter related to the timbre suitable for each single tone in an arbitrary score structure designated by the user are generated.
  • the “appropriateness” here is defined by the pitch difference between the single note before and after the single note of interest.
  • the musical instrument sound generated from the first type musical instrument or the second type musical instrument when played using the first type musical instrument or the second type musical instrument.
  • You may further provide the score operation part which performs operation for producing
  • the score manipulating section generates a tone related parameter among tone pitch parameters, tone length parameters related to the pitch, and parameters constituting the harmonic model suitable for each single note in the score structure of other score. It is configured.
  • the function of the score operation unit includes a pitch operation unit and a tone length operation unit, but when an arbitrary score structure specified by the user is similar to a score played by the first type of instrument,
  • the operation of the musical score operation unit can be performed with higher accuracy by changing the pitch parameter and the pitch parameter of each single note in an arbitrary musical score structure specified by the user by the functions of the pitch operation unit and the pitch operation unit. It is desirable to use these functions separately from the functions of the pitch operation section and the tone length operation section as necessary.
  • or (D) is a figure which shows the pitch characteristic dependence function of the relative intensity of the 1st overtone of a trumpet, the 4th overtone, the 10th overtone, and the energy ratio of a harmonic component and a non-harmonic component. It is. It is a figure used in order to demonstrate operation of a time envelope. It is a figure used in order to explain operation of a pitch locus.
  • or (C) is a figure which shows the example of the relative intensity between harmonic peaks, the power envelope parameter of a time direction, and the distribution of a subharmonic component.
  • FIG. 1 is a block diagram showing a configuration example in the case where a music acoustic signal generation system according to an embodiment of the present invention is realized using a computer 10.
  • the computer 10 includes a CPU (Central Processing Unit) 11, a RAM (Random Access Memory) 12 such as a DRAM, a hard disk drive (hereinafter referred to as “hard disk”), other mass storage means 13, a flexible disk drive or a CD.
  • An external storage unit 14 such as a ROM drive, and a communication unit 18 that performs communication with a communication network 20 such as a LAN (Local Area Network) or the Internet.
  • the computer 10 also includes an input unit 15 such as a keyboard or a mouse, and a display unit 16 such as a liquid crystal display. Further, the computer 10 is equipped with a sound source 17 such as a MIDI sound source.
  • the CPU 11 operates as a calculation means for executing steps for performing power spectrum separation processing, parameter estimation of updated model parameters (model adaptation) processing, and timbre change (operation) processing.
  • the sound source 17 has an input acoustic signal described later.
  • a standard MIDI file (Standard MIDI File, hereinafter referred to as “SMF”) synchronized in time with an input sound signal for sound source separation is provided as musical score information data.
  • the SMF is recorded on the hard disk 13 via a CD-ROM or the like and the communication network 20.
  • synchronized in time means that the onset time (pronunciation time) and the sound length of a single tone (corresponding to a musical note of a musical score) of each instrument part in the SMF are each in the acoustic signal of the actual input music piece. It means that it is completely synchronized with the single note of the instrument part.
  • SMF is a basic file format for recording performance data of a MIDI sound source.
  • the SMF is composed of data units called “chunks”, which is a unified standard for maintaining the compatibility of MIDI files between different sequencers or sequence software.
  • MIDI events MIDI events
  • SysEx events system exclusive events
  • Meta events Meta events
  • the midi event shows the performance data itself.
  • the system exclusive event mainly indicates a MIDI system exclusive message.
  • the system exclusive message is used for exchanging information unique to a specific instrument, and for transmitting special non-music information, event information, and the like.
  • the meta event includes information on the entire performance such as tempo and time signature, and additional information such as lyrics and copyright information used by the sequencer and sequence software. All meta events begin with 0xFF, followed by a byte representing the event type, followed by the data length and the data itself.
  • the MIDI performance program is designed to ignore meta events that it cannot recognize.
  • Each event is added with timing information regarding the timing of executing the event. This timing information is indicated by a time difference from the execution of the immediately preceding event. For example, when this timing information is “0”, an event to which this timing information is added is executed simultaneously with the immediately preceding event.
  • music playback using the MIDI standard employs a system that models various signals and musical instrument-specific timbres, and controls the sound source storing the data with various parameters.
  • Each track of the SMF corresponds to each musical instrument part and includes a separation signal for each musical instrument part.
  • the SMF includes information such as pitch, onset time, tone length or offset time, and instrument label.
  • a sample of a sound (this is called a “template sound”) that is somewhat close to each single sound in the input acoustic signal is generated by playing it with a MIDI sound source.
  • a template sound A template of data represented by a standard power spectrum corresponding to a single sound generated from a certain instrument can be created from the template sound.
  • the template sound or template is not completely the same as the actual input sound signal single sound or single sound power spectrum, and there is always an acoustic difference. Therefore, a template sound or a template cannot be used as it is as a separated sound or a power spectrum for separation.
  • the sound source separation system proposed by Itoyama et al. In Non-Patent Document 2 is used, the updated power spectrum of a single sound is close to the initial power spectrum described later, and is close to the latest power spectrum of a single sound separated from the input sound signal.
  • model adaptation By performing learning that gradually approaches (this is referred to as “model adaptation”), a plurality of parameters included in the updated model parameters can be finally converged in a desired form, and separation becomes possible.
  • model adaptation a plurality of parameters included in the updated model parameters can be finally converged in a desired form, and separation becomes possible.
  • other techniques can be used for the sound source separation system.
  • a timbre feature amount expressing a timbre feature used in this specification is defined, and harmonics and non-harmonics used for analysis and synthesis of music acoustic signals (instrument sounds) are defined.
  • the wave integration model will be described.
  • timbre features When several actual sounds of an instrument are obtained, they are synthesized by synthesizing sounds with arbitrary pitches and lengths and sounds that contain multiple timbre features based on them. Sound is obtained. At this time, an important point is to prevent the timbre feature from being distorted. For example, when a sound having other pitches is synthesized from a musical instrument sound having a certain pitch by a tone length operation, it must be felt that these sounds are emitted from the same musical instrument individual.
  • the following three feature quantities are defined to synthesize musical instrument sounds while suppressing distortion of timbre acoustic features.
  • FIG. 2 is a diagram used for explaining parameter analysis of a separated acoustic signal and a replacement acoustic signal used for replacement.
  • the above-described feature quantities (i) and (iii) relate to harmonic components, and the feature amount (ii) relates to non-harmonic components.
  • each feature amount is analyzed.
  • the harmonic / non-harmonic integrated model developed by Itoyama et al. Shown in Non-Patent Document 2 is extended to analyze the timbre feature value.
  • the harmonic / non-harmonic integrated model shown in Non-Patent Document 2 may be used as it is.
  • the expanded part is described below.
  • the harmonic component and the non-harmonic component are explicitly divided and handled using the extended harmonic / non-harmonic integrated model. That is, for a monotone spectrogram M (f, r), the model M (H) (f, r) corresponding to the harmonic component and the model M (I) (f, r) corresponding to the inharmonic component are
  • the mixed model weighted by (H) and ⁇ (I) is expressed as follows.
  • f and r represent the frequency and time in the power spectrum, respectively.
  • M (H) (f, r) is expressed as a weighted mixture model of a parametric model for each overtone n.
  • F n (f, r) and E n (r) are a frequency envelope and an n that include a harmonic peak parameter indicating the relative intensity of the n-th harmonic component as shown in FIG. 3 and FIG.
  • This model includes a power envelope parameter (power envelope parameter) indicating a power envelope in the time direction of the second harmonic component.
  • v n corresponds to a harmonic peak parameter indicating the relative intensity of the nth harmonic component.
  • the inharmonic model ⁇ (I) M (I) (f, r) corresponds to the inharmonic component distribution parameter.
  • F n (f, r) is expressed as the normal distribution of one element constituting the mixed normal distribution multiplied by the mixing ratio.
  • is a dispersion of harmonic peaks in the frequency direction
  • ⁇ n (r) is the frequency trajectory of the nth harmonic peak, and the following equation is derived from the pitch trajectory ⁇ (r) and the anharmonicity B for incorporating the anharmonicity based on the theoretical formula of inharmonicity: It is expressed as follows.
  • anharmonicity is a property peculiar to the harmonic peak of a stringed instrument sound, and the anharmonicity B varies depending on the tension, hardness, and length of the string.
  • the frequency at which the harmonic peak having anharmonicity is generated can be obtained from the above formula.
  • harmonic model expanded so as to express anharmonicity can be used, more accurate harmonic peak analysis can be provided in the separated acoustic signal analysis storage unit 3 and the replacement parameter storage unit 4 described later.
  • the effect of the present invention can be obtained even if a conventional harmonic model (model with anharmonic degree B of 0) is used.
  • Anharmonicity is pitch dependent. Therefore, when performing pitch operation and timbre operation of musical instrument sounds (separated sound signals) having different pitches, the inharmonicity predicted from the pitch-dependent feature function is used in the replacement parameter creation storage unit 6 described later. preferable.
  • the aforementioned timbre feature quantities (i), (ii) and (iii) are replaced by v n , ⁇ (I) M (I) (f, r) and E n (r) (replaced, respectively). Parameter).
  • t represents the sample address of the signal.
  • FIG. 5 is a block diagram showing a configuration of a timbre changing system for music acoustic signals as an example of an embodiment of the present invention using the extended harmonic / non-harmonic integrated model described above.
  • This musical sound signal tone changing system includes an acoustic signal separation unit 1, a signal extraction storage unit 2, a separated acoustic signal analysis storage unit 3, a replacement parameter creation storage unit 4, an instrument classification determination unit 5, and a replacement type.
  • a parameter storage unit 6, a synthesized / separated acoustic signal generation unit 7, a signal addition unit 8, a pitch operation unit 9A, and a tone length operation unit 9B are provided.
  • the acoustic signal separation unit 1 separates the music acoustic signal of each music part from the mixed music acoustic signal using the expanded harmonic / non-harmonic integrated model described above.
  • the problem is that the unknown parameters ⁇ (H) , ⁇ (I) , F n (f, r), E n (r ), v n , ⁇ , (r) ⁇ , M (I) (f, r).
  • M ⁇ (I) (f, r) is a non-harmonic model smoothed in the frequency direction. Since the non-harmonic model has a very high degree of freedom, the harmonic structure to be expressed by the harmonic model is excessively adapted. In order to prevent over adaptation of the non-harmonic model, a distance from the smoothed non-harmonic model is added to the cost function.
  • E ⁇ (r) is a power envelope parameter averaged for each harmonic peak. The power of each overtone peak is expressed by integrating the relative intensity between overtone peaks and a vector quantity such as a power envelope parameter and a scalar quantity such as harmonic energy.
  • ⁇ (v) and ⁇ (E n ) are Lagrangian undetermined multiplier terms corresponding to v n and E n (r), respectively.
  • ⁇ (I) and ⁇ (E) are the constraint weights for the non-harmonic component and the power envelope parameter, respectively.
  • Sn (H) (f, r) and S (I) (f, r) are respectively separated peak components and inharmonic components. These separations are performed by integrating the distribution functions Dn (H) (f, r) and D (I) (f, r), respectively, as follows:
  • the partition function used for the separation is obtained by fixing the parameters of the model and minimizing the cost function J, and is derived by the following equation.
  • the constraint weight 0 ⁇ ⁇ ⁇ 1 is added to the partition function used for separating the non-harmonic component as in the following equation.
  • the constraint weight ⁇ ⁇ is assigned a low value at the beginning of the iterative process and is updated so as to gradually approach 1.
  • the acoustic signal separation unit 1 estimates the parameters from the separated acoustic signal for each single sound at the same time as the separation of the acoustic signals of the instrument sounds constituting each instrument part (generation of separated acoustic signals) using the above model. As a result, when the above model is used, most of the acoustic signal separation unit 1, the signal extraction storage unit 2, and the separated acoustic signal analysis storage unit 3 are realized. When the model is not used, the acoustic signal separation unit 1 separates the music acoustic signal using a known separation technique. By estimating the parameters, the separation of one music acoustic signal is completed.
  • the signal extraction storage unit 2 is extracted from the music sound signal including the instrument sound generated from the first type instrument separated by the sound signal separation unit 1.
  • An acoustic signal is stored for each single tone and a residual acoustic signal is stored.
  • the separation technique of Non-Patent Document 2 is used, the separated acoustic signal and the residual acoustic signal are separated and extracted. Note that even if the music acoustic signal is separated from the mixed acoustic signal including the instrument sounds of a plurality of types of instruments using the acoustic signal separation unit 1 as in the present embodiment, the acoustic signal separation unit 1 is not used.
  • it may be a single instrument music sound signal obtained by playing one instrument from the beginning.
  • the music sound signals of other musical instrument parts separated by the sound signal separation unit 1 are included in the residual sound signal. become.
  • the separated acoustic signal analysis and storage unit 3 converts the separated acoustic signal for each single tone into harmonic peak parameters indicating the relative intensity of at least the nth harmonic component (usually, n harmonic peak parameters corresponding to the nth harmonic for each single tone are included). And a plurality of parameters including a power envelope parameter indicating the power envelope in the time direction of the nth harmonic component (usually, there are power envelope parameters for the number of harmonic peaks per single tone). A plurality of parameters are analyzed and stored for expression by a harmonic model. When the harmonic / non-harmonic integrated model described in Non-Patent Document 2 is used in the acoustic signal separation unit 1, the separated acoustic signal analysis storage unit 3 is included in the acoustic signal separation unit 1.
  • the harmonic model is composed of a plurality of parameters including at least a harmonic peak parameter indicating the relative intensity of the nth harmonic component and a power envelope parameter indicating the power envelope of the nth harmonic component in the time direction.
  • a harmonic peak parameter indicating the relative intensity of the nth harmonic component
  • a power envelope parameter indicating the power envelope of the nth harmonic component in the time direction.
  • One overtone peak parameter is typically expressed as a real number of overtone peak intensities in a power spectrum in which overtone peaks are arranged in the frequency direction, as shown in FIG. 3 described above.
  • the leftmost region in the column A shows one of the harmonic peak parameters indicating the relative intensity of the analyzed nth harmonic component.
  • the power spectrum of the non-harmonic component (non-harmonic component distribution parameter) is shown.
  • the power envelope parameter indicates the time direction of the power of the harmonic peak at the same time included in the harmonic peak parameter indicating the relative intensity of the N nth harmonic components (the frequency is the same and the time is the same).
  • the power envelope parameter that can be used is not limited to the power envelope parameter described in Non-Patent Document 2 above.
  • the replacement parameter storage unit 6 generates the second sound corresponding to all the single sounds included in the music sound signal created from the sound signal of the instrument sound generated from the second type instrument different from the first type instrument. Harmonic peak parameter indicating the relative intensity of the nth harmonic component of the plurality of single notes of the second type musical instrument, which is required when the acoustic signal of the plurality of single notes generated from the type of musical instrument is expressed by the harmonic model Save.
  • the replacement parameter storage unit 6 when replacing the non-harmonic component distribution parameter, also includes the non-harmonic component distribution parameter for each of a plurality of types of sound signals of the musical instrument sound generated from the second type musical instrument. It must have a function to save.
  • the second corresponding to all the single sounds included in the music sound signal created from the sound signal of the instrument sound generated from the second type instrument different from the first type instrument.
  • an example of a power envelope parameter indicating a power envelope in the time direction of a non-harmonic component and an nth harmonic component is shown.
  • the power envelope parameter at each frequency has a similar shape.
  • the shape of the power envelope parameter in the column A in FIG. 1 is the shape of the power envelope parameter of a single tone of a continuous instrument such as a trumpet or a wind instrument, and has a slowly changing part between the rising part and the falling part. It has a change pattern.
  • the shape of the power envelope parameter shown in column B is the shape of a single power envelope parameter of an attenuation instrument such as a piano or a stringed instrument, and has a change pattern that attenuates with a large rise.
  • the data format of the harmonic peak parameter and power envelope parameter to be stored is arbitrary.
  • the shape of the non-harmonic component distribution also differs depending on the shape of the musical instrument.
  • the non-harmonic component portion is a frequency component having a weak intensity other than the harmonic overtone peak forming the frequency of the sound. Therefore, the non-harmonic component distribution parameter also differs depending on the type of musical instrument.
  • the analysis of the non-harmonic component distribution is well worth considering in the case of music acoustic signals consisting only of single notes.
  • a harmonic peak parameter indicating the relative intensity of the nth harmonic component of a plurality of single notes of the second type musical instrument may be created in advance, or may be created by this system.
  • a single tone obtained from the music acoustic signal of another musical instrument part separated from the mixed acoustic signal in the acoustic signal separation unit 1 can also be used as the second type musical instrument sound.
  • the musical instrument classification determination unit 5 determines whether the first type musical instrument and the second type musical instrument belong to the same musical instrument classification. This is because the power envelope pattern described above is different when the instrument classification is different.
  • the replacement parameter creation storage unit 4 stores a plurality of harmonics included in the harmonic peak parameter indicating the relative intensity of the nth harmonic component for each single tone of the first type musical instrument stored in the separated acoustic signal analysis storage unit 3.
  • the peak is included in the overtone peak parameter indicating the relative intensity of the nth harmonic component of the second type musical instrument corresponding to the first type musical instrument single tone stored in the replacement parameter data storage unit 6.
  • the replacement overtone peak parameter is obtained by replacing all overtone parameters with overtone parameters obtained from the instrument sound of the second type of musical instrument.
  • the replacement parameter creation storage unit 4 replaces the power envelope parameter indicating the power envelope in the time direction of the n-th overtone component for each single tone of the first type musical instrument stored in the separated acoustic signal analysis storage unit 3.
  • the power envelope parameter indicating the power envelope in the time direction of the n-order harmonic component of the single tone of the second type musical instrument corresponding to the single tone of the first type musical instrument stored in the parameter storage unit 6 Save the created replacement power envelope parameters.
  • the power envelope is set so that the onset and offset of the power envelope parameter of the second type musical instrument and the power envelope parameter of the music acoustic signal match. Stretch and replace.
  • the replacement parameter creation storage unit 4 stores the inharmonic component distribution parameter for each single tone of the first type musical instrument stored in the separated acoustic signal analysis storage unit 3 in the replacement parameter storage unit.
  • the replacement non-harmonic component distribution parameter created by replacing the single-type non-harmonic component distribution parameter of the second type musical instrument corresponding to the single type musical instrument single tone is further stored.
  • the synthesized separated acoustic signal generation unit 7 stores it in the separated acoustic signal analysis storage unit.
  • a synthesized separated acoustic signal is generated for each single tone by using the other parameters excluding the overtone peak parameter and the replacement overtone peak parameter stored in the replacement parameter creation storage unit. Further, the synthesized separated acoustic signal generation unit 7 determines that the musical instrument classification determination unit 5 determines that the first type musical instrument and the second type musical instrument belong to different musical instrument classifications.
  • the signal adding unit 8 adds the synthesized separated acoustic signal output from the synthesized separated acoustic signal generating unit 7 and the residual acoustic signal obtained from the separated acoustic signal analysis storage unit 3 to obtain the second type musical instrument.
  • a music sound signal including the generated instrument sound is output.
  • the lowermost part of FIG. 2 shows a power spectrum before adding the residual acoustic signal.
  • the present embodiment it is possible to change (manipulate) the timbre by replacing (changing) the parameters related to the timbre among the parameters constituting the harmonic model, so various timbre changes can be easily realized. be able to.
  • the instrument classification determination unit 5 may not be provided, and the replacement parameter creation storage unit 4 may store only the replacement overtone peak parameter.
  • the timbre change accuracy is high.
  • the change patterns of the two are greatly different, the accuracy of the change to the desired timbre will be low, but the instrument sound of the second type of instrument is the impression that the atmosphere or image of the first type of instrument remains. It is a change of the tone received.
  • Such a timbre change is also acceptable because it may be desired by some users.
  • the non-harmonic component distribution parameter is low in importance, and of course, if high accuracy is not required, it may be excluded from the replacement target.
  • the plurality of parameters analyzed by the separated acoustic signal analysis storage unit 3 include a pitch parameter related to pitch and a tone length parameter related to pitch. Therefore, a pitch operation unit 9A that operates the pitch parameter and a pitch parameter operation unit 9B that operates the pitch parameter are further provided. As a result, according to the present embodiment, since the pitch operation unit 9A and the tone length operation unit 9B are provided, in addition to the tone change (operation), the pitch and tone length are also changed (operation). be able to.
  • the plurality of parameters analyzed by the separated acoustic signal analysis storage unit 3 are obtained separately for all single sounds generated from the first type musical instrument. Therefore, a musical score for generating a tone-related parameter among pitch parameters relating to pitches, tone length parameters relating to tone lengths, and parameters constituting a harmonic model suitable for each single tone in an arbitrary score structure specified by the user.
  • An operation unit 9C is provided. In the present embodiment, since the score operation section 9C is provided, it is possible to change not only the tone color (operation) but also the score change (operation).
  • the timbre is defined as “one of the characteristics of audible sound, and the characteristics corresponding to the difference when the two sounds give different feelings even if the two sounds have the same magnitude and height”. Has been.
  • the timbre is treated as a sound property independent of pitch and volume.
  • the timbre depends on the pitch. For this reason, if a pitch operation is performed while maintaining a characteristic value that should change depending on the pitch, timbre distortion occurs in the operated instrument sound.
  • a spectral envelope is known as a physical quantity related to the timbre.
  • the relative intensity between harmonic overtones of different pitches cannot be expressed accurately with only one spectral envelope. It is hard to say that the characteristics of the timbre can be captured only with these timbre feature quantities. Therefore, the inventor cannot understand the timbre features unless they analyze the timbre features and their dependency, and in addition to the timbre features, the pitch dependence of the timbre features from a plurality of instrument sounds can be obtained. By analyzing, I tried to handle the tone of individual musical instruments. That is, the operation is performed in consideration of the pitch dependence of the timbre feature quantity. Finally, the harmonic and non-harmonic components are recombined separately and added together.
  • the inventor is a well-known paper that takes into account the pitch dependence [Tetsuro Kitahara, Masataka Tsujigoto, Hiroshi Tsukuno “Sound source identification of instrumental sound focusing on timbre change by pitch: Discrimination method based on F0 dependent multidimensional normal distribution”, We focused on IPSJ Journal, Vol. 44, No. 10, pp. 2448.2458 (2003)].
  • the acoustic feature quantity for pitches is approximated using a regression function (pitch-dependent feature function), and by learning the feature quantity distribution after removing the pitch dependence, Reported improved. Note that this paper only discloses the use of a regression function for pitch operation, and does not describe the use of this function for timbre replacement or the interpolation generation of learning parameters. The following is known as the reason why the tone depends on the pitch.
  • Some musical instruments have different sounding bodies depending on the pitch, and each sounding body is made of a different material.
  • the timbre of the instrument changes continuously as it goes from low to high. Therefore, in the present embodiment, the feature quantity (i) that is considered to depend on the performance rather than the pitch (iii) the power envelope parameter, and the feature quantity (i) relative intensity between harmonic peaks (harmonic peak parameter) with respect to the pitch. , (Ii) Approximate the distribution of non-harmonic components with an n-order function (called pitch-dependent feature function) (non-harmonic component distribution parameter).
  • the third order is used as the order of the pitch dependent feature function. This order was determined from preliminary experiments by providing a reference that can learn the pitch dependence of the timbre from the limited learning data and can sufficiently handle the change in the timbre feature value due to the pitch.
  • FIGS. 7A to 7D show the relative intensities of the first harmonic, fourth harmonic, and tenth harmonics of the trumpet, and the pitch characteristic dependence of the energy ratio of the harmonic and non-harmonic components. Indicates a function.
  • the dots and the solid line respectively represent the timbre feature value analyzed for each pitch and the derived pitch-dependent feature function.
  • the inventor preserves the rising and falling portions in the power envelope parameter and reproduces the temporal variation of the pitch trajectory.
  • the end of a sharp rise of energy is defined as onset ron
  • the start of sharp fall of energy is defined as offset roff.
  • onset ron the end of a sharp rise of energy
  • offset roff the start of sharp fall of energy
  • a pitch locus of an onset-offset section is expressed using a sine wave superposition model, and a pitch locus of a desired length having the same frequency characteristics as before the operation is generated.
  • the pitch trajectory before the onset and after the offset is used before the operation, and the trajectory near the onset-offset is smoothed by Gaussian.
  • changing the score means preparing a pitch trajectory, a power envelope parameter, and a timbre feature amount for each single tone in the changed score. If the score after the change is essentially different from that before the change, it is not appropriate to obtain these feature amounts by the above-described pitch operation and tone length operation. This is because the pitch trajectory, power envelope parameters, and timbre feature values analyzed from the actual performance include fluctuations in the feature values that occur depending on the score structure, that is, performance expressions. Therefore, the above-mentioned feature values for the score after the change are newly based on the assumption that “scores with a similar structure are played with similar sounds” based on the feature values obtained from the score performance before the change. It is desirable to generate
  • the inventor determines the feature quantities of all the single notes of the changed score as follows: 1) the pitch of the previous sound, the length of the previous sound, the pitch of the sound, Single note of the score before the change that has the closest four elements, and 2) Single note of the score before the change that has the closest four elements: 2)
  • the pitch of the note, the pitch of the note, the pitch of the treble, and the pitch of the treble is obtained by a method of performing weighted mixing by varying the mixing ratio from 1: 0 to 0: 1.
  • This operation is an operation for smoothly connecting a group of adjacent sounds in the musical score performance before the change in accordance with the musical score after the change.
  • each timbre feature is multiplied by a real mixing ratio.
  • Tone features such as vn, M (I) (f, r), and En (r) apply to Feture.
  • k and P are an index to each single note and an index to the interpolated feature amount.
  • the rate of change of the feature quantity between interpolation and extrapolation is constant, but it does not take into account human auditory characteristics that logarithmically capture sound energy.
  • logarithmic mixing is an interpolation method that takes into account human auditory characteristics. However, care must be taken in extrapolation because the mixed feature values are finally indexed.
  • FIG. 10 shows how to align the stuttering tone feature quantity.
  • FIG. 10A shows a plurality of harmonic peaks included in a harmonic peak parameter indicating the relative intensity of the nth harmonic component for each single tone of the first type musical instrument in the upper stage, and a single tone of the first type musical instrument.
  • the alignment method in the case of replacing with a plurality of harmonic peaks included in the harmonic peak parameter indicating the relative intensity of the n-th harmonic component of a single tone of the corresponding second type musical instrument in the lower stage will be described.
  • FIG. 10B shows how to align the power envelope parameter obtained from the single note of the first type musical instrument and the power envelope parameter obtained from the single note of the second type musical instrument.
  • the operation is performed by expanding and contracting the power envelope so that the onset and offset of the power envelope parameter of the second type musical instrument and the single power envelope parameter of the first type musical instrument match.
  • FIG. 10C shows how to align the non-harmonic component for each single tone of the upper first type musical instrument and the lower harmonic component of the second lower musical instrument. Alignment should be done so that both onset parts match.
  • FIG. 11 is a flowchart showing an example of an algorithm of a computer program used when the embodiment shown in FIG. 5 is concretely realized by using a computer.
  • FIG. 13 is a diagram used to explain the state of the timbre operation.
  • the tone color is changed (operated) by replacing the overtone peak parameter indicating the relative intensity of the n-th overtone component for each single tone and the power envelope parameter.
  • step ST1 the separated acoustic signal and the residual acoustic signal are extracted for each single sound from the music acoustic signal including the musical instrument sound generated from the first type musical instrument.
  • step ST1 the separated acoustic signal for each single sound is converted into a plurality of parameters including a harmonic peak parameter indicating the relative intensity of at least the nth harmonic component and a power envelope parameter indicating a power envelope in the time direction of the nth harmonic component.
  • a plurality of parameters are analyzed (characteristic amount conversion) in order to express the harmonic model formulated by
  • steps ST2 to ST4 feature quantities relating to the harmonic overtone peak intensity and the power envelope are extracted from the sound signal (replacement sound signal) of the instrument sound generated from the second type instrument different from the first type instrument.
  • a replacement parameter storage unit 6 composed of components is configured. That is, the replacement parameter storage unit 6 shown in FIG. 12 includes a parameter analysis storage unit 61, a parameter interpolation generation storage unit 62, and a function generation storage unit 63.
  • the parameter analysis storage unit 61 is a function realization unit realized in step ST2, and expresses a plurality of types of separated sound signals obtained from the sound signals of the instrument sounds generated from the second type of musical instrument by a harmonic model.
  • the harmonic peak parameter indicating the relative intensity of at least the n-th harmonic component and the power envelope parameter indicating the power envelope in the time direction of the n-th harmonic component for each of a plurality of types of single tones are analyzed and stored.
  • the parameter analysis storage unit 61 may store, as a representative power envelope parameter, a power envelope parameter indicating a power envelope in the time direction of the n-th overtone component obtained by the analysis.
  • step ST3 a learning feature quantity is generated by interpolation. Specifically, based on the harmonic peak parameter and the power envelope parameter for a plurality of types of single sounds stored in the parameter analysis storage unit 61, the second type corresponding to all the single sounds included in the music acoustic signal.
  • Overtone peak parameter and power envelope for each of a plurality of single sounds of the second type of musical instrument required for expressing an acoustic signal of a single sound other than a plurality of types of single sound among a plurality of single sounds generated from a musical instrument by a model Generate and save parameters using interpolation. What is performed in this step ST3 is to generate and store a plurality of other necessary single notes by an interpolation method when there are only two single notes, for example.
  • steps ST2 to ST4 harmonic sound peak parameters, power envelope parameters, non-harmonic components from the sound signal (replacement sound signal) of the instrument sound generated from the second type instrument different from the first type instrument.
  • each parameter (replacement parameter) used for replacement is generated.
  • the acoustic signal of the second type musical instrument having the same pitch and length as the single tone in the music acoustic signal for which timbre substitution is desired is replaced with a limited number of replacement acoustic signals. can do.
  • the tone color has a pitch dependency
  • the harmonic peak parameter has a particularly strong pitch dependency.
  • Non-Patent Document 5 reports a high-quality voice pitch manipulation method that retains the spectral envelope.
  • the harmonic peak parameter is converted into a spectral envelope.
  • the conversion to the spectrum envelope v (f) is realized by interpolating adjacent linear harmonic peak parameters vn ((linear interpolation, spline interpolation etc.) as shown in Fig. 14.
  • the harmonic peak parameter of the nearest frequency is used for transforming the spectral envelope of the frequency (below the pitch and above the highest harmonic peak frequency) exceeding the interpolation interval.
  • the parameter value located in the nearest vicinity is used for the interpolation in the range exceeding the interpolation section.
  • k is the index assigned to the replacement acoustic signal
  • v (k) (f) and v (k + 1) (f) are the replacements having the nearest pitches in the low and high frequencies, respectively. It is a spectrum envelope of an acoustic signal.
  • is an interpolation rate determined from the pitches ⁇ (k) and ⁇ (k + 1) of these replacement acoustic signals, and is determined by the following equation.
  • the pitch ⁇ n is defined as follows.
  • an interpolated overtone peak parameter is obtained from the interpolated spectrum envelope of each overtone peak frequency as follows:
  • FIG. 15 shows a schematic diagram of the interpolation of overtone peak parameters over.
  • the onset and offset of the replacement acoustic signal are set.
  • the onset ron ⁇ ⁇ ⁇ and the offset roff ⁇ ⁇ ⁇ to be synchronized respectively represent a point where the power in the average power envelope parameter becomes sufficiently large and a point where the power suddenly decreases, and any method can be used for detection.
  • Non-Patent Document 6 the method reported in Non-Patent Document 6 is used, and the synchronous power envelope parameter En (r) is obtained by operating only the onset offset section (ron-roff) ⁇ ⁇ as shown in FIG.
  • E (k) n (f) and E (k + 1) n (f) are the power envelope parameters of the replacement acoustic signal with the nearest pitch in the low and high frequencies, respectively.
  • the interpolation rate used in the overtone peak parameter interpolation is also used for the power envelope parameter interpolation.
  • FIG. 17 shows a schematic diagram of the above power envelope parameter interpolation.
  • the onset of the replacement acoustic signal is desired to be replaced in the music acoustic signal Synchronize to a single note onset.
  • the onset ron to be synchronized is the same as that used for the synchronization of the power envelope parameter.
  • the non-harmonic component distribution parameter may be translated on the time axis as shown in FIG.
  • the wave component distribution parameter M (I, k) (f, r) is obtained.
  • Interpolation of the synchronous inharmonic component distribution parameter M (I, k) (f, r) based on The wave component distribution parameter M (I, k) (f, r) can be obtained.
  • M (I, k) (f, r) and M (I, k + 1) (f, r) are the subharmonic of the replacement acoustic signal having the nearest pitch in the low and high frequencies, respectively. It is a component distribution parameter.
  • the interpolation rate used in the overtone peak parameter interpolation is also used for the interpolation of the non-harmonic component distribution parameters.
  • FIG. 19 shows a schematic diagram of the interpolation of the above non-harmonic component distribution parameters. Further, the non-harmonic component energy w (I) ⁇ constituting the harmonic peak parameter and the non-harmonic component distribution parameter can be reduced to an error during parameter analysis of the replacement acoustic signal.
  • Non-Patent Document 5 the pitch dependent feature function reported in Non-Patent Document 5 is used, and the harmonic peak parameter and the non-harmonic component distribution parameter are predicted from the learned pitch dependent feature function.
  • step ST4 the pitch dependent feature function is learned. Note that the learning method and parameters to be learned are the same as the pitch-dependent feature function used during the above-described pitch operation.
  • the function generation storage unit 63 of FIG. 12 is configured. Based on the data stored in the parameter analysis storage unit 61 and the parameter interpolation generation storage unit 62, the function generation storage unit 63 stores overtone peak parameters for a plurality of second-type single sounds as pitch-dependent feature functions. To do. Specifically, in step ST4, the coefficient of the regression function is estimated by the least square method from the feature quantities of several single instrument sounds generated in step ST3 (see the third figure from the top in FIG. 13). This regression function is called a pitch dependent feature function.
  • harmonic peaks generated with the same frequency are obtained from the data of each dimension (from the first to the n-th order). ) Collected to represent their envelope. If such a function is obtained, a plurality of overtone peaks included in a single tone overtone peak parameter of the second type musical instrument can be obtained from the pitch-dependent feature function of each dimension.
  • step ST4 functionalization using step ST4 is not an essential requirement. If the accuracy of step ST3 is high, the data acquired in step ST3 may be used as it is. Further, the necessary parameters for each of a plurality of single notes of the second type musical instrument may be created in any way, and the present invention is not limited to this embodiment.
  • step ST5 a plurality of overtone peaks included in the overtone peak parameter indicating the relative intensity of the n-th overtone component for each single tone of the first type musical instrument is obtained as a single tone of the first type musical instrument.
  • a replacement overtone peak parameter is created by substituting a plurality of overtone peaks included in the overtone peak parameter indicating the relative intensity of the n-th overtone component of a single tone of the second type musical instrument corresponding to.
  • step 5 the harmonic peak of the second musical instrument necessary for replacement is acquired from the pitch-dependent feature function obtained in step ST4.
  • step ST6 it is determined whether or not the first type musical instrument and the second type musical instrument belong to the same musical instrument classification.
  • step ST6 If it is determined in step ST6 that the first type musical instrument and the second type musical instrument belong to the same musical instrument classification, the process proceeds to step ST8.
  • step ST6 When it is determined in step ST6 that the first type musical instrument and the second type musical instrument do not belong to the same musical instrument classification, the process proceeds to step ST7.
  • step ST7 a power envelope parameter indicating the power envelope in the time direction of the n-th overtone component of a plurality of single notes of the second type musical instrument obtained in steps ST2 to ST4 is acquired. Then, the power envelope parameter indicating the power envelope in the time direction of the n-order overtone component for each single tone of the first type musical instrument is set to n of the single tone of the second type musical instrument corresponding to the single tone of the first type musical instrument.
  • a replacement power envelope parameter is created by replacing the power envelope parameter indicating the power envelope in the time direction of the second harmonic component.
  • a replacement non-harmonic component distribution parameter is created in step ST7.
  • step ST8 the parameters other than the overtone peak parameter stored in the separated acoustic signal analysis storage unit are stored in the replacement parameter storage unit.
  • a synthesized separated acoustic signal for each single tone is generated using the replaced harmonic overtone peak parameter. If it is determined in step ST6 that the two instruments do not belong to the same instrument classification, in step ST8, other parameters except the harmonic peak parameter and the power envelope parameter, the replacement harmonic peak parameter, and the replacement power are obtained.
  • a synthesized separated acoustic signal for each single tone is generated using the envelope parameter.
  • the synthesized separated acoustic signal and the residual acoustic signal for each single sound are added, and a music acoustic signal including an instrument sound generated from the second type instrument is output.
  • the instrument classification is determined in step ST6, but the instrument classification may be determined before step ST5. If it is determined from the beginning that the timbre is changed only between sound signals of musical instruments belonging to the same musical instrument classification, step ST7 is unnecessary, and it is necessary to handle power envelope parameters in steps ST2 to ST4. Absent.
  • an instrument sound having a pitch one octave higher than seed can be synthesized.
  • the non-harmonic component of the operation after the instrument sound energy omega (I) is the harmonic component energy omega (H) the relative expected harmonic component from the pitch characteristics dependent function of the energy of the non-harmonic component It is obtained by dividing by the ratio ⁇ (H) / ⁇ (I) .
  • onset and offset detection refers to a moment when the amplitude variation becomes constant after the amplitude of the instrument sound in the time direction becomes sufficiently large.
  • the offset is a moment when the amplitude in the time direction has a sufficiently large value and the fluctuation of the amplitude cannot be obtained. According to this definition, onset and offset are detected as follows.
  • Th is a threshold value indicating a sufficient magnitude of the amplitude of the instrument sound in the time direction. This is fine for continuous instruments, but the onset and offset of decaying instruments such as percussion instruments and plucked strings are almost the same time, and the onset offset cannot be expanded or contracted. Therefore, referring to the amplitude control of the attenuation instrument in the synthesizer, the end of the power envelope parameter is regarded as an offset of the attenuation instrument sound, and the power envelope parameter after onset is set as the object of expansion and contraction.
  • FIG. 21 shows the flow of operations in musical score operation.
  • a feature value including a performance expression is extracted from a musical score performance sound signal before change, and the feature for the score after change is based on the similarity of the score structure using this.
  • Generate quantity Therefore, the inventor has taken a method of calculating the feature quantity Feature for the j-th sound of the score after the change from the feature quantity of a single note having the note number N and the sound length L in the score before the change. First, for the j-th note of the score after the change, two notes in the score before the analysis that satisfies the following conditions are selected.
  • N k and L k are the note number and note length of the score before the change
  • N ⁇ j and L ⁇ j are the note number and note length of the score after the change
  • determines their weight Constant.
  • Feature (j) (r) is for the time frame r in the feature amount of the j-th sound, and the four arithmetic operations are defined as those for each parameter. Also,
  • R is the number of frames.
  • the unknown parameters are the amplitude Ak ( ⁇ ), frequency ⁇ k ( ⁇ ), and phase ⁇ k ( ⁇ ) of each sine wave constituting the pitch locus. These can be derived by the parameter estimation method of the existing sine wave superposition model.
  • timbre feature quantities such as v n , M (I) (f, r), and E n (r) apply to Feature.
  • K and P are an index to each seed (single sound) and an index to the interpolated feature amount.
  • No alignment is required for the relative intensity v n between harmonic peaks.
  • the non-harmonic component distribution M (I) (f, r) is aligned only on set.
  • the amplitude envelope E n (r) in the time direction is aligned after the sound length is manipulated so that the onset and the offset are aligned.
  • t represents the sample address of the sampled signal.
  • a n (t) and ⁇ n (t) are the instantaneous amplitude and instantaneous phase of the nth sine wave, respectively.
  • the instantaneous phase is obtained by integrating the pitch trajectory ⁇ (t) after the operation in which the pitch trajectory being analyzed in units of frames is interpolated in units of samples by spline interpolation.
  • ⁇ n (0) is an arbitrary initial phase.
  • the tracked peak is used as the instantaneous amplitude.
  • the harmonic model obtained by modeling the outline of the harmonic structure a peak obtained by tracking the average of each Gaussian function constituting the frequency envelope and the power envelope parameter and harmonic energy can be regarded as a tracked peak. Because the feature extraction model differs from the instrument sound synthesis model, the relative intensity of the overtones of the synthesized sound does not necessarily match that of the instrument sound to be analyzed. Since there was no significant change, I think that the difference in the model has little effect on the timbre. Therefore, the instantaneous amplitude can be obtained from the following equation.
  • the harmonic non-harmonic integrated model is adapted to the mixed sound in which the separation target sound exists.
  • the cost function differs from the cost function shown in [Formula 6] in the following two points.
  • the constraint parameter E ⁇ (r) of the time direction envelope is different from the average time direction envelope.
  • v ⁇ n is a parameter obtained by minimizing the cost function only for the spectrogram in the on-offset section.
  • v ⁇ n is obtained from the following equation.
  • the pitch locus update formula is as follows.
  • the pitch, tone length, timbre, and score are manipulated to replace the first type of musical instrument with the second type of musical instrument, and the first type of musical instrument is used. It is possible to generate a music acoustic signal when an unknown score is played. However, the present invention can naturally be applied to a case where a music acoustic signal is generated when an unknown score is played using the first type musical instrument.
  • the present invention it is possible to change (manipulate) the timbre by replacing (changing) the parameters related to the timbre among the parameters constituting the harmonic model. Therefore, various timbre changes can be easily realized. it can.

Landscapes

  • Physics & Mathematics (AREA)
  • Nonlinear Science (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

 既存の音楽音響信号中の音色を任意の音色に変えることができる音楽音響信号の音色変更システムを提供する。分離音響信号分析保存部3に保存された、第1の種類の楽器の単音ごとのn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、置換用パラメータデータ保存部6に保存された、第1の種類の楽器の単音に対応する第2の種類の楽器の単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成する。合成分離音響信号生成部7は、倍音ピーク・パラメータを除く他のパラメータと置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。

Description

音楽音響信号生成システム
 本発明は、音楽音響信号の音色を変更することができる音楽音響信号生成システム及び方法並びに該方法をコンピュータで実施するために用いられるコンピュータプログラムに関するものである。
 近年、音楽音響信号に特化し、楽器単位での音量の操作や音色の置換が可能な楽器音イコライザと呼ばれる新技術が開発されてきている。多くのオーディオプレーヤに実装されているイコライザは周波数帯域の操作によって楽曲の音響を変化させるが、楽器音イコライザが提供する楽器単位の操作によって音楽鑑賞の幅はさらに広がると期待される。非特許文献1に記載された吉井等のDrumixでは、スネアドラムやバスドラムといった打楽器単位での音量操作と音色変更を実現している。一方、非特許文献2に示された糸山等の楽器音イコライザでは、打楽器だけではなく、全ての楽器単位の音量操作が可能だが、Drumixで実現されていた音色変更は扱われていない。なお非特許文献2に記載された発明を含むものとして、PCT/JP2008/57310号(WO2008/133097)[特許文献1]がある。
WO2008/133097
Yoshii, K., Goto, M. and G., O. H.: Drumix: An Audio Player with Realtime Drum-part Rearrangement Functions for Active Music Listening,IPSJ Journal, Vol. 48, No. 3, pp. 1229~1239 (2007) 糸山克寿,後藤真孝,駒谷和範,尾形哲也,奥乃博「楽譜情報を援用した多重奏音楽音響信号の音源分離と調波・非調波統合モデルの制約付パラメータ推定の同時実現」,情報処理学会論文誌,Vol.49,No.3,pp.1465~1479(2008) 安部武宏, 糸山克寿, 吉井和佳, 駒谷和範, 尾形哲也, 奥乃博:「音高による音色変化を考慮した楽器音の音高・音長操作手法」, 音楽情報科学研究会, Vol. 76,pp. 155-160 (2008). Abe, T., Itoyama, K., Yoshii, K., Komatani, K., Ogata, T. and Okuno, H. G.: Analysis-and-Manipulation Approach to Pitch And Duration of Musical Instrument Sounds without Distorting Timbral Characteristics,International Conference on Digital Audio Effects, Vol. 11, pp. 249-256(2008) 河原英紀「Vocoder のもう一つの可能性を探る-音声分析変換合成システムSTRAIGHT の背景と展開」, 日本音響学会誌, Vol. 63, No. 8, pp. 442-449(2007) 安部武宏, 糸山克寿, 吉井和佳, 駒谷和範, 尾形哲也, 奥乃博:音色の音高依存性を考慮した楽器音の音高操作手法」,情報処理学会論文誌, Vol. 50, No. 3(2009)
 従来の技術では、任意の楽器パートをユーザの好みの音色に変更することはできなかった。また従来の技術では、未知の演奏の楽譜に対する演奏表情付き演奏音響信号を合成することはできなかった。
 本発明の目的は、既存の音楽音響信号中の任意の楽器パートの音色を任意の音色に変えることができる音楽音響信号生成システム及び方法並びに音色変更用コンピュータプログラムを提供することにある。
 本発明の他の目的は、既存の音楽音響信号中の任意の楽器パートの音色を用いて未知の演奏の楽譜に対する演奏表情付き演奏を合成することができる音楽音響信号生成システムを提供することにある。
 任意の楽器パートをユーザの好みの音色に変更することができれば、例えば、ロック風の楽曲を構成するギター、ベース、キーボードなどの楽器音を、ヴァイオリン、ウッドベース、ピアノなどの楽器音で置き換えることで、ユーザはその楽曲をクラシック風にアレンジして楽しむことができる。また、好きなギタリストが演奏した楽曲からギター音を抽出し、別の楽曲のギターパートをそのギター音で置き換えることで、ユーザはそのギタリストにさまざまなフレーズを演奏させることもできる。さらに、置き換える対象音から中間音を合成することにより、音色変更のバリエーションが広がると同時に幅の広い音楽鑑賞が可能となる。
 本願第1の発明の基本的な音楽音響信号の音色変更システムは、信号抽出保存部と、分離音響信号分析保存部と、置換用パラメータ保存部と、置換パラメータ作成保存部と、合成分離音響信号生成部と、信号加算部とを備えている。
 信号抽出保存部は、第1の種類の楽器から発生した楽器音を含む音楽音響信号から抽出した、分離音響信号を単音ごとに保存し、また残差音響信号を保存する。分離音響信号は、第1の種類の楽器から発生した楽器音の単音のみを含む音響信号であり、残差音響信号は他の楽器の音響信号等のその他の音響信号を含むものである。音楽音響信号は、複数種類の楽器の音響信号が含まれる混合音響信号から分離されたものでも、最初から1つの楽器を演奏して得た単一楽器の音響信号でもよい。混合音響信号から音色変更の対象とする音響信号を分離するためには、公知の音響信号分離技術を実行する音響信号分離部を設ければよい。混合音響信号から音楽音響信号を分離する場合に、前述の非特許文献2に糸山等が提案した分離技術を用いると、他の楽器のパートの音響信号もすべて個別に分離するこができ、同時に倍音ピーク・パラメータ等の各種のパラメータの分析もできる。
 分離音響信号分析保存部は、単音ごとの分離音響信号を、少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータ(通常、1単音あたりn個(n次倍音分)の倍音ピーク・パラメータがある)とn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータ(通常、1単音あたり、倍音ピークの個数分のパワーエンベロープ・パラメータがある)によって定式化された調波モデルにより表現するために、1音あたりの複数のパラメータを分析して、分離音響信号中の複数音の単音についてそれぞれ複数のパラメータを保存する。このような複数のパラメータからなる調波モデルについては、前述の非特許文献2及びPCT/JP2008/57310号(WO2008/133097:特許文献1)に詳しく説明されている。なお調波モデルは、少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータとn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって構成されるものであればよく、特に上記非特許文献2に記載された調波モデルに限定されるものではない。例えば、調波モデルとして、倍音構造の非調和性を組み込んだ調波モデルを用いると、第1の種類の楽器が、弦楽器の場合におけるパラメータの生成精度を高めることができる。弦楽器音の倍音構造は厳密な整数倍をとらず、弦のスティフネスや長さによって各倍音ピークの周波数が若干高くなる。これは非調和性(インハーモニシティ) と呼ばれる。この非調和性は、周波数が高くなるほど影響が大きくなる。そこで非調和性を考慮した調波モデルを用いれば、第1の種類の楽器が弦楽器の場合に、倍音ピークの周波数の高い方向へのずれを考慮してパラメータを定めることができる。なおこの非調和性を考慮した調波モデルは、分析において利用するだけでなく、合成の際にも当然にして使用される。合成の際に調波モデルを使用する場合には、倍音構造の非調和性を示す変数(非調和度)は、音高依存特徴関数を用いて予測することができる。
 1つの倍音ピーク・パラメータは、典型的には、周波数方向に現れる倍音ピークの強度を表す実数として表現される。またパワーエンベロープ・パラメータは、n個のn次倍音成分の相対強度を示す倍音ピーク・パラメータにそれぞれ含まれる同じ時間における倍音ピークのパワーの時間方向(周波数が同じで時間が異なる複数の倍音ピークのパワー)の変化を示すものであり、上記非特許文献2に記載されたパワーエンベロープ・パラメータに限定されるものではない。同じ楽器分類に属する楽器の音響信号であれば、各周波数におけるパワーエンベロープ・パラメータは、良く似た形状になる。例えば、ピアノ及び打弦楽器等の減衰楽器の単音のパワーエンベロープ・パラメータの形状は、大きく立ち上がった後に減衰する変化パターンを有している。またトランペット及び吹奏楽器等の持続楽器の単音のパワーエンベロープ・パラメータの形状は、立ち上がり部と立ち下がり部との間に緩やかな変化部分を持つ変化パターンを有している。なお保存する倍音ピーク・パラメータ及びパワーエンベロープ・パラメータのデータ形式は任意である。
 置換用パラメータ保存部は、第1の種類の楽器とは異なる第2の種類の楽器から発生した楽器音の音響信号から作成した、音楽音響信号に含まれる全ての第1の種類の楽器の単音に対応する第2の種類の楽器から発生した複数の単音の音響信号を調波モデルにより表現する場合に必要となる、第2の種類の楽器から発生した複数の単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータ及びパワーエンベロープ・パラメータを保存する。第2の種類の楽器から発生した複数の単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータは、事前に作成してもよい。作成した倍音ピーク・パラメータのデータ形式は、実数の形式でもよいが、関数の形式でもよく、任意である。また第2の種類の楽器から発生した楽器音の単音の音響信号は、信号抽出保存部に保存した全ての単音に対応するものを用意する必要はない。少なくとも第2の種類の楽器から発生した楽器音の音響信号として使用される単音信号が2単音分あれば、補間法等を用いてその他の単音の倍音ピーク・パラメータを作成してもよい。なお使用可能な単音の種類が多いほど、その他の単音の作成精度を高めることができるのは勿論である。
 置換パラメータ作成保存部は、分離音響信号分析保存部に保存された、第1の種類の楽器の単音ごとのn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、置換用パラメータデータ保存部に保存された、第1の種類の楽器の単音に対応する第2の種類の楽器の単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成して保存する。置換倍音ピーク・パラメータは、全ての倍音ピーク・パラメータが第2の種類の楽器の楽器音から得られる倍音ピーク・パラメータによって置換されたものである。
 合成分離音響信号生成部は、分離音響信号分析保存部に保存された倍音ピーク・パラメータを除く他のパラメータと置換用パラメータ保存部に保存された置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。そして信号加算部は、合成分離音響信号と残差音響信号とを加算して、第2の種類の楽器から発生した楽器音を含む音楽音響信号を出力する。
 本発明によれば、調波モデルを構成する複数のパラメータのうち音色に係わるパラメータの置換(変更)により、音色の変更(操作)をすることができるので、簡単に各種の楽器パートの音色変更を実現することができる。なお第1の種類の楽器の単音から得られるパワーエンベロープ・パラメータの変化パターンと第2の種類の楽器の単音から得られるパワーエンベロープ・パラメータの変化パターンとが近似していれば、音色の変更精度は高くなる。逆に両者の変化パターンが大きく異なると、音色は変わるものの、第2の種類の楽器の楽器音とは、第1の種類の楽器の雰囲気またはイメージが残なった印象を受ける音色の変更となる。このような音色の変更も、ユーザによっては望まれる場合がある。音色の変更精度を高めるためには、パワーエンベロープ・パラメータの変化パターンが共通した楽器間の音色変更を実施するのが好ましい。
 そこで第2の発明では、置換用パラメータ保存部が、第2の種類の楽器の複数の単音ごとのn次倍音成分の相対強度を示す倍音ピーク・パラメータの他に、n次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータも保存する。そして置換パラメータ作成保存部は、置換倍音ピーク・パラメータを保存することに加えて、分離音響信号分析保存部に保存された、第1の種類の楽器の単音ごとのn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを、置換用パラメータ保存部に保存された、第1の種類の楽器の単音に対応する第2の種類の楽器の単音についての、n次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータと置き換えることにより作成した置換パワーエンベロープ・パラメータを保存する。なおこの置き換えでは、時間方向の長さを一致させる必要があるときには、第2の種類の楽器のパワーエンベロープ・パラメータと音楽音響信号のパワーエンベロープ・パラメータのオンセットとオフセットが合うようにパワーエンベロープを伸縮させて置き換えを行う。なおこの音長操作に関しては、非特許文献3に記載されている。
 そして合成分離音響信号生成部は、分離音響信号分析保存部に保存された倍音ピーク・パラメータ及びパワーエンベロープ・パラメータを除く他のパラメータと置換パラメータ作成保存部に保存された置換倍音ピーク・パラメータ及び置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。その他は、第1の発明と同じである。このようにすると倍音ピークの置き換えだけでなく、第1の楽器の単音から得られるパワーエンベロープ・パラメータの変化パターンに変えて第2の種類の楽器の単音から得られるパワーエンベロープ・パラメータの変化パターンを用いることになるため、音色の変化の精度を高めることができる。
 第3の発明では、第2の発明の要件に加えて、第1の種類の楽器と第2の種類の楽器とが、同じ楽器分類に属するか否かを判定する楽器分類判定部をさらに備えている。第3の発明で用いる合成分離音響信号生成部は、楽器分類判定部が、第1の種類の楽器と第2の種類の楽器とが、同じ楽器分類に属すると判定したときには、第1の発明と同様に、分離音響信号分析保存部に保存された倍音ピーク・パラメータを除く他のパラメータと置換パラメータ作成保存部に保存された置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。また合成分離音響信号生成部は、楽器分類判定部が、第1の種類の楽器と第2の種類の楽器とが、異なる楽器分類に属すると判定したときには、分離音響信号分析保存部に保存された倍音ピーク・パラメータ及びパワーエンベロープ・パラメータを除く他のパラメータと置換パラメータ作成保存部に保存された置換倍音ピーク・パラメータ及び置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。このようにすると第2の種類の楽器がどのようなものであっても、自動的に最適な音色変更を行うことができる。
 また第3の発明では、楽器分類判定部を設けることに加えて、分離音響信号分析保存部が、単音ごとの分離音響信号中の非調波成分分布パラメータを分析して保存する機能を備えていてもよい。この場合、置換パラメータ作成保存部は、分離音響信号分析保存部に保存された、第1の種類の楽器の単音ごとの非調波成分分布パラメータを、置換用パラメータ保存部に保存された、第1の種類の楽器の単音に対応する第2の種類の楽器の単音の非調波成分分布パラメータと置き換えることにより作成した置換非調波成分分布パラメータ(第1の楽器の単音のオンセットにそろえた第2の楽器の単音の非調波成分分布パラメータ)を更に保存することになる。そして合成分離音響信号生成部は、分離音響信号分析保存部に保存された倍音ピーク・パラメータ、パワーエンベロープ・パラメータ及び非調波成分分布パラメータを除く他のパラメータと置換パラメータ作成保存部に保存された置換倍音ピーク・パラメータ、置換パワーエンベロープ・パラメータ及び置換非調波成分分布パラメータとを用いて、単音ごとの合成分離音響信号を生成するように構成することになる。このようにすると非調波成分も考慮して音色の変更を行えるので、更に音色の変更(操作)精度が高くなる。ただし、非調波成分分布パラメータは音色の操作に対する影響度が低いため、必ずしも考慮する必要はない。なお非調波成分分布パラメータの置換をするには、分離音響信号に調波成分だけでなく非調波成分も含む必要がある。そこで非調波成分分布パラメータを扱う場合には、上記非特許文献2に記載の調波モデル・非調波モデル統合モデルを用いることが必要になる。なお音楽音響信号が、混合音ではなく一種類の楽器の単音だけから構成されている場合には、残差音響信号そのものを非調波成分とみなせるので、上記非特許文献2に記載の調波モデル・非調波モデル統合モデルを用いることなく、非調波成分分布パラメータの置換を適用することができる。
 なお置換用パラメータ保存部は、第2の種類の楽器から発生した楽器音の音響信号の前記複数種類の単音ごとの非調波成分分布パラメータを保存する機能を更に備えている。置換用パラメータ保存部は、パラメータ分析保存部とパラメータ補間生成保存部とを備えて構成してもよい。パラメータ分析保存部は、第2の種類の楽器から発生した楽器音の音響信号から得た複数種類の単音ごとの分離音響信号を調波モデルにより表現する場合に必要となる、第2の種類の楽器から発生する複数種類の単音ごとの少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータを分析して保存する。なお第2の種類の楽器から発生する複数種類の単音についての、n次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータは、事前に分析することにより得た倍音ピーク・パラメータと一緒にパラメータ分析保存部に保存してある。さらにパラメータ分析保存部には、非調波成分分布パラメータを保存してある。そしてパラメータ補間生成保存部は、パラメータ分析保存部に保存した複数種類の単音についての倍音ピーク・パラメータに基づいて、音楽音響信号に含まれる全ての単音に対応する第2の種類の楽器から発生する複数の単音のうち複数種類の単音以外の単音についての音響信号をモデルにより表現する場合に必要となる第2の種類の楽器の複数の単音ごとの倍音ピーク・パラメータ及び前記パワーエンベロープ・パラメータを補間法を用いて生成して保存する。このような構成を採用すると、第2の種類の楽器の単音のデータが少ない場合でも、置換に必要なパラメータを得ることができる。なおパラメータ分析保存部は、分析により得られた前記n次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを、代表パワーエンベロープ・パラメータとして保存してもよい。
 また置換用パラメータ保存部は、パラメータ分析保存部及びパラメータ補間生成保存部に保存されたデータに基づいて、第2の種類の複数の単音ごとの倍音ピーク・パラメータを音高依存特徴関数として保存する関数生成保存部をさらに備えてもよい。この場合には、置換パラメータ作成保存部は、第2の種類の楽器の単音の倍音ピーク・パラメータに含まれる複数の倍音ピークを音高依存特徴関数から取得するように構成するのが好ましい。このようにすると保存データのデータ量を少なくすることができる。また関数化することで複数の学習データの分析時の誤差を軽減することが期待される。
 分離音響信号分析保存部が分析する複数のパラメータには、音高に関する音高パラメータと音長に関する音長パラメータ(なお音長パラメータはパワーエンベロープ・パラメータを包括する)とが含まれている場合には、音高パラメータを操作する音高操作部と、音長パラメータを操作する音長パラメータ操作部をさらに備えているのが好ましい。これら2つの操作部を備えていると、音色の変更(操作)の他に、音高、音長の変更(操作)も行うことができる。
 分離音響信号分析保存部が分析する複数のパラメータが第1の種類の楽器から発生したすべての単音に対してそれぞれ別個に得られる場合には、楽譜構造と音響特徴の間の対応をもとに、任意の構造の楽譜の各単音に対する音高パラメータ、音長パラメータ、及び音色に関わるパラメータを構成するための楽譜操作部を備えることが可能である。
楽譜操作部は、「似た構造の楽譜は似たような音で演奏される」という仮定のもと、第1の種類の楽器によって演奏された楽譜上の各単音に対応する音高パラメータ、音長パラメータ、及び音色に関わるパラメータのすべてを用いて、ユーザが指定する任意の楽譜構造中の各単音にふさわしい音高パラメータ、音長パラメータ、及び音色に関わるパラメータを生成する。ここでの「ふさわしさ」は、注目している単音の前後の単音との音高差などから定義される。
 そこで本発明の音楽音響信号生成システムでは、第1の種類の楽器または第2の種類の楽器を用いて演奏したときに第1の種類の楽器または第2の種類の楽器から発生する楽器音の音響信号を、分離音響信号分析保存部に保存された単音ごとの複数のパラメータを利用して生成するための操作を行う楽譜操作部を更に備えていてもよい。楽譜操作部は、他の楽譜の楽譜構造中の各単音にふさわしい、音高に関する音高パラメータ、音長に関する音長パラメータ及び調波モデルを構成するパラメータのうち音色に関わるパラメータを生成するように構成されている。
 楽譜操作部の機能は音高操作部及び音長操作部を包含しているが、ユーザが指定する任意の楽譜構造が第1の種類の楽器によって演奏されていた楽譜と類似している場合、音高操作部及び音長操作部の機能によってユーザが指定する任意の楽譜構造中の各単音の音高パラメータ及び音長パラメータを変更した方が高い精度による操作が可能であるため、楽譜操作部の機能は必要に応じて音高操作部及び音長操作部の機能と使い分けることが望ましい。
本発明の実施形態の音楽音響信号生成システムをコンピュータを用いて実現する場合の構成例を示すブロック図である。 分離音響信号及び置換に用いる置換音響信号のパラメータ分析を説明するために用いる図である。 n次倍音成分の相対強度を示す倍音ピーク・パラメータを含む周波数エンベロープの一例を示す図である。 n次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータ(時間エンベロープ)の一例を示す図である。 本発明の実施の形態の一例としての、音楽音響信号生成システムの構成を示すブロック図である。 周波数エンベロープの操作を示す図である。 (A)乃至(D)は、トランペットの第1次倍音,第4次倍音,第10次倍音の相対強度、および調波成分と非調波成分のエネルギー比の音高特徴依存関数を示す図である。 時間エンベロープの操作を説明するために用いる図である。 音高軌跡の操作を説明するために用いる図である。 (A)乃至(C)は、倍音ピーク間の相対強度、時間方向のパワーエンベロープ・パラメータ及び非調波成分の分布の例を示す図である。 図5に示した実施の形態を具体的にコンピュータを用いて実現する場合に用いるコンピュータプログラムの一例のアルゴリズムを示すフローチャートである。 置換用パラメータ保存部の具体的な構成を示す図である。 音高依存特徴関数による置換パラメータの生成を説明するために用いる図である。 倍音ピークの相対強度からのスペクトル包絡の導出を説明するために用いる図である。 学習用特徴量を補間法を利用して生成する場合の式を説明するために用いる図である。 同期パワーエンベロープ・パラメータEn(r)を得ることを説明するために用いる図である。 パワーエンベロープ・パラメータの補間の概要図である。 音楽音響信号内の単音のオンセットで同期をとることを示す図である。 非調波成分分布パラメータの補間の概要図である。 楽譜操作の概要を説明するために用いる図である。 楽譜操作の概要を示す図である。
 以下、本発明を実施するための形態(以下「実施形態」という。)を詳細に説明する。図1は、本発明の実施形態の音楽音響信号生成システムをコンピュータ10を用いて実現する場合の構成例を示すブロック図である。コンピュータ10は、CPU(Central Processing Unit)11と、DRAM等のRAM(Random Access Memory)12と、ハードディスクドライブ(以下、「ハードディスク」という。)その他の大容量記憶手段13と、フレキシブルディスクドライブ又はCD-ROMドライブ等の外部記憶部14と、LAN(Local Area Network)又はインターネットなどの通信ネットワーク20との通信を行う通信部18とを備える。また、コンピュータ10は、キーボード又はマウス等の入力部15と、液晶ディスプレイ等の表示部16とを備えている。さらに、コンピュータ10は、MIDI音源等の音源17を搭載している。
 CPU11は、パワースペクトルの分離処理と更新モデルパラメータのパラメータの推定(モデル適応)処理と、音色変更(操作)処理とを行うための各ステップを実行する計算手段として動作する。
 音源17は、後述する入力音響信号を備えている。また音源分離を行うための入力音響信号と時間的に同期した標準MIDIファイル(Standard MIDI File、以下「SMF」という。)を楽譜情報データとして備えている。SMFはCD-ROM等や、通信ネットワーク20を介してハードディスク13に記録される。なお、「時間的に同期した」とは、SMF中の各楽器パートの単音(楽譜の音符に相当するもの)のオンセット時刻(発音時刻)と音長が実際の入力楽曲の音響信号における各楽器パートの単音と完全に同期しているということである。
 なお、MIDI信号の記録、編集、再生などは、シーケンサ、またはシーケンスソフトウェア(図示を省略する)で行われる。ここでMIDI信号は、MIDIファイルとして扱われる。SMFとは、MIDI音源の演奏データを記録するための基本ファイルフォーマットである。SMFは、異なるシーケンサ、あるいはシーケンスソフトウェア間でのMIDIファイルの互換性を保つ統一規格である"チャンク"と呼ばれるデータ単位によって構成されている。SMFフォーマット化されたMIDIファイルデータのイベントとしては、大きく分けて、ミディ・イベント(MIDI Event)、システム・エクスクルーシブ・イベント(SysEx Event)、そしてメタ・イベント(Meta Event)の3種類がある。ミディ・イベントには、演奏データそのものが示されている。システム・エクスクルーシブ・イベントには、主にMIDIのシステム・エクスクルーシブ・メッセージが示されている。システム・エクスクルーシブ・メッセージは、特定の楽器にしかない情報を交換したり、特別の非音楽情報、イベント情報などを伝達するために用いられる。メタ・イベントには、テンポや拍子などの演奏全体の情報や、シーケンサやシーケンスソフトが利用する歌詞や著作権情報などの付加的な情報が示されている。全てのメタ・イベントは0xFFで始まり、次にイベント・タイプを表すバイトが続き、更にデータ長及びデータ自体が続く。MIDI演奏プログラムは、自分が認識できないメタ・イベントを無視するように設計されている。また、各イベントには、そのイベントを実行する時間的タイミングに関するタイミンダ情報が付加されている。このタイミング情報は、直前のイベントの実行からの時間差で示されている。例えば、このタイミング情報が"0"のときは、直前のイベントと同時にこのタイミング情報が付加されたイベントが実行されることになる。
 一般に、MIDI規格を用いた音楽再生では、各種信号、楽器固有の音色をモデル化し、そのデータを格納した音源を各種パラメータで制御するシステムをとっている。そして、SMFの各トラックはそれぞれの楽器パートに対応しており、各楽器パートごとの分離信号が含まれている。また、SMFには、音高とオンセット時刻と音長又はオフセット時刻と楽器ラベルなどの情報が含まれている。
 したがって、SMFが与えられていれば、これをMIDI音源で演奏することによって、入力される音響信号中の各単音にある程度近い音のサンプル(これを、「テンプレート音」という。)を生成することができる。テンプレート音から、ある楽器から生じる単音に対応した標準的なパワースペクトルにより表現されたデータのテンプレートを作成することができる。
 テンプレート音またはテンプレートは、実際の入力音響信号の単音または単音のパワースペクトルとは完全には同一でなく、必ず音響的な違いがある。そのためテンプレート音またはテンプレートをそのまま分離音または分離のためのパワースペクトルとして使用することはできない。非特許文献2に糸山等が提案した音源分離システムを利用すれば、単音の更新パワースペクトルが後述する初期パワースペクトルに近い状態から、入力音響信号から分離した単音の最新のパワースペクトルに近い状態に徐々に近付ける学習(これを「モデル適応」という。)を行うことにより、更新モデルパラメータに含まれる複数のパラメータを最終的に望ましい形で収束させることができて、分離が可能になる。なお音源分離システムについては、その他の技術を用いることができるのは勿論である。
 具体的な実施の形態の説明をする前に、本明細書中で使用する音色特徴を表現する音色特徴量を定義し、音楽音響信号(楽器音)の分析及び合成に用いる調波・非調波統合モデルについて説明する。
[音色特徴量の定義]
 ある楽器個体の実際の音がいくつか得られているとき、それらを元にして同個体の任意の音高・音長をもつ音、及び複数の音色特徴を含有する音を合成することにより合成音が得られる。このとき重要な点は、音色特徴が歪まないようにすることである。例えば、ある音高をもつ楽器音から音長操作により他の音高をもつ音を合成したとき、これらの音は同一の楽器個体から発せられていると感じられなければならない。
 音色の音響特徴の歪みを抑えて楽器音を合成するために、以下の3つの特徴量を定義する。
(i) 倍音ピーク間の相対強度(倍音ピーク・パラメータ)
(ii) 非調波成分の分布(非調波成分分布パラメータ)
(iii) 時間方向エンベロープ(パワーエンベロープ・パラメータ)
 音響心理学の分野では、音色の聴感上の知覚の差はおもに、(i) 高周波数領域での倍音ピークの有無、(ii) 発音時に発生する非調波成分、(iii) 各ピークの時間方向における振幅の変動、の3つに起因する傾向があると指摘されている。上記の音色特徴量は、これらの知見にそれぞれ対応する。
 図2に、分離音響信号及び置換に用いる置換音響信号のパラメータ分析を説明するために用いる図である。前述の特徴量(i) 及び(iii) は調波成分に関するもの、特徴量(ii) は非調波成分に関するものである。複数の実際の単音が与えられると、まず、各実際の単音の調波成分と非調波成分を分離後、各特徴量を分析することになる。
 本実施の形態では、音色特徴量を分析するために、非特許文献2に示された糸山等が開発した調波・非調波統合モデルを拡張する。なお非特許文献2に示された調波・非調波統合モデルをそのまま利用してもよいのは勿論である。拡張した部分を以下に述べる。
 A.インハーモニシティ(非調和性)の組み込み
 弦楽器音の倍音構造は厳密な整数倍をとらず、弦のスティフネスや長さによって各倍音ピークの周波数が若干高くなる。これは非調和性(インハーモニシティ) と呼ばれる。これを分析できるよう倍音ピークの周波数軸での配置間隔にインハーモニシティの理論式を適用した。
 B.時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの実数表現
 ピアノ音やギター音といった急嵯な立ち上がりを持つ楽器音のパワーエンベロープ・パラメータを詳細に分析するために、ガウス関数の線形加算で表現されているパワーエンベロープ・パラメータを実数で表現した。
 本実施の形態では、上記拡張した調波・非調波統合モデルを用いて調波成分と非調波成分とを明示的に分けて取り扱う。すなわち、単音のスペクトログラムM (f, r) に対し、調波成分に対応するモデルM(H)(f, r) と非調波成分に対応するモデルM(I)(f, r) をω(H) 及びω(I) で重み付けした混合モデルを次式のように表現する。
Figure JPOXMLDOC01-appb-M000001
 ここで、f とr はそれぞれパワースペクトルにおける周波数と時間を表す。また、Σf,r M(I)(f, r)dfdr =1 という制約の付与により重みω(I) は非調波成分のエネルギーと考えることができ、ω(I)M(I)(f, r) は非調波成分のスペクトログラムそのものを表す。一方、M(H)(f, r) は、各倍音n に対するパラメトリックモデルの重み付き混合モデルとして表現される。
Figure JPOXMLDOC01-appb-M000002
 ここで、Fn(f, r) 及びEn(r) は、 図3と図4に示すようなn次倍音成分の相対強度を示す倍音ピーク・パラメータが一要素として含まれる周波数エンベロープ及びn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータ(パワーエンベロープ・パラメータ)を含むモデルとなっている。なおvnがn次倍音成分の相対強度を示す倍音ピーク・パラメータに対応する。なお非調波モデルω(I)M(I)(f, r)が非調波成分分布パラメータに対応する。そしてFn(f, r) は混合正規分布を構成するひとつの要素の正規分布に混合比を乗じたものとして表現される。
Figure JPOXMLDOC01-appb-M000003
 ここで、σは倍音ピークの周波数方向への分散、vn はΣnvn =1 を満たす重みであり、これが倍音ピーク・パラメータである。μn(r) はn 次倍音ピークの周波数軌跡で、次式のインハーモニシティの理論式に基づいて音高軌跡μ(r) と非調和性を組み込むための非調和度Bから次式のように表現される。
Figure JPOXMLDOC01-appb-M000004
 ここで非調和性は弦楽器音の倍音ピーク特有の性質であり、弦の張力、硬さ、長さによって非調和度Bが変わることになる。非調和性を有する倍音ピークの発生する周波数は上記式から求めることができる。注目する点は非調和度Bを0 にすればμn(r)= nμ(r) となり,非調和性の有無を非調和度Bというパラメータで表現することができるところである.そこで非調和性を表現できるように調波モデルを拡張することで分析精度(モデル適応の精度) と合成時の音質(分析音の再現精度) の両方を高めることができる。そこで非調和性を表現できるように拡張された調波モデルを用いると、後述する分離音響信号分析保存部3及び置換用パラメータ保存部4においてより正確な倍音ピークの分析を提供することができる。なお基本的には、従来通りの調波モデル(非調和度Bが0のモデル)を用いても、本発明の効果が得られることは勿論である。また非調和性は音高依存性を持っている。そのため音高の異なる楽器音(分離音響信号) の音高操作及び音色操作を行う場合には、後述する置換パラメータ作成保存部6において、音高依存特徴関数から予測した非調和度を用いるのが好ましい。n次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータ(パワーエンベロープ・パラメータ)En(r)は∫En(r)dr =1 を満たす関数である。この統合モデルにおいて、前述の音色特徴量(i),(ii) 及び(iii) は、それぞれvn,ω(I)M(I)(f, r) 及びEn(r)(置換されるパラメータ)に対応する。これらの求め方は後に詳しく説明する。なおパワーエンベロープ・パラメータは、正弦波重畳モデルで扱われる振幅エンベロープとは異なり、各倍音ピークの時間方向のエネルギーの分布を表す。
 C.楽器音の合成
 調波成分に対応する調波信号sH (t) を合成するには、特徴量(i) 及び(iii) をパラメータとする正弦波重畳モデルを用いる。非調波成分に対応する非調波信号sI (t) を合成するには、特徴量(ii) を入力とするオーバーラップ加算法を用いる。各々に合成された調波信号と非調波信号を以下のように重ね合わせることによって最終的な楽器音s(t) を合成する。
Figure JPOXMLDOC01-appb-M000005
 ここで、t は信号のサンプル番地を表す。
 図5は、上記に説明した拡張した調波・非調波統合モデルを用いる本発明の実施の形態の一例としての、音楽音響信号の音色変更システムの構成を示すブロック図である。この音楽音響信号の音色変更システムは、音響信号分離部1と、信号抽出保存部2と、分離音響信号分析保存部3と、置換パラメータ作成保存部4と、楽器分類判定部5と、置換用パラメータ保存部6と、合成分離音響信号生成部7と、信号加算部8と、音高操作部9Aと、音長操作部9Bとを備えている。
 音響信号分離部1では、前述の拡張した調波・非調波統合モデルを用いて混合音楽音響信号から各音楽パートの音楽音響信号を分離する。調波・非調波統合モデルを用いる場合に、問題となるのは、先に示した統合モデルにおける未知パラメータω(H)(I), Fn(f, r), En(r), vn, μ,(r) σ, M(I)(f, r) を推定することである。そのため、非特許文献2の著者であり本願発明者の一人である糸山等は、統合モデルの単音のスペクトログラムとのKullback-Leibler Divergence を減少させるようにパラメータを反復更新する手法を提案している。この反復過程はExpectation-Maximization アルゴリズムで、効率的にパラメータを推定することができる。具体的には以下のコスト関数Jを最小化することによって、本実施の形態で用いるモデルが単音のスペクトログラムへ適応される。
Figure JPOXMLDOC01-appb-M000006
 ここで、M ̄(I)(f, r) は周波数方向で平滑化した非調波モデルである。非調波モデルは非常に高い自由度を持つため、調波モデルで表現すべき調波構造までも過剰に適応する。この非調波モデルの過剰適応を防ぐために、平滑化した非調波モデルとの距離をコスト関数に加算する。E ̄(r) は各倍音ピークごとに平均したパワーエンベロープ・パラメータである。各倍音ピークのパワーが倍音ピーク間の相対強度とパワーエンベロープ・パラメータといったベクトル量及び調波エネルギーといったスカラー量の積算によって表現される。しかし、弱小なピークへのモデル適応時に、倍音ピーク間の相対強度が0 に近くなるため、パワーエンベロープ・パラメータが非常に高い自由度を持つようになる。このため、音高操作時、音高依存特徴関数によって弱小だったピークの倍音ピーク間の相対強度が強くなったときに、高調波成分において強い歪みが発生する。この弱小ピークへのパワーエンベロープ・パラメータの過剰適応を防ぐため、平均化したパワーエンベロープ・パラメータとの距離をコスト関数に加算する。λ(v)とλ(En) はそれぞれvn とEn(r) に対応するラグランジュの未定乗数項である。β(I) とβ(E) はそれぞれ、非調波成分とパワーエンベロープ・パラメータへの制約重みとする。Sn (H)(f, r) とS(I)(f, r) はそれぞれ分離された各ピークの成分と非調波成分である。これらの分離は次式のように分配関数Dn (H)(f, r) とD(I)(f, r) をそれぞれ積算することによって行われる。
Figure JPOXMLDOC01-appb-M000007
 分離に用いられる分配関数はモデルのパラメータを固定してコスト関数Jを最小化することによって求められ、次式のような方程式で導出される。
Figure JPOXMLDOC01-appb-M000008
 ただし、このとき最小化にあたって以下の制約を設ける。
Figure JPOXMLDOC01-appb-M000009
 さらに、前述した非調波成分の自由度の高さを制限するために、次式のように非調波成分の分離に用いる分配関数に制約重み0 ≦ γ≦ 1 を積算する。
Figure JPOXMLDOC01-appb-M000010
 制約重みγ は反復過程の初期においては低い値が割り振られ、徐々に1に近づくように更新される。音響信号分離部1で、上記のモデルを用いて各楽器パートを構成する楽器音の音響信号の分離(分離音響信号の生成)と同時に、単音ごとの分離音響信号から上記パラメータを推定する。その結果、上記モデルを用いた場合には、音響信号分離部1、信号抽出保存部2及び分離音響信号分析保存部3の大部分が実現される。上記モデルを用いない場合、音響信号分離部1では、公知の分離技術を用いて音楽音響信号を分離することになる。パラメータを推定することにより、1つの音楽音響信号の分離が完了する。
 音響信号分離部1で音楽音響信号を分離した後、信号抽出保存部2は、音響信号分離部1において分離した第1の種類の楽器から発生した楽器音を含む音楽音響信号から抽出した、分離音響信号を単音ごとに保存し且つ残差音響信号を保存する。前述のように、非特許文献2の分離技術を用いる場合には、分離音響信号と残差音響信号の分離・抽出を行っている。なお音楽音響信号は、本実施の形態のように、音響信号分離部1を用いて複数種類の楽器の楽器音が含まれる混合音響信号から分離されたものでも、音響信号分離部1を用いずに、最初から1つの楽器を演奏して得た単一楽器の音楽音響信号でもよい。なお本実施の形態のように、混合音響信号から分離した音楽音響信号を用いる場合には、音響信号分離部1で分離した他の楽器のパートの音楽音響信号は、残差音響信号に含めることになる。
 分離音響信号分析保存部3は、単音ごとの分離音響信号を、少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータ(通常、1単音あたりn次倍音分のn個の倍音ピーク・パラメータがある)とn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータ(通常、1単音あたり、倍音ピークの個数分のパワーエンベロープ・パラメータがある。)によって定式化された調波モデルにより表現するために、複数のパラメータを分析して保存する。なお非特許文献2に記載の調波・非調波統合モデルを音響信号分離部1で用いる場合には、分離音響信号分析保存部3は、音響信号分離部1に含まれることになる。なお調波モデルは、少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータとn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって構成されるものであればよく、特に上記非特許文献2に記載された調波モデルに限定されるものではない。後に説明するように、調波モデルとして、倍音構造の非調和性を組み込んだ調波モデルを用いると、第1の種類の楽器が、弦楽器の場合におけるパラメータの生成精度を高めることができる。1つの倍音ピーク・パラメータは、典型的には、前述の図3に示すように、周波数方向に倍音ピークが並ぶパワースペクトル中の倍音ピークの強度の実数として表現される。図2のA欄には、第1の種類の楽器の楽器音の音響信号から作成したパラメータを示してある。図2において、A欄内の左端領域には、分析されたn次倍音成分の相対強度を示す倍音ピーク・パラメータの一つを示している。そしてA欄の右端領域には、非調波成分のパワースペクトル(非調波成分分布パラメータ)が示されている。さらにA欄の中央領域には、分析されたn次倍音成分の時間方向のパワーエンベロープ・パラメータの一つが示されている。パワーエンベロープ・パラメータは、図4に示すように、N個のn次倍音成分の相対強度を示す倍音ピーク・パラメータにそれぞれ含まれる同じ時間における倍音ピークのパワーの時間方向(周波数が同じで時間が異なる複数の倍音ピークのパワー)の変化を示すものであればよく、使用可能なパワーエンベロープ・パラメータは、上記非特許文献2に記載されたパワーエンベロープ・パラメータのみに限定されるものではない。
 置換用パラメータ保存部6は、第1の種類の楽器とは異なる第2の種類の楽器から発生した楽器音の音響信号から作成した、音楽音響信号に含まれる全ての単音に対応する第2の種類の楽器から発生する複数の単音についての音響信号を調波モデルにより表現する場合に必要となる、第2の種類の楽器の複数の単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータを保存する。また置換用パラメータ保存部6は、非調波成分分布パラメータも置換する場合には、第2の種類の楽器から発生した楽器音の音響信号の複数種類の単音ごとの非調波成分分布パラメータも保存する機能を備えている必要がある。
 図2のB欄には、第1の種類の楽器とは異なる第2の種類の楽器から発生した楽器音の音響信号から作成した、音楽音響信号に含まれる全ての単音に対応する第2の種類の楽器から発生する複数の単音についての音響信号を調波モデルにより表現する場合に必要となる、第2の種類の楽器の単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータの一例と、非調波成分と、n次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの一例が示されている。
 同じ楽器分類に属する楽器の音響信号であれば、各周波数におけるパワーエンベロープ・パラメータは、良く似た形状になる。図1のA欄のパワーエンベロープ・パラメータの形状は、トランペット及び吹奏楽器等の持続楽器の単音のパワーエンベロープ・パラメータの形状であり、立ち上がり部と立ち下がり部との間に緩やかな変化部分を持つ変化パターンを有している。またB欄に示したパワーエンベロープ・パラメータの形状は、ピアノ及び打弦楽器等の減衰楽器の単音のパワーエンベロープ・パラメータの形状であり、大きな立ち上がりを持って減衰する変化パターンを有している。なお保存する倍音ピーク・パラメータ及びパワーエンベロープ・パラメータのデータ形式は任意である。非調波成分分布の形状も、楽器の形状に応じて相違する。非調波成分部分は、音の周波数をなす倍音ピーク以外の弱小な強度の周波数成分である。よって非調波成分分布パラメータも楽器の種類に応じて異なる。非調波成分分布の分析は、単音のみからなる音楽音響信号においては、考慮するのに十分に値する。
 第2の種類の楽器の複数の単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータは、事前に作成してもよいが、本システムで作成してもよい。なお音響信号分離部1において混合音響信号から分離した他の楽器パートの音楽音響信号から得た単音を第2の種類の楽器音としても用いることができるのは勿論である。
 楽器分類判定部5は、第1の種類の楽器と第2の種類の楽器とが、同じ楽器分類に属するか否かを判定する。これは楽器分類が異なると、前述のパワーエンベロープのパターンが異なるためである。
 そして置換パラメータ作成保存部4は、分離音響信号分析保存部3に保存された、第1の種類の楽器の単音ごとのn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、置換用パラメータデータ保存部6に保存された、第1の種類の楽器の単音に対応する第2の種類の楽器の単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成して保存する。置換倍音ピーク・パラメータは、全ての倍音パラメータが第2の種類の楽器の楽器音から得られる倍音パラメータによって置換されたものである。また置換パラメータ作成保存部4は、分離音響信号分析保存部3に保存された、第1の種類の楽器の単音ごとのn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを、置換用パラメータ保存部6に保存された、第1の種類の楽器の単音に対応する第2の種類の楽器の単音のn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータと置き換えることにより作成した置換パワーエンベロープ・パラメータを保存する。なおこの置き換えでは、時間方向の長さを一致させる必要があるときには、第2の種類の楽器のパワーエンベロープ・パラメータと音楽音響信号のパワーエンベロープ・パラメータのオンセットとオフセットが合うようにパワーエンベロープを伸縮させて置き換えを行う。
 さらに置換パラメータ作成保存部4は、分離音響信号分析保存部3に保存された、第1の種類の楽器の単音ごとの非調波成分分布パラメータを、置換用パラメータ保存部に保存された、第1の種類の楽器の単音に対応する第2の種類の楽器の単音の非調波成分分布パラメータと置き換えることにより作成した置換非調波成分分布パラメータを更に保存する。
 合成分離音響信号生成部7は、楽器分類判定部5が、第1の種類の楽器と第2の種類の楽器とが、同じ楽器分類に属すると判定したときには、分離音響信号分析保存部に保存された倍音ピーク・パラメータ除く他のパラメータと置換パラメータ作成保存部に保存された置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。また合成分離音響信号生成部7は、楽器分類判定部5が、第1の種類の楽器と第2の種類の楽器とが、異なる楽器分類に属すると判定したときには、分離音響信号分析保存部3に保存された倍音ピーク・パラメータ、パワーエンベロープ・パラメータ及び非調波成分分布パラメータを除く他のパラメータと置換パラメータ作成保存部に保存された置換倍音ピーク・パラメータ及び置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。このようにすると第2の種類の楽器がどのようなものであっても、自動的に最適な音色変更を行うことができる。そして信号加算部8は、合成分離音響信号生成部7から出力された合成分離音響信号と分離音響信号分析保存部3から得た残差音響信号とを加算して、第2の種類の楽器から発生した楽器音を含む音楽音響信号を出力する。図2の最下部には、残差音響信号を足す以前のパワースペクトルを示している。
 本実施の形態によれば、調波モデルを構成するパラメータのうち音色に係わるパラメータの置換(変更)により、音色の変更(操作)をすることができるので、簡単に各種の音色変更を実現することができる。
 なお楽器分類判定部5を設けず、また置換パラメータ作成保存部4には置換倍音ピーク・パラメータだけを保存するようにしてもよい。このようにすると、第1の種類の楽器の単音から得られるパワーエンベロープ・パラメータの変化パターンと第2の種類の楽器の単音から得られるパワーエンベロープ・パラメータの変化パターンとが近似していれば、音色の変更精度は高くなる。逆に両者の変化パターンが大きく異なると、所望の音色への変更精度は低くなるものの、第2の種類の楽器の楽器音とは、第1の種類の楽器の雰囲気またはイメージが残った印象を受ける音色の変更となる。このような音色の変更も、ユーザによっては望まれる場合があるので、許容される。
 また置換の対象とするパラメータのうち、非調波成分分布パラメータの重要度は低いため、高い精度を要求されない場合には、置換の対象から除外してもよいのは勿論である。
 本実施の形態では、分離音響信号分析保存部3が分析する複数のパラメータに、音高に関する音高パラメータと音長に関する音長パラメータとが含まれている。そこで音高パラメータを操作する音高操作部9Aと、音長パラメータを操作する音長パラメータ操作部9Bをさらに備えている。その結果、本実施の形態によれば、音高操作部9A及び音長操作部9Bを備えているので、音色の変更(操作)の他に、音高、音長の変更(操作)も行うことができる。
 また本実施の形態では、分離音響信号分析保存部3が分析する複数のパラメータは第1の種類の楽器から発生したすべての単音に対してそれぞれ別個に得られる。そこでユーザが指定する任意の楽譜構造中の各単音にふさわしい、音高に関する音高パラメータ、音長に関する音長パラメータ、及び調波モデルを構成するパラメータのうち音色に関わるパラメータを生成するための楽譜操作部9C を備えている。本実施の形態では、楽譜操作部9Cを備えているので、音色の変更(操作)の他に、楽譜の変更(操作)も行うことができる。
 次に、音高、音長、音色、楽譜の操作(変更)の技術について説明する。JIS では、音色は「聴感上の音の性質の一つで、2音の大きさ及び高さがともに等しくてもその2音が異なった感じを与えるとき、その相違に対応する性質」と定義されている。この定義では、音色は音高と音量とは独立の音の性質として扱われている。しかし、音色には音高への依存性があることが知られている。そのため音高によって変化するべき特徴量を保持したまま音高操作を行うと操作された楽器音に音色の歪みが生じる。また音色に関係する物理量としてスペクトル包絡が知られている。しかし一つのスペクトル包絡だけで異なる音高の倍音ピーク間の相対強度を正確に表現することは出来ない。これら音色特徴量のみで音色の特徴を捉えられるとはいいがたい。そこで発明者は音色特徴量とそれらの依存関係を分析しなければ、音色の特徴を捉えることができないという立場で、音色特徴量に加え、複数の楽器音から音色特徴量の音高依存性を分析することで、楽器個体の音色を扱うことを試みた。すなわち、操作は音色特徴量の音高依存性を考慮して行う。そして最後に、調波成分・非調波成分を別々に再合成して、足し合わせる。
 発明者は、音高依存性を考慮した公知の論文[北原鉄朗, 後藤真孝, 奥乃博「音高による音色変化に着目した楽器音の音源同定:F0 依存多次元正規分布に基づく識別手法」, 情報処理学会論文誌, Vol. 44, No. 10, pp. 2448.2458 (2003)]に着目した。この論文には、音高に対する音響特徴量を回帰関数(音高依存特徴関数)を用いて近似し、音高依存性を除去したあとの特徴量分布を学習することで、楽器音識別率が向上したと報告されている。なおこの論文中には、回帰関数を音高操作に使用することが開示されているだけで、音色置換にこの関数を用いることや、学習パラメータの補間生成を行うことは記載されていない。音色が音高に依存する理由として以下のことが知られている。
 音高を操作するには、音高軌跡μ(r)に所望の倍率を乗算すればよいが、このとき音色特徴量の値を変化させずにそのまま利用することはできない。なぜなら、音色は音高依存性をもつことが知られており、音高の操作が大きくなるにつれて音色の歪みは増加するからである。
 図6に示すように、音高をμ(r)からμ′(r)に変化させる場合には、相対強度をvnからvn′へと適切に変化させる必要がある。
 この問題を解決するため、発明者は、北原鉄朗, 後藤真孝及び 奥乃博が発表した「音高による音色変化に着目した楽器音の音源同定:F0 依存多次元正規分布に基づく識別手法」[情報処理学会論文誌,Vol. 44, No. 10, pp. 2448.2458 (2003)]の論文で提案された音高依存性を考慮した楽器音識別手法に着目した。この論文では、音高に対する音響的特徴量を3次関数を用いて近似し、音高依存性を除去したあとの特徴量分布を学習することで、楽器音識別率が向上したと報告されている。
 音色が音高に依存する理由として以下が知られている。
 1.音高が低くなれば、発音体は大きくなる。発音体の質量が大きくなると慣性も大きくなり、パワーエンベロープの立ち上がりや減衰により多くの時間を要する。
 2.音高が高くなると振動損失が大きくなるために、高次の高調波は発生されにくくなる。
 3.一部の楽器では音高により発音体が異なり、各発音体は異なる材質からできている。
 これらの知見から、楽器の音色は低域から高域にいくに従って連続的に変わるといえる。よって、本実施の形態では、音高よりも奏法に依存すると考えられる特徴量(iii)パワーエンベロープ・パラメータを除き、音高に対する特徴量(i)倍音ピーク間の相対強度(倍音ピーク・パラメータ),(ii)非調波成分の分布をn次関数(音高依存特徴関数と呼ぶ)(非調波成分分布パラメータ)で近似する。
 本実施の形態では、音高依存特徴関数の次数に3次を用いた。この次数は、限られた学習データから音色の音高依存性を学習でき、音色特徴量の音高による変化を十分に扱えるという基準を設け、予備実験より決定した。
 具体的には、以下の 2つのパラメータに着目した。 
 (1) 各倍音の倍音ピーク間の相対強度vn 
 (2) 調波成分のエネルギーに対する非調波成分のエネルギーの比ω(H)(I) 
 (1)のvnに関しては、n毎に独立に音高依存特徴関数を作成する。これによって、必ずしも vnに関する制約 Σn vn =1は満たされなくなるが、この場合でΣn vn の値はほぼすべての音高に対して0.9~1.1程度に収まっており、生成される楽器音の音色がこれによって大きく変化することはないと考える。異なった音高をもつ複数のseed(単音)が与えられれば、それらの音色特徴量を分析し、最小二乗法によって音高依存特徴関数を求めることができる。得られた音高依存特徴関数を用いれば、所望の音高における音色特徴量を予測することができる。例として、図7(A)乃至(D)にトランペットの第1次倍音,第4次倍音,第10次倍音の相対強度、および調波成分と非調波成分のエネルギー比の音高特徴依存関数を示す。なお図7において、点と実線はそれぞれ、音高ごとに分析された音色の特徴量と、導出された音高依存特徴関数である。
 音長を操作するには、パワーエンベロープ・パラメータ En(r)を所望の音長になるように伸縮させる方法は適切ではない。なぜなら、同一楽器個体では音長にかかわらず、発音の立ち上がりと立ち下がり、および音高の変動周期は類似することが知られており、音長の操作が大きくなるにつれて歪みは増加するからである。特に楽器音の立ち上がりや立ち下がりはエネルギーが大きく変化する部分で音色の印象への関わりが深い。また、音高の変動周期は、特にビブラート奏法が多用される演奏される楽器にとっては重要であり、聴感に与える印象への影響が大きい。
 この問題を解決するため、発明者はパワーエンベロープ・パラメータにおける立ち上がりと立ち下がり部分を保存及び音高軌跡の時間的変動を再現する。まず、特徴量(iii) において、エネルギーの急峻な立ち上がり終了時をオンセットron、エネルギーの急峻な立ち下がり開始時をオフセットroffとして定義する。音長を操作するには、図8に示すようにオンセット-オフセット区間のみを伸縮させればよい。また、図9に示すように、正弦波重畳モデルを用いてオンセット-オフセット区間の音高軌跡を表現し、操作前と同じ周波数特性をもつ所望の長さの音高軌跡を生成する。オンセット以前及びオフセット以降の音高軌跡は操作前のものを用い、オンセット-オフセット付近の軌跡はガウシアンによって平滑化される。
 次に、楽譜の変更方法について説明する。本実施例において、楽譜を変更することは、変更後の楽譜中の各単音それぞれに対する音高軌跡、パワーエンベロープ・パラメータ、及び音色特徴量を用意することである。変更後の楽譜が変更前のものと本質的に異なる場合、前述の音高操作、音長操作によってこれらの特徴量を得ることは適切ではない。なぜなら、実演奏から分析した音高軌跡、パワーエンベロープ・パラメータ、及び音色特徴量には、楽譜構造に依存して発生する特徴量の揺らぎ、すなわち演奏表情が含まれているからである。従って、変更後の楽譜に対する上記特徴量は、変更前の楽譜演奏から得た特徴量を元に、「似た構造の楽譜は似たような音で演奏される」という仮定のもとで新たに生成するのが望ましい。
 発明者は、図20に概念的に示すように、変更後の楽譜の全単音の特徴量を、1) 前音の音高、前音の音長、当該音の音高、当該音の音長の4要素が最も近い変更前の楽譜の単音と、2) 当該音の音高、当該音の音長、高音の音高、高音の音長の4要素が最も近い変更前の楽譜の単音、の2単音を分析して得た特徴量を混合比1:0 から0:1 へと時間変化させて重み付き混合する方法によって得る。この操作は変更前の楽譜演奏中で隣り合った音の組を、変更後の楽譜に合わせて次々と滑らかに連結させていく操作となる。
 次に、音色(変更)操作について説明する。音色を操作するには、各音色特徴量に実数の混合率を乗算する.各音色特徴量の補間方法には以下のような2通りがある。
線形混合
Figure JPOXMLDOC01-appb-M000011
対数混合
Figure JPOXMLDOC01-appb-M000012
 Feture にはvn, M(I)(f, r), En(r) といった音色特徴量が当てはまる。また,k,P は、それぞれ各単音へのインデックスと、補間された特徴量へのインデックスである。各単音の混合率αk は制約条件Σk αk = 1 を満たし、0 < αk < 1 では内挿、1 < αk あるいはαk < 0 では外挿となる。線形混合は、内挿と外挿の特徴量の変化率が一定であるが、音のエネルギーを対数的に捉える人間の聴覚特性を考慮できていない。これに対して対数混合は、人間の聴覚特性を考慮した補間方法であるが、混合した特徴量を最終的に指数化するため、外挿には注意が必要である。
 音色特徴量のアラインメントの取り方を図10に示す。図10(A)は、上段の第1の種類の楽器の単音ごとのn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと、第1の種類の楽器の単音に対応する下段の第2の種類の楽器の単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換える場合のアラインメントの取り方を示す。図10(B)は、第1の種類の楽器の単音から得られるパワーエンベロープ・パラメータと第2の種類の楽器の単音から得られるパワーエンベロープ・パラメータのアラインメントの取り方を示す。第2の種類の楽器のパワーエンベロープ・パラメータと第1の種類の楽器の単音のパワーエンベロープ・パラメータのオンセットとオフセットが合うようにパワーエンベロープを伸縮させて操作を行う。そして図10(C)は、上段の第1の種類の楽器の単音ごとの非調波成分と、下段の第2の種類の楽器の非調波成分のアラインメントの取り方を示す。両者のオンセットの部分を一致させるようにアラインメントを取ればよい。
 図11は、図5に示した実施の形態を具体的にコンピュータを用いて実現する場合に用いるコンピュータプログラムの一例のアルゴリズムを示すフローチャートである。また図13は、音色操作の状況を説明するために用いる図である。このプログラムでは、複数の単音ごとのn次倍音成分の相対強度を示す倍音ピーク・パラメータとパワーエンベロープ・パラメータを置換して、音色の変更(操作)を行う。まずステップST1では、第1の種類の楽器から発生した楽器音を含む音楽音響信号から、分離音響信号と残差音響信号とを単音ごとにそれぞれ抽出する。またこのステップST1では、単音ごとの分離音響信号を、少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータとn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、複数のパラメータを分析する(特徴量変換)。
 次にステップST2乃至ステップST4は、第1の種類の楽器とは異なる第2の種類の楽器から発生した楽器音の音響信号(置換音響信号)から、倍音ピーク強度及びパワーエンベロープに関する特徴量を抽出する。これらステップST2乃至ステップST4により、図12に示すように構成要素から構成される置換用パラメータ保存部6が構成される。すなわち図12に示す置換用パラメータ保存部6は、パラメータ分析保存部61と、パラメータ補間生成保存部62と、関数生成保存部63とを備えている。パラメータ分析保存部61は、ステップST2で実現される機能実現手段であり、第2の種類の楽器から発生した楽器音の音響信号から得た複数種類の単音の分離音響信号を調波モデルにより表現する場合に必要となる、複数種類の単音ごとの少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータ及びn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを分析して保存する。なおパラメータ分析保存部61は、分析により得られたn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを、代表パワーエンベロープ・パラメータとして保存してもよい。
 図13の最上段には、置換音響信号の特徴量として、1つの単音のn個のn次倍音成分の相対強度を示す倍音ピーク・パラメータのうちの2つの倍音ピーク・パラメータをパワースペクトルで示してある。パラメータ補間生成保存部62は、ステップST3で実現される機能実現手段である。ステップST3では、補間により学習用特徴量を生成する。具体的には、パラメータ分析保存部61に保存した複数種類の単音についての倍音ピーク・パラメータとパワーエンベロープ・パラメータとに基づいて、音楽音響信号に含まれる全ての単音に対応する第2の種類の楽器から発生する複数の単音のうち複数種類の単音以外の単音についての音響信号をモデルにより表現する場合に必要となる第2の種類の楽器の複数の単音ごとの倍音ピーク・パラメータ及びパワーエンベロープ・パラメータを補間法を用いて生成して保存する。このステップST3で行うことは、例えば2つの単音しかない場合において、必要なその他の複数の単音を補間法により生成して保存することである。
 ステップST2乃至ステップST4で、第1の種類の楽器とは異なる第2の種類の楽器から発生した楽器音の音響信号(置換音響信号)から倍音ピーク・パラメータ、パワーエンベロープ・パラメータ、非調波成分分布パラメータを抽出し、これらを補間することで置換に用いる各々のパラメータ(置換パラメータ) を生成する。補間により置換パラメータを生成することで、音色置換を所望する音楽音響信号中の単音と同じ音高、音長を持つ第2の種類の楽器の音響信号を限られた数の置換音響信号で置換することができる。音色は音高依存性を持っており、特に、倍音ピーク・パラメータは特に強い音高依存性を持っていることが非特許文献4の実験で知られている。
 一方、スペクトル包絡は小さな音高依存性しか持っておらず、非特許文献5でスペクトル包絡を保持した品質の高い音声の音高操作手法が報告されている。
 このスペクトル包絡を保持した音高操作手法は、非特許文献4にて評価実験における比較対象ともなっており、実験でスペクトル包絡の音高依存性の小ささが示されている。また、音響心理学の分野では、各ピークの時間方向における振幅の変動と発音時に発生する非調波成分で音色の時間変化が知覚される傾向があると指摘されている。すなわち、パワーエンベロープ・パラメータは発音時及び発音が持続している間、非調波成分分布パラメータは発音時が音色の知覚に重要な特徴を含んでいるといえる。
 本実施の形態の倍音ピーク・パラメータの補間では、倍音ピーク・パラメータよりもスペクトル包絡のほうが、音高依存性が小さいことに着目し、倍音ピーク・パラメータをスペクトル包絡に変換する。スペクトル包絡v(f) への変換は、図14 に示すように隣接する各倍音ピーク・パラメータvn を補間(線形補間、スプライン補間etc.) することで実現される。このとき、補間区間を超えた周波数(音高より下及び最高次の倍音ピーク周波数より上) のスペクトル包絡の変換には最近傍周波数の倍音ピーク・パラメータを用いる。以下、同様に補間区間を超えた範囲の補間には最近傍に位置するパラメータ値を用いるものとする。
 さらに、変換して得られたスペクトル包絡v(f) を次式に基づいて補間することで、音色置換を所望する音楽音響信号中の任意の音高μ を持つ単音の補間スペクトル包絡を得られる。
Figure JPOXMLDOC01-appb-M000013
 ここで、k は置換音響信号に付与されているインデックスであり、v(k)(f)、v(k+1)(f) はそれぞれ低域、高域において最近傍の音高を持つ置換音響信号のスペクトル包絡である。また、α はこれら置換音響信号の音高μ(k)、μ(k+1)から決定される補間率であり、次式により決定される。
Figure JPOXMLDOC01-appb-M000014
 ここで音高μnは以下のように定義される。
Figure JPOXMLDOC01-appb-M000015
 最後に、次式のように各倍音ピーク周波数の補間スペクトル包絡から補間倍音ピーク・パラメータを得る。
Figure JPOXMLDOC01-appb-M000016
 以上の倍音ピーク・パラメータの補間の概要図を図15に示す。
 本実施の形態のパワーエンベロープ・パラメータの補間では、発音時及び発音の持続している間が各ピークの振幅における音色の知覚に重要であることに着目し、置換音響信号のオンセットとオフセットを、置換を所望する音楽音響信号内の単音のオンセットとオフセットに同期させる。同期させるオンセットron とオフセットroff はそれぞれ、平均パワーエンベロープ・パラメータにおけるパワーが十分に大きくなった地点とパワーが急嵯に減少する地点を表すものであり、検出には手法を問わない。置換を所望する音楽音響信号内の単音のオンセットron、オフセットroff で同期をとるにはパワーエンベロープ・パラメータを時間軸上で操作する必要がある。これには非特許文献6で報告されている手法を用い、図16 に示すようにオンセット・オフセット区間(ron-roff) のみを操作することで同期パワーエンベロープ・パラメータEn(r) を得る。
 同期パワーエンベロープ・パラメータEn(r) を次式に基づいて補間することで、音色置換を所望する音楽音響信号中の任意の音長を持つ単音の補間パワーエンベロープ・パラメータEn(r) を得られる。
Figure JPOXMLDOC01-appb-M000017
 ここで、E (k)n (f)、E (k+1)n (f) はそれぞれ低域、高域において最近傍の音高を持つ置換音響信号のパワーエンベロープ・パラメータである.パワーエンベロープ・パラメータの補間にも倍音ピーク・パラメータの補間で用いた補間率も用いる。以上のパワーエンベロープ・パラメータの補間の概要図を図17に示す。
 本実施の形態の非調波成分分布パラメータの補間では、発音時が非調波成分における音色の知覚に重要であることに着目し、置換音響信号のオンセットを置換を所望する音楽音響信号内の単音のオンセットに同期させる。同期させるオンセットron はパワーエンベロープ・パラメータの同期で用いたものと同様である。置換を所望する音楽音響信号内の単音のオンセットron で同期をとるには、図18に示すように非調波成分分布パラメータを時間軸上で平行移動させればよく、これにより同期非調波成分分布パラメータM (I,k)(f, r)を得る。同期非調波成分分布パラメータM (I,k)(f, r) を次式に基づいて補間することで、音色置換を所望する音楽音響信号中の任意の音長を持つ単音の補間非調波成分分布パラメータM (I,k)(f, r) を得ることができる。
Figure JPOXMLDOC01-appb-M000018
 ここで、M (I,k)(f, r),M (I,k+1)(f, r) はそれぞれ低域、高域において最近傍の音高を持つ置換音響信号の非調波成分分布パラメータである。非調波成分分布パラメータの補間にも倍音ピーク・パラメータの補間で用いた補間率も用いる。以上の非調波成分分布パラメータの補間の概要図を図19に示す。さらに、倍音ピーク・パラメータ及び非調波成分分布パラメータを構成する非調波成分エネルギーw(I) においては、関数化することで置換音響信号のパラメータ分析時の誤差を軽減させることができる。このとき、補間に用いる置換音響信号は多いほうが望ましい。この関数化には非特許文献5 で報告されている音高依存特徴関数を用い、倍音ピーク・パラメータ及び非調波成分分布パラメータを学習した音高依存特徴関数から予測する。
 ステップST4では、音高依存性特徴関数の学習を行う。なお学習方法及び学習させるパラメータは、前述の音高操作時に使われる音高依存性特徴関数と同じである。ステップST4により、図12の関数生成保存部63が構成されている。関数生成保存部63は、パラメータ分析保存部61及びパラメータ補間生成保存部62に保存されたデータに基づいて、第2の種類の複数の単音ごとの倍音ピーク・パラメータを音高依存特徴関数として保存する。具体的にステップST4では、ステップST3で生成したいくつかの単楽器音の特徴量から最小二乗法によって回帰関数の係数を推定する(図13の上から3段目の図参照)。この回帰関数は、音高依存特徴関数と呼ばれるものである。具体的には、1つの単音についてのn個のn次倍音成分の相対強度を示す倍音ピーク・パラメータから、同じ周波数を持って発生する倍音ピークを各次元のデータから(1次からn次まで)集めてそれらの包絡線を表したものである。このような関数が得られれば、第2の種類の楽器の単音の倍音ピーク・パラメータに含まれる複数の倍音ピークを各次元の音高依存特徴関数から取得することができる。このように関数化することで、複数の学習データの分析時の誤差を軽減することができる。
 本発明において、ステップST4を用いた関数化は必須要件ではなく、ステップST3の精度が高ければ、ステップST3で取得したデータをそのまま利用してもよい。また第2の種類の楽器の複数の単音ごとの必要なパラメータは、どのように作成してもよく、本実施の形態に限定されるものではない。
 図11に戻って、ステップST5では、第1の種類の楽器の単音ごとのn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、第1の種類の楽器の単音に対応する第2の種類の楽器の単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成する。ステップ5では、ステップST4で求めた音高依存特徴関数から置き換えに必要な第2の楽器の倍音ピークを取得している。そしてステップST6では、第1の種類の楽器と第2の種類の楽器とが、同じ楽器分類に属するか否かを判定する。ステップST6で、第1の種類の楽器と第2の種類の楽器とが、同じ楽器分類に属すると判定したときには、ステップST8へと進む。ステップST6で、第1の種類の楽器と第2の種類の楽器とが、同じ楽器分類に属するものではないと判定したときには、ステップST7へと進む。ステップST7では、ステップST2乃至ステップST4で求めた、第2の種類の楽器の複数の単音のn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを取得する。そして第1の種類の楽器の単音ごとのn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを、第1の種類の楽器の単音に対応する第2の種類の楽器の単音のn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータと置き換えることにより置換パワーエンベロープ・パラメータを作成する。非調波成分分布パラメータについても、このステップST7で置換非調波成分分布パラメータを作成する。
 ステップST6で、2つの楽器が同じ楽器分類に属することが判定された場合、ステップST8では、分離音響信号分析保存部に保存された倍音ピーク・パラメータ除く他のパラメータと置換用パラメータ保存部に保存された置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。ステップST6で、2つの楽器が同じ楽器分類に属するものではないことが判定された場合、ステップST8では、倍音ピーク・パラメータ及びパワーエンベロープ・パラメータを除く他のパラメータと置換倍音ピーク・パラメータ及び置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成する。そして最後のステップST9では、単音ごとの合成分離音響信号と残差音響信号とを加算して、第2の種類の楽器から発生した楽器音を含む音楽音響信号を出力する。
 図11のアルゴリズムでは、ステップST6で、楽器分類を判定しているが、楽器分類の判定はステップST5よりも前において行ってもよい。また当初より、同じ楽器分類に属する楽器の音響信号間でのみ音色変更をすることが決まっている場合には、ステップST7は不要であり、ステップST2乃至ステップST4でもパワーエンベロープ・パラメータを扱う必要はない。
 次に、図1の実施の形態を処理する具体的な実装について説明する。
[音高操作]
 音高操作を行うには、周波数エンベロープを構成する音高軌跡μ(r)に対して、実数α(音高を低くする場合:0≦α<1、音高を高くする場合:1<α)を乗算する。ここで、μ(r)を所望する操作後の音高とすると以下が成り立つ。
Figure JPOXMLDOC01-appb-M000019
 例えば、αを2とすれば、seed(単音)の1オクターブ上の音高の楽器音が合成できる。操作後の楽器音の倍音ピーク間の相対強度vnは、音高依存特徴関数から予測される各倍音ごとの倍音ピーク間の相対強度を制約条件Σ=1より正規化することで得られる。また、操作後の楽器音の非調波成分のエネルギーω(I)は、調波成分のエネルギー ω(H)を音高特徴依存関数から予測される調波成分に対する非調波成分のエネルギーの比 ω(H)(I)で割ることで得られる。
[音長操作]
 音長操作を行うには、オンセット・オフセット間の時間方向エンベロープEn(r)と音高軌跡μ(r)を操作する。操作によって得られた時間方向エンベロープと音高軌跡をそれぞれ Enとμ(r)とする。
[オンセットとオフセットの検出]
 本願明細書におけるオンセットとは、楽器音の時間方向の振幅が十分に大きくなってから、振幅の変動が一定になる瞬間である。オフセットとは、時間方向の振幅が十分な大きさを持っており、振幅の変動が一定の状態が得られなくなる瞬間である。この定義に従い、オンセットとオフセットを以下の通り検出する。
Figure JPOXMLDOC01-appb-M000020
 ここでThは、楽器音の時間方向の振幅の十分な大きさを示す閾値である。持続系の楽器はこれでよいが、打弦楽器や撥弦楽器といった減衰楽器のオンセットとオフセットは、ほぼ同時時刻となり、オンセット・オフセット間を伸縮させることができない。よって、シンセサイザーにおける減衰楽器の振幅制御を参考に、パワーエンベロープ・パラメータの終端を減衰楽器音のオフセットとみなし、オンセット以降のパワーエンベロープ・パラメータを伸縮の対象とする。
[楽譜操作]
 ユーザが指定する変更後の楽譜の各単音の特徴量は, 分析した変更前(元演奏)の楽譜との楽譜構造の類似性に基づいて生成される。図21は、楽譜操作における操作の流れを示しており、変更前の楽譜演奏音響信号から演奏表情を含む特徴量を抽出し、これを用いて楽譜構造の類似性に基づき変更後の楽譜に対する特徴量を生成する。そこで発明者は、 変更後の楽譜の第j 音に対する特徴量Featureを, 変更前の楽譜中のノートナンバーNと音長Lの類似する単音の特徴量から算出する方法をとった。まず、変更後の楽譜の第j 音に対して以下の条件を満たす分析済変更前の楽譜中の2音を選出する。
Figure JPOXMLDOC01-appb-M000021
 ここで、 Nk, Lk は変更前の楽譜のノートナンバーと音長であり, N ̄ j, L ̄ j は変更後の楽譜のノートナンバーと音長であり、α はそれらの重みを決定する定数である。 次に, 得られた二つの単音の特徴量を混合して、 第j 音にふさわしい音モデルを算出する。
Figure JPOXMLDOC01-appb-M000022
 ただし、上記式において、 Feature(j)(r) は第j 音の特徴量中の時間フレームr に対するものであり、その四則演算は各パラメータ同士のものと定義する。 また、
外1
Figure JPOXMLDOC01-appb-I000023
はそれぞれ変更前の楽譜のq- j 音, q+ j 音の特徴量を音高がN ̄j, 音長がL ̄j となるように操作をしたものである. この式は二つの音特徴量の混合比を1:0から0:1 へと時間変化させることを意味しており, q+ j = q ̄j+1 であることから, 変更前の楽譜中で隣り合った音の組を変更後の楽譜の楽譜に合わせて次々と滑らかに連結させていく操作となっている。
[音高軌跡のモデル化]
 オンセット・オフセット間の音高軌跡 μ(r)をモデル化するため、音高の周期的変動が時不変であることを仮定し、正弦波重畳モデルに基づく音高軌跡モデルを構築する。すなわち、音長操作後の音高軌跡は次式のように表現される。
Figure JPOXMLDOC01-appb-M000024
 ここで、Rはフレーム数である。未知パラメータは、音高軌跡を構成する各正弦波の振幅 Ak(μ)と、周波数ωk(μ),位相φk(μ)である。これらは既存の正弦波重畳モデルのパラメータ推定手法によって導出することが可能である。
[音色操作]
 補間された各音色特徴量は次式によって得られる。
Figure JPOXMLDOC01-appb-M000025
 ここでFeatureには、vn,M(I)(f,r),En(r)といった音色特徴量が当てはまる。また、k,Pは、それぞれ各seed(単音)へのインデックスと、補間された特徴量へのインデックスである。倍音ピーク間の相対強度vnではアラインメントは不要である。非調波成分の分布M(I)(f,r)ではオンセットのみでアラインメントがとられる。一方、時間方向の振幅エンベロープEn(r)ではオンセットとオフセットが揃うように音長操作された後アラインメントがとられる。
[楽器音の合成]
 調波モデルから調波信号sH(t)を、非調波モデルsI (t)から非調波信号を合成し、以下のように重ね合わせることで最終的な楽器音s(t)を合成する。
Figure JPOXMLDOC01-appb-M000026
 ここで、tはサンプリングされた信号のサンプル番地を表す。
[調波信号の合成]
 調波信号sH (t)を合成するには、次式によって表現される正弦波重畳モデルを用いる。
Figure JPOXMLDOC01-appb-M000027
 ここで、An(t),φn(t)とはそれぞれn番目の正弦波の瞬時振幅と瞬時位相である。このモデルでは、各正弦波の振幅と周波数が定常性を持っていることが仮定されている。瞬時位相は、フレーム単位で分析されている音高軌跡をスプライン補間によってサンプル単位を補間した操作後の音高軌跡μ(t)を積分することによって得られる。
Figure JPOXMLDOC01-appb-M000028
 ここで、φn(0)は任意の初期位相である。正弦波重畳モデルではトラッキングしたピークを瞬時振幅として用いる。調波構造の概形をモデル化した調波モデルにおいては、周波数エンベロープを構成する各ガウス関数の平均にパワーエンベロープ・パラメータと調波エネルギーを積算したものをトラッキングしたピークとみなすことができる。特徴量抽出のモデルと楽器音合成のモデルが異なるために合成音が持つ倍音の相対強度は分析対象の楽器音のものとは必ずしも一致しないが、実験的にはこの操作を経ても特徴量が大きく変化することはなかったため、モデルの違いの音色への影響は小さいと考える。よって、瞬時振幅は次式から求めることができる。
Figure JPOXMLDOC01-appb-M000029
 ここで、時間方向エンベロープEn(r)にはスプライン補間を用いてサンプル単位にしたものが用いられる。
[非調波信号の合成]
 非調波信号sI (t)を合成するには、オーバーラップ加算法を用いる。このとき、非調波エネルギーω(I)を乗算した非調波モデルω(I)M(I)(f,r)をスペクトログラムとみなして信号に変換する。位相はseedのものをそのまま利用する。
 次に、オンセット・オフセット情報に基づく制約を付加したコスト関数の使用について説明する。
 以下に示すコスト関数を最小化することによって、調波非調波統合モデルを分離の対象音が存在する混合音へ適応する。
Figure JPOXMLDOC01-appb-M000030
 上記コスト関数は、上記[数6]に示したコスト関数とは、以下の2点で相違する。
 1.コスト関数に倍音ピークの相対強度vnと制約パラメータv ̄nとの独立性を示す距離が付加されている。
 2.時間方向エンベロープの制約パラメータE ̄(r)が平均の時間方向エンベロープとは異なったものとなっている。
 制約パラメータv ̄nはオン-オフセット区間のスペクトログラムに対してのみ上記コスト関数を最小化することによって得られるパラメータである。v ̄nは次式より得られる。
Figure JPOXMLDOC01-appb-M000031
 さらに、倍音ピークの相対強度に関する制約コストの付加より、倍音ピークの相対強度の更新式は次式のように改訂される。
Figure JPOXMLDOC01-appb-M000032
 また、時間方向のエンベロープに関する制約パラメータE ̄(r)は次の式から求められる。
Figure JPOXMLDOC01-appb-M000033
 これらの式を用いると、さらに精度の高い音色の変更(操作)が可能になる。
Figure JPOXMLDOC01-appb-M000034
  なお音高軌跡の更新式は、下記のようになる。
Figure JPOXMLDOC01-appb-M000035
  また非調和度の更新式は、下記のようになる。
Figure JPOXMLDOC01-appb-M000036
  さらに時間方向のエンベロープの更新式は下記のようになる。
Figure JPOXMLDOC01-appb-M000037
 上記実施の形態では、音高、音長、音色、楽譜の操作を行って第1の種類の楽器の単音を第2の種類の楽器の単音に置換して、しかも第1の種類の楽器で未知の楽譜を演奏した場合の音楽音響信号を生成することができる。しかしながら、本発明は第1の種類の楽器を用いて未知の楽譜を演奏した場合の音楽音響信号を生成する場合にも当然にして適用することができる。
 本発明によれば、調波モデルを構成するパラメータのうち音色に係わるパラメータの置換(変更)により、音色の変更(操作)をすることができるので、簡単に各種の音色変更を実現することができる。
 1 音響信号分離部
 2 信号抽出保存部
 3 分離音響信号分析保存部
 4 置換パラメータ作成保存部
 5 楽器分類判定部
 6 置換用パラメータ保存部
 7 合成分離音響信号生成部
 8 信号加算部
 9A 音高操作部
 9B 音長操作部 

Claims (22)

  1.  第1の種類の楽器から発生した楽器音の音響信号を含む音楽音響信号から抽出した、前記第1の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとに保存し且つ残差音響信号を保存する信号抽出保存部と、
     前記単音ごとの分離音響信号を、少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータとn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析して保存する分離音響信号分析保存部と、
     前記第1の種類の楽器とは異なる第2の種類の楽器から発生した楽器音の音響信号から作成した、前記分離音響信号に含まれる全ての単音に対応する前記第2の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第2の種類の楽器から発生した前記複数の単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータを保存する置換用パラメータ保存部と、
     前記分離音響信号分析保存部に保存された、前記第1の種類の楽器の単音ごとの前記n次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記置換用パラメータ保存部に保存された、前記第1の種類の楽器の単音に対応する前記第2の種類の楽器の前記単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより作成した置換倍音ピーク・パラメータを保存する置換パラメータ作成保存部と、
     前記分離音響信号分析保存部に保存された前記倍音ピーク・パラメータを除く他のパラメータと前記置換用パラメータ保存部に保存された前記置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成する合成分離音響信号生成部と、
     前記合成分離音響信号と前記残差音響信号とを加算して、第2の種類の楽器から発生した楽器音を含む音楽音響信号を出力する信号加算部とからなる音楽音響信号生成システム。
  2.  第1の種類の楽器から発生した楽器音を含む音楽音響信号から抽出した、前記第1の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとに保存し且つ残差音響信号を保存する信号抽出保存部と、
     単音ごとの前記分離音響信号を、少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータとn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析して保存する分離音響信号分析保存部と、
     前記第1の種類の楽器とは異なる第2の種類の楽器から発生した楽器音の音響信号から作成した、前記分離音響信号に含まれる全ての単音に対応する前記第2の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第2の種類の楽器の前記複数の単音ごとのn次倍音成分の相対強度を示す倍音ピーク・パラメータ及びn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを保存する置換用パラメータ保存部と、
     前記分離音響信号分析保存部に保存された、前記第1の種類の楽器の単音ごとの前記n次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記置換用パラメータ保存部に保存された、前記第1の種類の楽器の単音に対応する前記第2の種類の楽器の前記単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより作成した置換倍音ピーク・パラメータを保存し、且つ前記分離音響信号分析保存部に保存された、前記第1の種類の楽器の単音ごとの前記n次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを、前記置換用パラメータ保存部に保存された、前記第1の種類の楽器の単音に対応する前記第2の種類の楽器の前記単音のn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータと置き換えることにより作成した置換パワーエンベロープ・パラメータを保存する置換パラメータ作成保存部と、
     前記分離音響信号分析保存部に保存された前記倍音ピーク・パラメータ及び前記パワーエンベロープ・パラメータを除く他のパラメータと前記置換パラメータ作成保存部に保存された前記置換倍音ピーク・パラメータ及び前記置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成する合成分離音響信号生成部と、
     前記合成分離音響信号と前記残差音響信号とを加算して、第2の種類の楽器から発生した楽器音を含む音楽音響信号を出力する信号加算部とからなる音楽音響信号生成システム。
  3.  第1の種類の楽器から発生した楽器音を含む音楽音響信号から抽出した、前記第1の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとに保存し且つ残差音響信号を保存する信号抽出保存部と、
     前記単音ごとの分離音響信号を、少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータとn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析して保存する分離音響信号分析保存部と、
     前記第1の種類の楽器とは異なる第2の種類の楽器から発生した楽器音の音響信号から作成した、前記音楽音響信号に含まれる全ての単音に対応する前記第2の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第2の種類の楽器から発生した前記複数の単音ごとのn次倍音成分の相対強度を示す倍音ピーク・パラメータ及び次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを保存する置換用パラメータ保存部と、
     前記第1の種類の楽器と前記第2の種類の楽器とが、同じ楽器分類に属するか否かを判定する楽器分類判定部と、
     前記分離音響信号分析保存部に保存された、前記第1の種類の楽器の単音ごとの前記n次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記置換用パラメータ保存部に保存された、前記第1の種類の楽器の単音に対応する前記第2の種類の楽器の前記単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより作成した置換倍音ピーク・パラメータを保存し、且つ前記分離音響信号分析保存部に保存された、前記第1の種類の楽器の単音ごとの前記n次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを、前記置換用パラメータ保存部に保存された、前記第1の種類の楽器の単音に対応する前記第2の種類の楽器の前記単音のn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータと置き換えることにより作成した置換パワーエンベロープ・パラメータを保存する置換パラメータ作成保存部と、
     前記楽器分類判定部が、前記第1の種類の楽器と前記第2の種類の楽器とが、同じ楽器分類に属すると判定したときには、前記分離音響信号分析保存部に保存された前記倍音ピーク・パラメータを除く他のパラメータと前記置換パラメータ作成保存部に保存された前記置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成し、前記楽器分類判定部が、前記第1の種類の楽器と前記第2の種類の楽器とが、異なる楽器分類に属すると判定したときには、前記分離音響信号分析保存部に保存された前記倍音ピーク・パラメータ及び前記パワーエンベロープ・パラメータを除く他のパラメータと前記置換パラメータ作成保存部に保存された前記置換倍音ピーク・パラメータ及び前記置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成する合成分離音響信号生成部と、
     前記合成分離音響信号と前記残差音響信号とを加算して、第2の種類の楽器から発生した楽器音を含む音楽音響信号を出力する信号加算部とからなる音楽音響信号生成システム。
  4.  前記分離音響信号分析保存部は、第1の種類の楽器の単音ごとの非調波成分分布パラメータを保存する機能を更に備えており、
     前記置換用パラメータ保存部は、前記第2の種類の楽器から発生した楽器音の音響信号の前記複数種類の単音ごとの非調波成分分布パラメータを保存する機能を更に備えており、
     前記置換パラメータ作成保存部は、前記分離音響信号分析保存部に保存された、前記第1の種類の楽器の単音ごとの前記非調波成分分布パラメータを、前記置換用パラメータ保存部に保存された、前記第1の種類の楽器の単音に対応する前記第2の種類の楽器の前記単音の前記非調波成分分布パラメータと置き換えることにより作成した置換非調波成分分布パラメータを更に保存し、
     前記合成分離音響信号生成部は、前記分離音響信号分析保存部に保存された前記倍音ピーク・パラメータ、前記パワーエンベロープ・パラメータ及び前記非調波成分分布パラメータを除く他のパラメータと前記置換パラメータ作成保存部に保存された前記置換倍音ピーク・パラメータ、前記置換パワーエンベロープ・パラメータ及び前記非調波成分分布パラメータとを用いて、単音ごとの合成分離音響信号を生成する請求項2または3に記載の音楽音響信号生成システム。
  5.  前記置換用パラメータ保存部は、前記第2の種類の楽器から発生した楽器音の音響信号から得た複数種類の単音の分離音響信号を前記調波モデルにより表現する場合に必要となる、前記複数種類の単音ごとの少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータを分析して保存し、併せて前記複数種類の単音ごとのn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを保存するパラメータ分析保存部と、
     前記パラメータ分析保存部に保存した前記複数種類の単音についての前記倍音ピーク・パラメータと前記パワーエンベロープ・パラメータとに基づいて、前記音楽音響信号に含まれる全ての単音に対応する前記第2の種類の楽器から発生する複数の単音のうち前記複数種類の単音以外の単音についての音響信号を前記調波モデルにより表現する場合に必要となる前記第2の種類の楽器の前記複数の単音ごとの前記倍音ピーク・パラメータを補間法を用いて生成して保存するパラメータ補間生成保存部とからなり、
     前記パラメータ分析保存部は、分析により得られた前記n次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを、代表パワーエンベロープ・パラメータとして保存する請求項2または3に記載の音楽音響信号生成システム。
  6.  前記置換用パラメータ保存部は、前記複数種類の単音ごとの少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータ及びn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを分析して保存するパラメータ分析保存部と、
     前記パラメータ分析保存部に保存した前記複数種類の単音についての前記倍音ピーク・パラメータと前記パワーエンベロープ・パラメータとに基づいて、前記音楽音響信号に含まれる全ての単音に対応する前記第2の種類の楽器から発生する複数の単音のうち前記複数種類の単音以外の単音についての音響信号を前記調波モデルにより表現する場合に必要となる前記第2の種類の楽器の前記複数の単音ごとの前記倍音ピーク・パラメータ及び前記パワーエンベロープ・パラメータを補間法を用いて生成して保存するパラメータ補間生成保存部とからなる請求項2または3に記載の音楽音響信号生成システム。
  7.  前記置換用パラメータ保存部は、前記パラメータ分析保存部及び前記パラメータ補間生成保存部に保存されたデータに基づいて、前記第2の種類の前記複数の単音ごとの前記倍音ピーク・パラメータを音高依存特徴関数として保存する関数生成保存部をさらに備え、
     前記置換パラメータ作成保存部は、前記第2の種類の楽器の前記単音の前記倍音ピーク・パラメータに含まれる複数の倍音ピークを前記音高依存特徴関数から取得するように構成されている請求項5に記載の音楽音響信号生成システム。
  8.  前記音楽音響信号を含む混合音響信号から前記音楽音響信号を分離する音響信号分離部をさらに備えている請求項1,2または3に記載の音楽音響信号生成システム。
  9.  前記音楽音響信号を含む混合音響信号から前記音楽音響信号を分離する音響信号分離部をさらに備えており、前記音楽音響信号以外の音響信号が前記残差音響信号中に含まれる請求項1,2または3に記載の音楽音響信号生成システム。
  10.  前記音楽音響信号を含む混合音響信号から得た別の音楽音響信号から前記第2の種類の楽器の楽器音を取得する請求項9に記載の音楽音響信号生成変更システム。
  11.  前記調波モデルが、倍音構造の非調和性を組み込んだ調波モデルである請求項1,2または3に記載の音楽音響信号生成システム。
  12.  前記分離音響信号分析保存部が分析する複数のパラメータには、音高に関する音高パラメータと音長に関する音長パラメータとが含まれており、
     前記音高パラメータを操作する音高操作部と、前記音長パラメータを操作する音長パラメータ操作部をさらに備えている請求項1,2または3に記載の音楽音響信号生成システム。
  13.  第1の種類の楽器から発生した楽器音を含む音楽音響信号から、前記第1の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとにそれぞれ抽出し且つ残差音響信号を抽出するステップと、
     単音ごとの前記分離音響信号を、少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータとn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析するステップと、
     前記第1の種類の楽器とは異なる第2の種類の楽器から発生した楽器音の音響信号から、前記音楽音響信号に含まれる全ての単音に対応する前記第2の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第2の種類の楽器の前記複数の単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータを作成するステップと、
     前記第1の種類の楽器の単音ごとの前記n次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記第1の種類の楽器の単音に対応する前記第2の種類の楽器の前記単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成するステップと、
     前記倍音ピーク・パラメータ除く他のパラメータと前記置換用パラメータ保存部に保存された前記置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成するステップと、
     前記合成分離音響信号と前記残差音響信号とを加算して、第2の種類の楽器から発生した楽器音を含む音楽音響信号を出力するステップとをコンピュータが実施する音響信号生成方法。
  14.  第1の種類の楽器から発生した楽器音を含む音楽音響信号から、前記第1の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとにそれぞれ抽出し且つ残差音響信号を抽出するステップと、
     単音ごとの前記分離音響信号を、少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータとn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析するステップと、
     前記第1の種類の楽器とは異なる第2の種類の楽器から発生した楽器音の音響信号から、前記音楽音響信号に含まれる全ての単音に対応する前記第2の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第2の種類の楽器の前記複数の単音ごとのn次倍音成分の相対強度を示す倍音ピーク・パラメータ及びn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを作成するステップと、
     前記第1の種類の楽器の単音ごとの前記n次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記第1の種類の楽器の単音に対応する前記第2の種類の楽器の前記単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成し、且つ前記第1の種類の楽器の単音ごとの前記n次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの特徴領域を、前記第1の種類の楽器の単音に対応する前記第2の種類の楽器の前記単音のn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの特徴領域と置き換えることにより置換パワーエンベロープ・パラメータを作成するステップと、
     前記倍音ピーク・パラメータ及び前記パワーエンベロープ・パラメータを除く他のパラメータと前記置換倍音ピーク・パラメータ及び前記置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成するステップと、
     前記合成分離音響信号と前記残差音響信号とを加算して、第2の種類の楽器から発生した楽器音を含む音楽音響信号を出力するステップとをコンピュータが実施することを特徴とする音楽音響信号生成方法。
  15.  第1の種類の楽器から発生した楽器音を含む音楽音響信号から、前記第1の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとにそれぞれ抽出し且つ残差音響信号を抽出するステップと、
     単音ごとの前記分離音響信号を、少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータとn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析するステップと、
     前記第1の種類の楽器とは異なる第2の種類の楽器から発生した楽器音の音響信号から、前記音楽音響信号に含まれる全ての単音に対応する前記第2の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第2の種類の楽器の前記複数の単音ごとのn次倍音成分の相対強度を示す倍音ピーク・パラメータ及びn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを作成するステップと、
     前記第1の種類の楽器と前記第2の種類の楽器とが、同じ楽器分類に属するか否かを判定するステップと、
     前記第1の種類の楽器の単音ごとの前記n次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記置換用パラメータ保存部に保存された、前記第1の種類の楽器の単音に対応する前記第2の種類の楽器の前記単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成し、且つ前記第1の種類の楽器の単音ごとの前記n次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの特徴領域を、前記第1の種類の楽器の単音に対応する前記第2の種類の楽器の前記単音のn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの特徴領域と置き換えることにより置換パワーエンベロープ・パラメータを作成するステップと、
     前記楽器分類判定部が、前記第1の種類の楽器と前記第2の種類の楽器とが、同じ楽器分類に属すると判定したときには、前記倍音ピーク・パラメータ除く他のパラメータと前記置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成し、前記楽器分類判定部が、前記第1の種類の楽器と前記第2の種類の楽器とが、異なる楽器分類に属すると判定したときには、前記倍音ピーク・パラメータ及び前記パワーエンベロープ・パラメータを除く他のパラメータと前記置換倍音ピーク・パラメータ及び前記置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成するステップと、
     前記合成分離音響信号と前記残差音響信号とを加算して、第2の種類の楽器から発生した楽器音を含む音楽音響信号を出力するステップとをコンピュータが実施する音楽音響信号生成方法。
  16.  第1の種類の楽器から発生した楽器音を含む音楽音響信号から、前記第1の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとにそれぞれ抽出し且つ残差音響信号を抽出するステップと、
     単音ごとの前記分離音響信号を、少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータとn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析するステップと、
     前記第1の種類の楽器とは異なる第2の種類の楽器から発生した楽器音の音響信号から、前記音楽音響信号に含まれる全ての単音に対応する前記第2の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第2の種類の楽器の前記複数の単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータを作成するステップと、
     前記第1の種類の楽器の単音ごとの前記n次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記第1の種類の楽器の単音に対応する前記第2の種類の楽器の前記単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成するステップと、
     前記倍音ピーク・パラメータ除く他のパラメータと前記置換用パラメータ保存部に保存された前記置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成するステップと、
     前記合成分離音響信号と前記残差音響信号とを加算して、第2の種類の楽器から発生した楽器音を含む音楽音響信号を出力するステップとをコンピュータを用いて実施するために前記コンピュータで用いられる音楽音響信号生成用コンピュータプログラム。
  17.  第1の種類の楽器から発生した楽器音を含む音楽音響信号から、前記第1の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとにそれぞれ抽出し且つ残差音響信号を抽出するステップと、
     単音ごとの前記分離音響信号を、少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータとn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析するステップと、
     前記第1の種類の楽器とは異なる第2の種類の楽器から発生した楽器音の音響信号から、前記音楽音響信号に含まれる全ての単音に対応する前記第2の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第2の種類の楽器の前記複数の単音ごとのn次倍音成分の相対強度を示す倍音ピーク・パラメータ及びn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータ前記第1の種類の楽器から発生した楽器音の音響信号のみを含む作成するステップと、
     前記第1の種類の楽器の単音ごとの前記n次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記第1の種類の楽器の単音に対応する前記第2の種類の楽器の前記単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成し、且つ前記第1の種類の楽器の単音ごとの前記n次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの特徴領域を、前記第1の種類の楽器の単音に対応する前記第2の種類の楽器の前記単音のn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの特徴領域と置き換えることにより置換パワーエンベロープ・パラメータを作成するステップと、
     前記倍音ピーク・パラメータ及び前記パワーエンベロープ・パラメータを除く他のパラメータと前記置換倍音ピーク・パラメータ及び前記置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成するステップと、
     前記合成分離音響信号と前記残差音響信号とを加算して、第2の種類の楽器から発生した楽器音を含む音楽音響信号を出力するステップとをコンピュータを用いて実施するために前記コンピュータで用いられる音楽音響信号生成用コンピュータプログラム。
  18.  第1の種類の楽器から発生した楽器音を含む音楽音響信号から、前記第1の種類の楽器から発生した楽器音の音響信号のみを含む分離音響信号を単音ごとにそれぞれ抽出し且つ残差音響信号を抽出するステップと、
     単音ごとの前記分離音響信号を、少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータとn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析するステップと、
     前記第1の種類の楽器とは異なる第2の種類の楽器から発生した楽器音の音響信号から、前記音楽音響信号に含まれる全ての単音に対応する前記第2の種類の楽器から発生する複数の単音についての音響信号を前記調波モデルにより表現する場合に必要となる、前記第2の種類の楽器の前記複数の単音ごとのn次倍音成分の相対強度を示す倍音ピーク・パラメータ及びn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを作成するステップと、
     前記第1の種類の楽器と前記第2の種類の楽器とが、同じ楽器分類に属するか否かを判定するステップと、
     前記第1の種類の楽器の単音ごとの前記n次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークを、前記置換用パラメータ保存部に保存された、前記第1の種類の楽器の単音に対応する前記第2の種類の楽器の前記単音のn次倍音成分の相対強度を示す倍音ピーク・パラメータに含まれる複数の倍音ピークと置き換えることにより置換倍音ピーク・パラメータを作成し、且つ前記第1の種類の楽器の単音ごとの前記n次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの特徴領域を、前記第1の種類の楽器の単音に対応する前記第2の種類の楽器の前記単音のn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータの特徴領域と置き換えることにより置換パワーエンベロープ・パラメータを作成するステップと、
     前記楽器分類判定部が、前記第1の種類の楽器と前記第2の種類の楽器とが、同じ楽器分類に属すると判定したときには、前記倍音ピーク・パラメータ除く他のパラメータと前記置換倍音ピーク・パラメータとを用いて、単音ごとの合成分離音響信号を生成し、前記楽器分類判定部が、前記第1の種類の楽器と前記第2の種類の楽器とが、異なる楽器分類に属すると判定したときには、前記倍音ピーク・パラメータ及び前記パワーエンベロープ・パラメータを除く他のパラメータと前記置換倍音ピーク・パラメータ及び前記置換パワーエンベロープ・パラメータとを用いて、単音ごとの合成分離音響信号を生成するステップと、
     前記合成分離音響信号と前記残差音響信号とを加算して、第2の種類の楽器から発生した楽器音を含む音楽音響信号を出力するステップとをコンピュータを用いて実施するために前記コンピュータで用いられる音楽音響信号生成用コンピュータプログラム。
  19.  請求項16乃至18のいずれか1項に記載の音楽音響信号生成用コンピュータプログラムが記録されたコンピュータ読み取り可能な記録媒体。
  20.  前記第1の種類の楽器または前記第2の種類の楽器を用いて演奏したときに前記第1の種類の楽器または前記第2の種類の楽器から発生する楽器音の音響信号を、前記分離音響信号分析保存部に保存された前記単音ごとの前記複数のパラメータを利用して生成するための操作を行う楽譜操作部を更に備えていることを特徴とする請求項1乃至12のいずれか1項に記載の音楽音響信号生成システム。
  21.  前記楽譜操作部は、前記他の楽譜の楽譜構造中の各単音にふさわしい、音高に関する音高パラメータ、音長に関する音長パラメータ及び調波モデルを構成するパラメータのうち音色に関わるパラメータを生成するように構成されている請求項20に記載の音楽音響信号生成システム。
  22.  演奏者がある楽譜を楽器で演奏して前記楽器から発生した楽器音の音響信号を含む音楽音響信号から抽出した、前記楽器音の音響信号のみを含む分離音響信号を単音ごとに保存する信号抽出保存部と、
     前記単音ごとの分離音響信号を、少なくともn次倍音成分の相対強度を示す倍音ピーク・パラメータとn次倍音成分の時間方向のパワーエンベロープを示すパワーエンベロープ・パラメータを含む複数のパラメータによって定式化された調波モデルにより表現するために、前記単音ごとに前記複数のパラメータを分析して保存する分離音響信号分析保存部と、
     前記楽譜とは異なる他の楽譜を前記演奏者が前記楽器を用いて演奏したときに前記楽器から発生する楽器音の音響信号を、前記分離音響信号分析保存部に保存された前記単音ごとの前記複数のパラメータを用いて生成するための操作を行う楽譜操作部とを含んでいることを特徴とする音楽音響信号生成システム。
PCT/JP2010/052293 2009-02-17 2010-02-16 音楽音響信号生成システム WO2010095622A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US13/201,757 US8831762B2 (en) 2009-02-17 2010-02-16 Music audio signal generating system
JP2011500614A JP5283289B2 (ja) 2009-02-17 2010-02-16 音楽音響信号生成システム
EP10743748.5A EP2400488B1 (en) 2009-02-17 2010-02-16 Music audio signal generating system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-034664 2009-02-17
JP2009034664 2009-02-17

Publications (1)

Publication Number Publication Date
WO2010095622A1 true WO2010095622A1 (ja) 2010-08-26

Family

ID=42633902

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/052293 WO2010095622A1 (ja) 2009-02-17 2010-02-16 音楽音響信号生成システム

Country Status (5)

Country Link
US (1) US8831762B2 (ja)
EP (1) EP2400488B1 (ja)
JP (1) JP5283289B2 (ja)
KR (1) KR101602194B1 (ja)
WO (1) WO2010095622A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012078412A (ja) * 2010-09-30 2012-04-19 Brother Ind Ltd プログラム、及び編集装置
JP2016050994A (ja) * 2014-08-29 2016-04-11 ヤマハ株式会社 音響処理装置
JP2016050995A (ja) * 2014-08-29 2016-04-11 ヤマハ株式会社 音響処理装置
CN114464151A (zh) * 2022-04-12 2022-05-10 荣耀终端有限公司 修音方法及装置
US11488567B2 (en) 2018-03-01 2022-11-01 Yamaha Corporation Information processing method and apparatus for processing performance of musical piece
US11568244B2 (en) 2017-07-25 2023-01-31 Yamaha Corporation Information processing method and apparatus
US11600252B2 (en) 2017-07-25 2023-03-07 Yamaha Corporation Performance analysis method

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
JP2013205830A (ja) * 2012-03-29 2013-10-07 Sony Corp トーン成分検出方法、トーン成分検出装置およびプログラム
CN104683933A (zh) 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
CN104200818A (zh) * 2014-08-06 2014-12-10 重庆邮电大学 一种音高检测方法
US9552741B2 (en) * 2014-08-09 2017-01-24 Quantz Company, Llc Systems and methods for quantifying a sound into dynamic pitch-based graphs
GB2548321B (en) * 2016-01-26 2019-10-09 Melville Wernick William Percussion instrument and signal processor
US11127387B2 (en) * 2016-09-21 2021-09-21 Roland Corporation Sound source for electronic percussion instrument and sound production control method thereof
WO2019229738A1 (en) * 2018-05-29 2019-12-05 Sound Object Technologies S.A. System for decomposition of digital sound samples into sound objects
CN108986841B (zh) * 2018-08-08 2023-07-11 百度在线网络技术(北京)有限公司 音频信息处理方法、装置及存储介质
EP3716262A4 (en) * 2018-10-19 2021-11-10 Sony Group Corporation DEVICE, PROCESS AND PROGRAM FOR PROCESSING INFORMATION
US11183201B2 (en) 2019-06-10 2021-11-23 John Alexander Angland System and method for transferring a voice from one body of recordings to other recordings
CN110910895B (zh) * 2019-08-29 2021-04-30 腾讯科技(深圳)有限公司 一种声音处理的方法、装置、设备和介质
CN112466275B (zh) * 2020-11-30 2023-09-22 北京百度网讯科技有限公司 语音转换及相应的模型训练方法、装置、设备及存储介质
WO2022153875A1 (ja) * 2021-01-13 2022-07-21 ヤマハ株式会社 情報処理システム、電子楽器、情報処理方法およびプログラム
CN113362837B (zh) * 2021-07-28 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 一种音频信号处理方法、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05188931A (ja) * 1992-01-14 1993-07-30 Sony Corp 音楽処理システム
JP2002529773A (ja) * 1998-10-29 2002-09-10 ポール リード スミス ギター 複合波形の倍音内容を変える方法
JP2006005807A (ja) * 2004-06-18 2006-01-05 Kyoto Univ 音響信号処理方法、音響信号処理装置、音響信号処理システム及びコンピュータプログラム
JP2007017818A (ja) * 2005-07-11 2007-01-25 Casio Comput Co Ltd 楽音制御装置および楽音制御処理のプログラム
JP2008057310A (ja) 2006-08-03 2008-03-13 Mikumo Juken:Kk 自在手摺
WO2008133097A1 (ja) 2007-04-13 2008-11-06 Kyoto University 音源分離システム、音源分離方法及び音源分離用コンピュータプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5536902A (en) * 1993-04-14 1996-07-16 Yamaha Corporation Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05188931A (ja) * 1992-01-14 1993-07-30 Sony Corp 音楽処理システム
JP2002529773A (ja) * 1998-10-29 2002-09-10 ポール リード スミス ギター 複合波形の倍音内容を変える方法
JP2006005807A (ja) * 2004-06-18 2006-01-05 Kyoto Univ 音響信号処理方法、音響信号処理装置、音響信号処理システム及びコンピュータプログラム
JP2007017818A (ja) * 2005-07-11 2007-01-25 Casio Comput Co Ltd 楽音制御装置および楽音制御処理のプログラム
JP2008057310A (ja) 2006-08-03 2008-03-13 Mikumo Juken:Kk 自在手摺
WO2008133097A1 (ja) 2007-04-13 2008-11-06 Kyoto University 音源分離システム、音源分離方法及び音源分離用コンピュータプログラム

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
ABE, T., ITOYAMA, K., KOMATANI, K., OGATA, T., OKUNO, H. G., ANALYSIS AND MANIPULATION APPROACH TO PITCH AND DURATION OF MUSICAL INSTRUMENT SOUNDS WITHOUT DISTORTING TIMBRAL CHARACTERISTICS, INTERNATIONAL CONFERENCE ON DIGITAL AUDIO EFFECTS, vol. 11, 2008, pages 249 - 256
HIDEKI KAWAHARA: "STRAIGHT, Exploitation of the other aspect of VOCODER", ASJ JOURNAL, vol. 63, no. 8, 2007, pages 442 - 449
KATSUTOSHI ITOYAMA, MASATAKA GOTO, KAZUNORI KOMATANI, TETSUYA OGATA, HIROSHI OKUNO: "Simultaneous Realization of Score-Informed Sound Source Separation of Polyphonic Musical Signals and Constrained Parameter Estimation for Integrated Model of Harmonic and Inharmonic Structure", IPSJ JOURNAL, vol. 49, no. 3, 2008, pages 1465 - 1479
See also references of EP2400488A4
T. KITAHARA, M. GOTO, H.G. OKUNO: "Musical instrument identification based on f 0-dependent multivariate normal distribution", IEEE, COL, vol. 44, no. 10, 2003, pages 2448 - 2458
T. KITAHARA, M. GOTO, H.G. OKUNO: "Musical instrument identification based on f0-dependent multivariate normal distribution", IEEE, COL, vol. 44, no. 10, 2003, pages 2448 - 2458
TAKEHIRO ABE, KATSUTOSHI ITOYAMA, KAZUYOSHI YOSHII, KAZUNORI KOMATANI, TETSUYA OGATA, HIROSHI OKUNO: "A Method for Manipulating Pitch and Duration of Musical Instrument Sounds Dealing with Pitch-dependency of Timbre", SIGMUS JOURNAL, vol. 76, 2008, pages 155 - 160
TAKEHIRO ABE, KATSUTOSHI ITOYAMA, KAZUYOSHI YOSHII, KAZUNORI KOMATANI, TETSUYA OGATA, HIROSHI OKUNO: "A Method for Manipulating Pitch of Musical Instrument Sounds Dealing with Pitch-Dependency of Timbre", IPSJ JOURNAL, vol. 50, no. 3, 2009
YOSHII, K., GOTO, M., G., 0. H.: "Drumix: An Audio Player with Realtime Drum-part Rearrangement Functions for Active Music Listening", IPSJ JOURNAL, vol. 48, no. 3, 2007, pages 1229 - 1239

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012078412A (ja) * 2010-09-30 2012-04-19 Brother Ind Ltd プログラム、及び編集装置
JP2016050994A (ja) * 2014-08-29 2016-04-11 ヤマハ株式会社 音響処理装置
JP2016050995A (ja) * 2014-08-29 2016-04-11 ヤマハ株式会社 音響処理装置
US11568244B2 (en) 2017-07-25 2023-01-31 Yamaha Corporation Information processing method and apparatus
US11600252B2 (en) 2017-07-25 2023-03-07 Yamaha Corporation Performance analysis method
US11488567B2 (en) 2018-03-01 2022-11-01 Yamaha Corporation Information processing method and apparatus for processing performance of musical piece
CN114464151A (zh) * 2022-04-12 2022-05-10 荣耀终端有限公司 修音方法及装置
CN114464151B (zh) * 2022-04-12 2022-08-23 北京荣耀终端有限公司 修音方法及装置

Also Published As

Publication number Publication date
EP2400488A1 (en) 2011-12-28
EP2400488B1 (en) 2017-09-27
KR101602194B1 (ko) 2016-03-10
JP5283289B2 (ja) 2013-09-04
EP2400488A4 (en) 2015-12-30
KR20110129883A (ko) 2011-12-02
US20120046771A1 (en) 2012-02-23
JPWO2010095622A1 (ja) 2012-08-23
US8831762B2 (en) 2014-09-09

Similar Documents

Publication Publication Date Title
JP5283289B2 (ja) 音楽音響信号生成システム
JP7243052B2 (ja) オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム
JP5201602B2 (ja) 音源分離システム、音源分離方法及び音源分離用コンピュータプログラム
Ewert et al. Score-informed source separation for musical audio recordings: An overview
KR100455752B1 (ko) 연주악기의 소리정보, 또는 소리정보 및 악보정보를 이용한 디지털음향 분석 방법
JP4207902B2 (ja) 音声合成装置およびプログラム
JP2001159892A (ja) 演奏データ作成装置及び記録媒体
JP2003241757A (ja) 波形生成装置及び方法
Lerch Software-based extraction of objective parameters from music performances
TW201027514A (en) Singing synthesis systems and related synthesis methods
JP6075314B2 (ja) プログラム,情報処理装置,及び評価方法
JP5310677B2 (ja) 音源分離装置、及びプログラム
JP2013210501A (ja) 素片登録装置,音声合成装置,及びプログラム
Yasuraoka et al. Changing timbre and phrase in existing musical performances as you like: manipulations of single part using harmonic and inharmonic models
Winter Interactive music: Compositional techniques for communicating different emotional qualities
JP5879813B2 (ja) 複数音源の識別装置および複数音源に連動する情報処理装置
JP5810947B2 (ja) 発声区間特定装置、音声パラメータ生成装置、及びプログラム
Joysingh et al. Development of large annotated music datasets using HMM based forced Viterbi alignment
Pardo et al. Applying source separation to music
JP5569307B2 (ja) プログラム、及び編集装置
Müller et al. Music signal processing
Mina et al. Musical note onset detection based on a spectral sparsity measure
JPH1173199A (ja) 音響信号の符号化方法およびコンピュータ読み取り可能な記録媒体
JP6424907B2 (ja) 演奏情報検索方法を実現するためのプログラム、当該演奏情報検索方法および演奏情報検索装置
Williams Distorting Jazz Guitar: Distortion as Effect, Creative Tool andExtension of the Instrument

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10743748

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011500614

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20117020862

Country of ref document: KR

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2010743748

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2010743748

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13201757

Country of ref document: US