WO2005114650A1 - Vorrichtung und verfahren zum charakterisieren eines tonsignals - Google Patents

Vorrichtung und verfahren zum charakterisieren eines tonsignals Download PDF

Info

Publication number
WO2005114650A1
WO2005114650A1 PCT/EP2005/004517 EP2005004517W WO2005114650A1 WO 2005114650 A1 WO2005114650 A1 WO 2005114650A1 EP 2005004517 W EP2005004517 W EP 2005004517W WO 2005114650 A1 WO2005114650 A1 WO 2005114650A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
sub
designed
period length
sequences
Prior art date
Application number
PCT/EP2005/004517
Other languages
English (en)
French (fr)
Inventor
Markus Cremer
Christian Uhle
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority to DE502005000658T priority Critical patent/DE502005000658D1/de
Priority to JP2007511960A priority patent/JP4926044B2/ja
Priority to EP05735854A priority patent/EP1671315B1/de
Publication of WO2005114650A1 publication Critical patent/WO2005114650A1/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/071Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition

Definitions

  • the present invention relates to the analysis of audio signals, and in particular to the analysis of audio signals for purposes of classifying and identifying audio signals to characterize the audio signals.
  • the extraction of fingerprints is particularly important when analyzing audio signals, ie signals that include music and / or speech.
  • the aim is also to “enrich” audio data with metadata in order to retrieve metadata for a piece of music, for example, on the basis of a fingerprint.
  • “Fingerprint” thus denotes a comp- generated from a music signal limited information signal, which does not contain the metadata, but is used for referencing the metadata, for example by searching a database, for example in a system for identifying audio material (“AudioID”).
  • Music data usually consists of superimposing partial signals from individual sources. While there is typically a relatively small number of individual sources in pop music, namely the singer, the guitar, the bass guitar, the drums and a keyboard, the number of sources for an orchestral piece can be very large.
  • An orchestral piece and a pop music piece for example, consist of an overlay of the tones emitted by the individual instruments.
  • An orchestral piece or any piece of music thus represents a superposition of partial signals from individual sources, the partial signals being the tones generated by the individual instruments of the orchestra or pop music ensemble, and the individual instruments being individual sources.
  • groups of original sources can also be understood as individual sources, so that at least two individual sources can be assigned to a signal.
  • An analysis of a general information signal is shown below using an orchestral signal as an example.
  • An orchestral signal can be analyzed in a number of ways. For example, there may be a desire to recognize the individual instruments and to extract the individual signals of the instruments from the overall signal and, if necessary, to convert them into a musical notation, the musical notation functioning as “metadata”. There are further possibilities for analysis in extracting a dominant rhythm, whereby rhythm extraction is better on the basis of the percussion instruments than on the basis of the more tone-giving instruments, which are also referred to as harmonic sustained instruments. While percussion instruments are typically timpani, Drums, rattles or other percussion instruments include, the harmoniously held instruments include all other instruments, such as violins, wind instruments, etc.
  • the percussion instruments also include all those acoustic or synthetic sound generators that contribute to the rhythm section due to their sound characteristics (e.g. rhythm guitar).
  • rhythm extraction of a piece of music it would be desirable to extract only percussive parts from the entire piece of music and then perform rhythm recognition on the basis of these percussive parts without the rhythm recognition being “disturbed” by signals from the harmonically sustained instruments.
  • melodic fragments in contrast to the rhythmic structure, mostly do not occur periodically. For this reason, many methods of searching for melodic fragments are limited to finding their occurrence individually. In contrast to this, in the area of rhythmic analysis, the focus is on finding periodic structures.
  • Methods for identifying melodic topics are only suitable to a limited extent for identifying periodicities present in a sound signal, since, as has been explained, musical themes are recurring, but they do not so much describe a basic periodicity in a piece of music, but rather if at all superordinate periodicity information. In any case, methods for identifying melodic themes are very complex, since the various variations of the themes have to be taken into account when searching for melodic themes. It is known from the music world that subjects are usually varied, for example through transposition, reflection, etc. The object of the present invention is to provide an efficient and reliable concept for characterizing an audio signal.
  • the present invention is based on the knowledge that an efficiently calculable characteristic of a sound signal that is meaningful in terms of a large amount of information can be determined as a characteristic on the basis of a sequence of times of use by determining the length of the period, dividing into sub-sequences and summarizing into a combined sequence.
  • a single sequence of times of use of a single instrument ie a single sound source along the time
  • at least two sequences of times of use of two different sound sources that occur in parallel in the piece of music are considered.
  • a common period length is determined using the sequences of operating times of the two sound sources, which is based on at least two sound sources. According to the invention, each sequence of times of use is then divided into respective sub-successes, for a length of a sequence is equal to the common period length.
  • the characteristic extraction then takes place on the basis of a combination of the sub-sequences for the first sound source into a first combined sub-sequence and on the basis of a combination of the sub-sequences for the second sound source in a second combined sub-sequence, the combined sub-sequences as a characteristic for serve the sound signal and can be used for further processing, such as for extracting semantically meaningful information about the entire piece of music, such as genre, tempo, time signature, similarity to other pieces of music etc.
  • the combined sub-sequence for the first sound source and the combined sub-sequence for the second sound source thus form a drum pattern of the sound signal if the two sound sources, which have been taken into account on the basis of the sequence of times of use, are percussive sound sources, such as drums, other percussion instruments. Instruments or any other percussive instruments that are characterized by the fact that it is not their pitch, i.e. their pitch, that decides, but that their characteristic spectrum or the rise and fall of an output tone and not the pitch are of greater musical importance.
  • the procedure according to the invention thus serves for the automatic extraction of preferably drum patterns from a preferably transcribed, that is to say e.g. B.
  • Notes representation of a music signal can be in MIDI format or can be determined automatically from an audio signal using methods of digital signal processing, such as, for example, with independent component analysis (ICA) or certain variations thereof, such as, for example, non-negative independent component analysis, or generally with concepts which are known under the keyword “blind source separation” (BSS).
  • ICA independent component analysis
  • BSS blind source separation
  • the extraction of a drum pattern is first carried out by recognizing the note inserts, that is to say starting times, for each different instrument and for each pitch in the case of tonal instruments.
  • a reading of a note can take place, which reading can consist in reading a MIDI file or in scanning and image processing of a notation or in accepting manually typed notes.
  • a grid is then determined, according to which the note insertion times are quantized, whereupon the note insertion times are then quantized.
  • the length of the drum pattern is then determined as the length of a musical bar, as an integral multiple of the length of a musical bar or as an integral multiple of the length of a musical counting time.
  • a pattern histogram is then used to determine a frequency of occurrence of a specific instrument per metric position.
  • the pattern histogram can be processed as such.
  • the pattern histogram is also a condensed representation of the musical events, ie the notation, and contains information about the degree of variation and preferred beats, a flatness of the histogram indicating a strong variation, while a very "mountainous" histogram indicates a more stationary signal in the sense of a self-similarity.
  • preprocessing In order to subdivide a signal into characteristic regions of the signal that are similar to one another and to extract a drum pattern only for regions in the signal that are similar to one another and another for other characteristic regions in the signal Determine drum pattern.
  • the present invention is advantageous in that a robust and efficient way of calculating a characteristic of a sound signal is obtained, in particular due to the subdivision carried out, which is very robust according to the period length which can also be determined with statistical methods and can be carried out equally for all signals is. Furthermore, the concept according to the invention is scalable in such a way that the meaningfulness and accuracy of the concept can easily be increased at the price of a higher computing time by the fact that more and more sequences of occurrences of more and more different sound sources, ie instruments, are included in the determination the common period length and be included in the determination of the drum pattern, so that the calculation of the combined sub-sequences becomes more and more complex.
  • an alternative scalability also consists in calculating a specific number of combined sub-sequences for a specific number of sound sources, in order then to rework the received sub-sequences depending on the further processing interest and thus to reduce their significance as required. Histogram entries below a certain threshold can e.g. B. be ignored. However, histogram entries can also be quantized per se or can only be binarized in general, depending on the threshold value decision, in such a way that a histogram only contains the statement that there is a histogram entry in the combined sub-sequence or not.
  • the concept according to the invention is a robust method due to the fact that many sub-sequences are "merged" into a combined sub-sequence, but can nevertheless be carried out efficiently since no numerically intensive processing steps are required.
  • percussive instruments without pitch which are also called drums in the following, play an essential role, especially in popular music.
  • Much information about rhythm and musical genre is contained in the "notes" played by drums, which could be used, for example, in an intelligent and intuitive search in music archives in order to be able to carry out classifications or at least preclassifications.
  • the notes played by drums often form recurring patterns, which are also called drum patterns.
  • a drum pattern can serve as a compressed representation of the played notes by extracting a note image the length of a drum pattern from a longer note image. This allows semantically meaningful information about the entire piece of music to be extracted from drum patterns, such as genre, tempo, time signature, similarity to other pieces of music, etc.
  • Figure 1 is a block diagram of an inventive device for characterizing a sound signal.
  • FIG. 3 shows a schematic diagram to illustrate a quantization grid and a quantization of the notes on the basis of the grid
  • 5 shows an exemplary pattern histogram as an example of combined sub-sequences for the individual sound sources (instruments); and 6 shows a post-processed pattern histogram as an example of an alternative characteristic of the audio signal.
  • FIG. 1 shows a device according to the invention for characterizing a sound signal.
  • FIG. 1 comprises a device 10 for providing a sequence of operating times for each sound source from at least two sound sources over time.
  • the times of use are preferably already quantized times of use which are present in a quantization grid.
  • FIG. 2 shows a sequence of times of use of notes from different sound sources, that is to say instruments 1, 2,..., N, which are designated by “x” in FIG. 2
  • FIG. 3 shows one in a grid that is in 3 shows a quantized sequence of quantized times of use for each sound source, that is to say for each instrument 1, 2,..., N.
  • FIG. 3 simultaneously represents a matrix or list of times of deployment, with a column in FIG. 3 corresponding to a distance between two grid points or grid lines and thus representing a time interval in which, depending on the sequence of times of use, a note is present or not.
  • a column in FIG. 3 corresponding to a distance between two grid points or grid lines and thus representing a time interval in which, depending on the sequence of times of use, a note is present or not.
  • the instrument n has no point in time in the time interval shown by reference numeral 30.
  • the multiple sequences of preferably quantized times of use are fed from the device 10 to a device 12 for determining a common period length.
  • the device 12 for determining a common period length is designed so that it does not itself determine its own period length for each sequence of times of use, but rather to find a common period length that most closely underlies the at least two sound sources. This is based on the fact that even if e.g. B. play several percussive instruments in one piece, all play more or less the same rhythm, so that there must be a common period length, to which practically all instruments that contribute to the sound signal, ie all sound sources, will adhere.
  • the common tone period length is then fed to a device 14 for dividing each sequence of times of use in order to obtain a set of sub-sequences for each sound source on the output side.
  • FIG. 4 it can be seen that a common period length 40 has been found, namely for all instruments 1, 2,..., N, the device 14 being designed for dividing into successions by all To divide sequences of times of use into sub-sequences of the length of the common period length 40.
  • the sequence of times of use for the instrument would then, as shown in FIG. 4, be divided into a first sub-sequence 41, a subsequent second sub-sequence 42 and a subsequent sub-sequence 43, in order for the example shown in FIG to get the sequence for instrument 1 three sub-sequences.
  • the other consequences for instruments 2, ..., n e- if necessary, divided into corresponding adjacent sub-sequences as has been shown on the basis of the sequence of times for instrument 1.
  • the sets of sub-sequences for the sound sources are then fed to a combining device 16 for each sound source in order to obtain a combined sub-sequence for the first sound source and a combined sub-sequence for the second sound source as a characteristic of the sound signal.
  • the summary preferably takes the form of a pattern histogram.
  • the sub-sequences for the first instrument are aligned one above the other in such a way that the first interval of each sub-sequence is to a certain extent “above” the first interval of each other sub-sequence. Then, as shown with reference to FIG.
  • the entries in The combined sub-sequence for the first sound source would therefore be a first line 50 of the pattern histogram in the example shown in Fig. 5.
  • the instrument 2 For the second sound source, that is to say, for each slot of a combined sequence or in each histogram bin of the pattern histogram
  • the instrument 2 would be the combined sub-sequence the second line 52 of the pattern histogram etc.
  • the pattern histogram in FIG. 5 thus represents the characteristic for the sound signal, which can then be used for various other purposes.
  • the pattern length can be found in various ways, namely, for example, from an a priori criterion, which directly estimates the periodicity / pattern length based on the previously existing note information provides, or alternatively z. B. by a preferably iterative search algorithm, which accepts a number of hypotheses for the pattern length and checks their plausibility on the basis of the results obtained. This can also be done, for example, again by evaluating a pattern histogram, as is preferably implemented by the device 16 for summarizing, or by using other self-similarity measures.
  • the pattern histogram as shown in FIG. 5 can be generated by the means 16 for summarizing.
  • the pattern histogram can also take the intensities of the individual notes into account in order to achieve a weighting of the notes according to their relevance.
  • the histogram may only contain information as to whether or not a tone is present in a sub-sequence or in a bin or time slot of a sub-sequence.
  • a weighting of the individual notes with regard to their relevance would not be included in the histogram.
  • the characteristic shown in FIG. 5, which here is preferably a pattern histogram is processed further.
  • a grade selection can be made on the basis of a criterion, for example by comparing the frequency or the combined intensity values with a threshold value.
  • This threshold can also depend, among other things, on the type of instrument or the flatness of the histogram.
  • the entries in drum patterns can be Boolean sizes, with a "1" for the fact before it would stand for a grade, while a "0" would stand for the fact that no grade would occur.
  • an entry in the histogram can also be a measure of how high the intensity (loudness) or relevance of the timeslot If note 6 is viewed, it can be seen that the threshold value was chosen such that all time slots or bins in the pattern histogram are marked with an “x” for each instrument where the number of entries is greater than or equal to 3. On the other hand, all bins in which the number of entries is less than 3, for example 2 or 1, are deleted.
  • a musical “result” or score is generated from percussive instruments that are not or not significantly characterized by a pitch.
  • a musical event is defined as the occurrence of a tone of a musical instrument.
  • the musical score or the characteristic preferably comprises the rhythmic information, such as start time and duration.
  • this metric information namely a time signature
  • An automatic transcription process can therefore be divided into two tasks, namely the recording and classification of the musical events, ie notes, and the generation of a musical score from the recorded notes, ie the drum pattern, as has already been explained above.
  • the metric structure of the music is preferably estimated, it also being possible to quantize the temporal positions of the recorded notes and to identify the starts and determine the position of the bar lines.
  • the recording and classification of the events is preferably carried out using the independent subspace analysis method.
  • ICA Independent Subspace Analysis
  • ISA Independent Subspace Analysis
  • the components are divided into independent subspaces or subspaces, the components of which do not have to be statistically independent.
  • Position of the mixed signal determined and the last assumption for the ICA complied.
  • Various methods for calculating the independent components have been developed in recent years. Relevant references, some of which deal with the analysis of audio signals, are as follows:
  • the recorded events are preferably aligned with the estimated tatum grid. This process corresponds approximately to the known quantization function in common MIDI sequencer software programs for music production.
  • the measure length is estimated from the quantized event list and recurring rhythmic structures are identified. Knowledge of the rhythmic structures is used to correct the estimated tempo and to identify the position of the bar lines using musical background knowledge.
  • the device 10 for providing sequences of times of use for a plurality of sound sources preferably carries out a quantization.
  • the recorded events are preferably quantized in the tatum grid.
  • the tatum grid is estimated using the note entry times of the recorded events together with note entry times that operate using conventional note entry methods.
  • the Generation of the tatum grid based on the percussive events recorded works reliably and robustly. It should be noted that the distance between two halftone dots in a piece of music is usually the fastest note played. If a piece of music therefore contains at most sixteenth notes and no faster than the sixteenth notes, the distance between two grid points of the Tatum Grid is equal to the length of time of a sixteenth note of the audio signal.
  • the distance between two grid points corresponds to the largest note value that is required to represent all occurring note values or time periods by forming integer multiples of this note value.
  • the grid spacing is the largest common divisor of all occurring note durations / period lengths etc.
  • the tatum grid is represented using a 2-way mismatch procedure (TWM).
  • TWM 2-way mismatch procedure
  • a series of test values for the tatum period i.e. for the distance between two grid points, is derived from a histogram for an inter-onset interval (IOI).
  • IOI inter-onset interval
  • the calculation of the IOI is not limited to successive onsets, but to practically all pairs of onsets in a time frame.
  • Tatum candidates are calculated as integer fractions of the most common IOI. The candidate is selected who best predicts the harmonic structure of the IOI according to the 2-way mismatch error function.
  • the estimated tatum period is subsequently calculated by calculating the error function between the comb-grid tu period is derived and the onset times of the signal are calculated.
  • the histogram of the IOI is thus generated and smoothed using an FIR low-pass filter. Tatum candidates are thus divided by dividing the IOI according to the peaks in the IOI histogram by a set of values between e.g. B. 1 and 4 received.
  • a raw estimate of the tatum period is derived from the IOI histogram after applying the TWM. Then the phase of the tatum grid and an exact estimate of the tatum period are calculated by means of the TWM between the note insertion times and several tatum grids with periods close to the previously estimated tatum period.
  • the second method refined and provides the Tatum grid by calculating the best match between the No ⁇ tencommunvektor and the Tatum grid represents, by using a coefficient of correlation R xy between the note entry vector x and the y Tatu.
  • the Tatum Grid is used for neighboring frames with e.g. B. estimated a length of 2.5 seconds.
  • the transitions between the tatum grids of neighboring frames are smoothed by low-pass filtering the IOI vector of the tatum grid points, and the tatum grid is restored from the smoothed IOI vector.
  • Each event is then assigned to its closest grid position. In a way, a quantization is carried out.
  • the intensity of the detected events can either be removed or used, which results in a Boolean matrix or in a matrix with intensity values.
  • the quantized representation of the percussive events provides valuable information for the assessment of the musical measure or a periodicity, which underlies the playing of the sound sources.
  • the periodicity at the clock level for example, is determined in two stages. First a periodicity is calculated in order to then estimate the cycle length.
  • ACF autocorrelation function
  • AMDF mean difference-of-magnitude function
  • the AMDF is also used to estimate the fundamental frequency for music and speech signals and to estimate the musical measure.
  • a periodicity function measures the similarity or dissimilarity between the signal and its temporally different version.
  • Various measures of similarity are known. For example, there is the Hamming distance (HD), which calculates a dissimilarity between two Boolean vectors Bi and B 2 according to the following equation.
  • the similarity measure M is obtained by summing the elements of B, as set out below.
  • MHD modified Hamming distance
  • the similarity measures for Boolean matrices can be expanded by weighting B with the mean of Ti and T 2 to take intensity values into account. Distances or dissimilarities are interpreted as negative similarities.
  • the time signature is determined by comparing P with a number of metric models.
  • the implemented metric models Q consist of a train of spikes with typical accent positions for different time signatures and micro times.
  • a micro time is the integer ratio between the duration of a musical beat, ie the note value that determines the musical tempo (e.g. quarter note), and the duration of a tatum period.
  • the best match between P and Q is obtained when the correlation coefficient reaches its maximum.
  • 13 metric models are implemented for seven different time signatures.
  • a score T from the length of a clock b is obtained by summing the matrix elements T with a similar metric position according to the following equation:
  • b denotes an estimated cycle length and p the number of cycles in T.
  • T ' is referred to as a score histogram or pattern histogram.
  • Drum patterns are obtained from the score histogram T 'by searching for score elements T' ⁇ , j with large histogram values. Patterns longer than one measure are retrieved by repeating the procedure described above for integer values of the measured length. The pattern length with the most hits, in relation to the pattern length itself, is selected in order to obtain a maximally representative pattern as a further or alternative characteristic for the sound signal.
  • the identified rhythmic patterns are interpreted using a set of rules derived from musical knowledge.
  • One example is the very common use of the snare drum or tambourines or "hand claps" in the second and fourth beats in a four-quarter time.
  • This concept serves as an indicator of the position of the bar lines. If a backbeat pattern is present, a bar starts between two stops of the small drum.
  • Another indication of the positioning of the tact lines is the occurrence of kick drum events, i.e. events of a large drum that is typically operated by a foot.
  • a preferred application of the characteristic as obtained by the means 16 for summarizing for each sound source, as shown and described in FIG. 1, as e.g. 5 or 6, is the genre classification of popular music.
  • Various high-level features can be derived from the drum patterns obtained to identify typical playing styles.
  • a classification procedure evaluates these features in connection with information about the musical measure, ie the speed, in z. B. beats per minute or beats per minute and using the percussive instruments used te.
  • the concept is based on the fact that all percussive instruments carry rhythm information and are often played repetitively.
  • Drum patterns have genre-specific characteristics. Therefore, these drum patterns can be used to classify the music genre.
  • a classification of different playing styles is carried out, each of which is assigned to individual instruments.
  • playing style is that events only occur on every quarter note.
  • An associated instrument for this style of play is the kick drum, i.e. the large drum of the drum that is operated with the foot.
  • This style of play is abbreviated to FS.
  • An alternative style of play is, for example, that events occur every second and fourth quarter notes of a four-quarter time. This is mainly played by the snare drum and tambourines, i.e. the hand claps.
  • This style of play is abbreviated as BS.
  • Exemplary other playing styles are that notes often appear on the first and third notes of a triplet. This is abbreviated to SP and is often seen in a hi-hat or cymbal.
  • the first characteristic FS is a boolean and true if kick drum events occur only on every quarter note. Only for certain values are no Boolean variables calculated, rather certain numbers are determined, such as for the relationship between the number of off-beat events and the number of on-beat events, such as those of a hi-hat, a shaker or a tambourine.
  • Typical combinations of drum instruments are classified in one of the various drum set types, such as rock, jazz, Latin, disco and techno, in order to obtain another characteristic for the genre classification.
  • the classification of the drum set is not derived using the instrument tones, but by generally examining the occurrence of drum instruments in various pieces belonging to the individual genres.
  • the rock drum set type is characterized, for example, by the fact that there is a kick drum, a snare drum, a hi-hat and a cymbal.
  • the "Latin" type there is a bongo, a conga, claves and shakers.
  • rhythmic features of the drum score or drum pattern are derived from the rhythmic features of the drum score or drum pattern. These features include musical tempo, time signature, micro time, etc.
  • a measure of the variation in the occurrence of kick drum notes is obtained by counting the number of different IOIs that occur in the drum pattern.
  • Classification of the musical genre using the drum pattern is carried out using a rule-based decision network. Potential genre candidates are rewarded if they meet a hypothesis currently under investigation and are "punished” if they fail to meet aspects of a currently under-hypothesis. This process results in the selection of favorable combinations of features for each genre.
  • the genre Disco is recognized when a drum set type is Disco, when the tempo is in the range between 115 and 132 bpm, when a time signature is 4/4 bits and the micro time is 2.
  • Another feature of the genre disco is that a game style FS z. B. is present, and that z. B. there is yet another style of play, namely that events occur at every off-beat position. Similar criteria can be set for other genres, such as hip-hop, soul / funk, drum and bass, jazz / swing, rock / pop, heavy metal, Latin, waltz, polka / punk or techno.
  • the method according to the invention for characterizing an audio signal can be implemented in hardware or in software.
  • the implementation can take place on a digital storage medium, in particular a floppy disk or CD with electronically readable control signals, which can cooperate with a programmable computer system in such a way that the method is carried out.
  • the invention thus also consists in a computer program product with a program code stored on a machine-readable carrier for carrying out the method when the computer program product runs on a computer.
  • the invention can thus be implemented as a computer program with a program code for carrying out the method if the computer program runs on a computer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

Zum Charakterisieren eines Tonsignals wird eine Folge von quantisierten Einsatzzeitpunkten für jede von wenigstens zwei Tonquellen über der Zeit auf der Basis eines Quantisierungsrasters bereitgestellt (1). Hierauf wird eine gemeinsame Periodenlänge, die den wenigstens zwei Tonquellen zugrunde liegt, unter Verwendung der Folgen von Einsatzzeitpunkten ermittelt (12). Hierauf wird die Folge von Einsatzzeitpunkten in jeweilige Unterfolgen aufgeteilt (14), wobei eine Länge einer Unterfolge gleich der gemeinsamen Periodenlänge ist. Schließlich werden die Unterfolgen für die erste Tonquelle in eine erste zusammengefasste Unterfolge und für die zweite Tonquelle in eine zweite zusammengefasste Unterfolge zusammengefasst (16), und zwar z. B. unter Verwendung eines Pattern-Histogramms, um durch die erste zusammengefasste Unterfolge und durch die zweite zusammengefasste Unterfolge das Tonsignal zu charakterisieren, z. B. hinsichtlich Rhythmik, Geschwindigkeit oder Genre.

Description

Vorrichtung und Verfahren zum Charakterisieren eines Tonsignals
Beschreibung
Die vorliegende Erfindung bezieht sich auf die Analyse von Tonsignalen und insbesondere auf die Analyse von Tonsignalen zu Zwecken der Klassifikation und Identifikation von Tonsignalen, um die Tonsignale zu Charakterisieren.
Die fortschreitende Entwicklung digitaler Distributionsmedien für multimediale Inhalte führt zu einer großen Vielfalt angebotener Daten. Für den menschlichen Nutzer ist die Grenze des Überschaubaren dabei längst überschritten. So gewinnt die inhaltliche Beschreibung der Daten durch Metadaten zunehmend an Bedeutung. Grundsätzlich besteht das Ziel, nicht nur Text-Dateien sondern auch z. B. Musikdateien, Videodateien oder sonstige Informationssignaldateien durchsuchbar zu machen, wobei derselbe Komfort wie bei gängigen Textdatenbanken angestrebt wird. Ein Ansatz hierfür ist der bekannte MPEG 7-Standard.
Insbesondere bei der Analyse von Audiosignalen, also Sig- nalen, die Musik und/oder Sprache umfassen, ist die Extraktion von Fingerabdrücken von großer Bedeutung.
Angestrebt wird ferner, Audiodaten mit Metadaten „anzureichern", um für z. B. ein Musikstück auf der Basis eines Fingerabdrucks Metadaten wiederzugewinnen. Der „Fingerabdruck" soll einerseits aussagekräftig sein, und andererseits möglichst kurz und prägnant sein. „Fingerabdruck" bezeichnet somit ein aus einem Musik-Signal generiertes komp- rimiertes Informationssignal, welches nicht die Metadaten enthält, sondern zur Referenzierung auf die Metadaten z.B. durch Suche in einer Datenbank dient, z.B. in einem System zur Identifikation von Audiomaterial („AudioID") .
Normalerweise bestehen Musikdaten aus der Überlagerung von Teilsignalen von Einzelquellen. Während es bei einer Popmusik typischerweise relativ wenige Einzelquellen gibt, nämlich den Sänger, die Gitarre, die Bassgitarre, das Schlag- zeug und ein Keyboard, so kann die Anzahl von Quellen für ein Orchesterstück sehr groß werden. Ein Orchesterstück und ein Popmusikstück beispielsweise bestehen aus einer Überlagerung der von den einzelnen Instrumenten abgegebenen Töne. Ein Orchesterstück bzw. irgendein Musikstück stellt somit eine Überlagerung von Teilsignalen von einzelnen Quellen dar, wobei die Teilsignale die von den einzelnen Instrumenten des Orchesters bzw. Popmusikensembles erzeugten Töne sind, und wobei die einzelnen Instrumente Einzelquellen sind.
Alternativ können auch Gruppen von ursprünglichen Quellen als Einzelquellen aufgefasst werden, so dass einem Signal wenigstens zwei Einzelquellen zugewiesen werden können.
Eine Analyse eines allgemeinen Informationssignals wird nachfolgend lediglich beispielhaft anhand eines Orchestersignals dargestellt. Die Analyse eines Orchestersignals kann auf vielerlei Arten und Weisen durchgeführt werden. So kann der Wunsch bestehen, die einzelnen Instrumente zu er- kennen und aus dem Gesamtsignal die Einzelsignale der Instrumente zu extrahieren und gegebenenfalls in eine Notenschrift umzusetzen, wobei die Notenschrift als „Metadaten" fungieren würde. Weitere Möglichkeiten der Analyse bestehen darin, einen dominanten Rhythmus zu extrahieren, wobei eine Rhythmusextraktion auf der Basis der Schlaginstrumente besser vonstatten geht als auf der Basis der eher Ton-gebenden Instrumente, die auch als harmonisch-ausgehaltene oder „harmonic sustained" Instrumente bezeichnet werden. Während Schlaginstrumente typischerweise Pauken, Schlagzeuge, Rasseln oder sonstige Percussion-Instrumente umfassen, gehören zu den harmonisch ausgehaltenen Instrumenten alle sonstigen Instrumente, wie beispielsweise Geigen, Blasinstrumente, etc.
Weiterhin werden zu den Schlaginstrumenten alle jene akustischen oder synthetischen Klangerzeuger gezählt, die aufgrund ihrer Klangeigenschaften zur RhythmusSektion beitra- gen (z.B. Rhythmusgitarre).
So wäre es beispielsweise .zur Rhythmusextraktion eines Musikstücks wünschenswert, aus dem gesamten Musikstück lediglich perkussive Anteile zu extrahieren und eine Rhythmuser- kennung dann auf der Basis dieser percussiven Anteile durchzuführen, ohne dass die Rhythmuserkennung durch Signale von den harmonisch ausgehaltenen Instrumenten „gestört" wird.
In der Technik existieren verschiedene Möglichkeiten, um automatisch verschiedene Muster aus Musikstücken zu extrahieren bzw. die Anwesenheit von Mustern zu detektieren. In Coyle, E. J. , Shmulevich, I., „A System for Machine Re- cognition of Music Patterns", IEEE Int. Conf. on Acoustic, Speech, and Signal Processing, 1998, http: //www2.mdanderson. org/app/ilya/Publications/icassp98mp r.pdf, wird nach melodischen Themen gesucht. Hierzu wird ein Thema vorgegeben. Dann wird gesucht, wo es auftritt. In Schroeter, T., Doraisamy, S., Rüger, S., „Fro Raw Po- lyphonic Audio to Locating Recurring The es", ISMIR, 2000, http//ismir2000. ismir.net/posters/shroeter ruger.pdf, wird nach melodischen Themen in einer transkribierten Darstellung des Musiksignals gesucht. Wieder wird das Thema vorgegeben, und es wird gesucht, wo es auftritt.
Entsprechend der üblichen Struktur abendländischer Musik treten melodische Fragmente im Gegensatz zur rhythmischen Struktur meistens nicht periodisch auf. Aus diesem Grund beschränken sich viele Verfahren zur Suche melodischer Fragmente auf das individuelle Auffinden ihres Vorkommens. Im Gegensatz hierzu gilt im Bereich der rhythmischen Analy- se das Interesse bevorzugt im Auffinden periodischer Strukturen.
In Meudic, B., „Musical Pattern Extraction: from Repetition to Musical Structure", in Proc. CMMR, 2003, http:// www.ircam. fr/equipes/repmus/RMPapers/ CMMR-meudic2003.pdf werden melodische Pattern mit Hilfe einer Selbstähnlichkeitsmatrix identifiziert.
In Meek, Colin, Birmingham, W. P., "Thematic Extractor", ISMIR, 2001, http://ismir2001.ismir.net/pdf/meek.pdf, wird nach melodischen Themen gesucht. Insbesondere werden Sequenzen gesucht, wobei die Länge einer Sequenz von zwei Noten bis zu einer vorgegebenen Anzahl sein kann.
In Smith, L., Medina, R. "Discovering Themes by Exact Pattern Matching", 2001, http: //citeseer . ist .psu. edu/498226.html wird nach melodischen Themen mit einer Selbst-Ähnlichkeits-Matrix gesucht . In Lartillot, 0., "Perception-Based Musical Pattern Discovery", in Proc. IFMC, 2003, http: //www. ircam. fr/equipes/ repmus/lartillot/cmmr/c mr .pdf wird ebenfalls nach melodi- sehen Themen gesucht.
In Brown, J. C, "Determination of the Meter of Musical Scores by Autocorrelation", J. of the Acoust, Soc. Of America, vol. 94, no. 4, 1993 wird aus einer symbolischen DarStellung des Musiksignals, nämlich auf der Basis einer MIDI-Darstellung mit Hilfe einer Periodizitätenfunktion (Autokorrelationsfunktion) die Taktart des zugrunde liegenden Musikstücks ermittelt.
Ähnlich wird in Meudic, B., „Automatic Meter Extraction from MIDI files", Proc. JIM, 2002, http: //www. ircam. fr/equipes/repmus/RMPapers/ JIM-benoit2002.pdf vorgegangen, wo auf der Schätzung von Periodizitäten eine Tempo- und Taktschätzung aus Audiosignalen vorgenommen wird.
Verfahren zur Identifikation melodischer Themen eignen sich nur sehr bedingt zur Identifikation von in einem Tonsignal vorliegenden Periodizitäten, da, wie es ausgeführt worden ist, musikalische .Themen zwar wiederkehrend sind, jedoch nicht so sehr eine Grund-Periodizität in einem Musikstück beschreiben, sondern eher, wenn überhaupt übergeordnete Pe- riodizitätinformationen in sich haben. Auf jeden Fall sind Verfahren zur Identifikation melodischer Themen sehr aufwendig, da bei der Suche von melodischen Themen die ver- schiedenen Variationen der Themen berücksichtigt werden müssen. So ist es aus der Musikwelt bekannt, dass Themen normalerweise variiert werden, nämlich beispielsweise durch Transposition, Spiegelung, etc. Die Aufgabe der vorliegenden Erfindung besteht darin, ein effizientes und zuverlässiges Konzept zum Charakterisieren eines Tonsignals zu schaffen.
Diese Aufgabe wird durch eine Vorrichtung zum Charakterisieren eines Tonsignals gemäß Patentanspruch 1, ein Verfahren zum Charakterisieren eines Tonsignals gemäß Patentanspruch 20 oder ein Computer-Programm gemäß Patentanspruch 21 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass ein effizient berechenbares und im Hinblick auf viele Informationen aussagekräftiges Charakteristikum eines Ton- Signals auf der Basis einer Folge von Einsatzzeitpunkten durch Periodenlängenbestimmung, Aufteilung in ünterfolgen und Zusammenfassung in eine zusammengefasste ünterfolge als Charakteristikum ermittelbar ist.
Ferner wird vorzugsweise nicht nur eine einzige Folge von Einsatzzeitpunkten eines einzigen Instruments, also einer einzigen Tonquelle entlang der Zeit betrachtet, sondern es werden wenigstens zwei Folgen von Einsatzzeitpunkten zweier unterschiedlicher Tonquellen, die parallel in dem Musik- stück vorkommen, betrachtet. Nachdem typischerweise davon ausgegangen werden kann, dass allen Tonquellen bzw. wenigstens einem Untersatz von Tonquellen, wie beispielsweise den perkussiven Tonquellen in einem Musikstück, die selbe Periodenlänge zugrunde liegt, wird unter Verwendung der Folgen von Einsatzzeitpunkten der zwei Tonquellen eine gemeinsame Periodenlänge ermittelt, die den wenigstens zwei Tonquellen zugrunde liegt. Erfindungsgemäß wird dann jede Folge von Einsatzzeitpunkten in jeweilige ünterfolgen unterteilt, wo- bei eine Länge einer ünterfolge gleich der gemeinsamen Periodenlänge ist.
Die Charakteristika-Extraktion findet dann auf der Basis einer Zusammenfassung der Unterfolgen für die erste Tonquelle in eine erste zusammengefasste Unterfolge und auf der Basis einer Zusammenfassung der Unterfolgen für die zweite Tonquelle in eine zweite zusammengefasste Unterfolge statt, wobei die zusammengefassten Unterfolgen als Charak- teristikum für das Tonsignal dienen und zur weiteren Verarbeitung verwendet werden können, wie beispielsweise zur Extraktion von semantisch bedeutungsvollen Informationen über das gesamte Musikstück, wie beispielsweise Genre, Tempo, Taktart, Ähnlichkeit zu anderen Musikstücken etc.
Die zusammengefasste Unterfolge für die erste Tonquelle und die zusammengefasste Unterfolge für die zweite Tonquelle bilden somit ein Drum-Pattern des Tonsignals, wenn die beiden Tonquellen, die anhand der Folge von Einsatzzeitpunkten berücksichtigt worden sind, perkussive Tonquellen sind, wie beispielsweise Trommeln, sonstige Schlagzeug-Instrumente oder beliebige andere perkussive Instrumente, die sich dadurch auszeichnen, dass nicht ihre Tonhöhe, also ihr Pitch entscheidet, sondern dass ihr charakteristisches Spektrum bzw. das Ansteigen und Abfallen eines ausgegebenen Tons und nicht die Tonhöhe von höherer musikalischer Bedeutung sind.
Die erfindungsgemäße Vorgehensweise dient somit zur automatischen Extraktion von vorzugsweise Drum-Patterns aus einer vorzugsweise transkribierten, also z. B. Noten-Darstellung eines Musiksignals. Diese Darstellung kann im MIDI-Format vorliegen oder automatisch aus einem Audiosignal mittels Methoden der digitalen Signalverarbeitung ermittelt werden, wie beispielsweise mit der Independent Component Analysis (ICA) oder bestimmten Variationen derselben, wie beispielsweise der nicht-negativen Independent Component Analysis, oder allgemein mit Konzepten, die unter dem Stichwort „Blind Source Separation" (BSS) bekannt sind.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird zur Extraktion eines Drum-Patterns zunächst eine Erkennung der Noteneinsätze, also Startzeitpunkte, je unterschiedlichem Instrument und je Pitch bei tonalen Instrumenten vorgenommen. Alternativ kann ein Auslesen einer Notendarstellung stattfinden, wobei dieses Auslesen in einem Einlesen eines MIDI-Files bestehen kann oder in einem Abtasten und Bildverarbeiten einer Notenschrift oder auch in der Entgegennahme von manuell eingetippten Noten bestehen kann.
Hierauf wird bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ein Raster ermittelt, gemäß dem die Noteneinsatzzeiten quantisiert werden, woraufhin dann die Noteneinsatzzeiten quantisiert werden.
Hierauf wird die Länge des Drum-Patterns als Länge eines musikalischen Taktes, als ganzzahliges Vielfaches der Länge eines musikalischen Taktes oder als ganzzahliges Vielfaches der Länge einer musikalischen Zählzeit ermittelt.
Hierauf wird eine Ermittlung einer Häufigkeit des Auftretens eines bestimmten Instruments pro metrischer Position mit einem Pattern-Histogramm durchgeführt.
Dann wird eine Auswahl der relevanten Einträge vorgenommen, um schließlich eine Form des Drum-Patterns als bevorzugtes Charakteristikum für das Tonsignal zu erhalten. Alternativ kann das Pattern-Histogramm als solches verarbeitet werden. Das Pattern-Histogramm ist ebenfalls eine komprimierte Darstellung der musikalischen Ereignisse, d.h. des Notenbil- des, und enthält Informationen über den Grad der Variation und bevorzugte Zählzeiten, wobei eine Flachheit des Histogramms auf eine starke Variation hinweist, während ein sehr „gebirgiges" Histogramm auf ein eher stationäres Signal im sinnen einer Selbst-Ähnlichkeit hinweist.
Zur Verbesserung der Aussagefähigkeit des Histogramms wird es bevorzugt, zunächst eine Vorverarbeitung durchzuführen, um ein Signal in charakteristische untereinander ähnliche Regionen des Signals zu unterteilen und ein Drum-Pattern nur für untereinander ähnliche Regionen im Signal zu extrahieren und für andere charakteristische Regionen im Signal ein anderes Drum-Pattern zu ermitteln.
Die vorliegende Erfindung ist dahin gehend vorteilhaft, dass eine robuste und effiziente Art und Weise zur Berechnung einer Charakteristik eines Tonsignals erhalten wird, insbesondere aufgrund der durchgeführten Unterteilung, die gemäß der ebenfalls mit statistischen Methoden ermittelbaren Periodenlänge sehr robust und für alle Signale glei- chermaßen durchführbar ist. Des weiteren ist das erfindungsgemäße Konzept dahin gehend skalierbar, dass die Aussagefähigkeit und Genauigkeit des Konzepts jedoch zum Preis einer höheren Rechenzeit ohne weiteres dadurch gesteigert werden kann, dass immer mehr Folgen von Auftrittszeitpunk- ten von immer mehr verschiedenen Tonquellen, also Instrumenten, in die Bestimmung der gemeinsamen Periodenlänge und in die Bestimmung des Drum-Patterns mit einbezogen werden, so dass die Berechnung der zusammengefassten Unterfolgen immer aufwendiger wird.
Eine alternative Skalierbarkeit besteht jedoch ebenfalls darin, eine bestimmte Anzahl von zusammengefassten Unterfolgen für eine bestimmte Anzahl von Tonquellen zu berechnen, um dann je nach Weiterverarbeitungsinteresse die erhaltenen zusammengefassten Unterfolgen nachzubearbeiten und damit im Hinblick auf ihre Aussagekraft je nach Bedarf zu reduzieren. Histogrammeinträge unter einem besti mten Schwellwert können z. B. ignoriert werden. Histogrammeinträge können aber auch an sich quantisiert werden oder nur allgemein je nach Schwellwertentscheidung dahin gehend binarisiert werden, dass ein Histogramm lediglich noch die Aussage enthält, dass in der zusammengefassten Unterfolge zu einem bestimmten Zeitpunkt ein Histogrammeintrag ist o- der nicht.
Das erfindungsgemäße Konzept ist aufgrund der Tatsache, dass viele ünterfolgen zu einer zusammengefassten Unterfolge „verschmolzen" werden, ein robustes Verfahren, das jedoch dennoch effizient ausführbar ist, da keine numerisch intensiven Verarbeitungsschritte benötigt werden.
Insbesondere spielen perkussive Instrumente ohne Pitch, die im Folgenden auch Drums genannt werden, eine wesentliche Rolle besonders in populärer Musik. Viele Informationen ü- ber Rhythmus und musikalisches Genre stecken in den von Drums gespielten „Noten", welche z. B. bei einer intelli- genten und intuitiven Suche in Musikarchiven verwendet werden könnten, um Klassifikationen bzw. wenigstens Vorklassifikationen durchführen zu können. Die von Drums gespielten Noten bilden häufig wiederkehrende Muster, die auch als Drum-Pattern bezeichnet werden. Ein Drum-Pattern kann als komprimierte Darstellung der gespielten Noten dienen, indem aus einem längeren Notenbild ein Notenbild der Länge eines Drum-Patterns extrahiert wird. Dadurch können aus Drum-Pattern semantisch bedeutungsvolle Informationen über das gesamte Musikstück extrahiert werden, wie beispielsweise Genre, Tempo, Taktart, Ähnlichkeit zu anderen Musikstücken, etc.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Charakterisieren eines Tonsignals;
Fig. 2 eine schematische Darstellung zur Erläuterung der Ermittlung der Noteneinsatzpunkte;
Fig. 3 ein schematisches Diagramm zur Darstellung eines Quantisierungsrasters und einer Quantisierung der Noten anhand des Rasters;
Fig. 4 eine beispielhafte Darstellung von gemeinsamen Periodenlängen, die durch statistische Perioden- längenbestimmungen unter Verwendung sämtlicher Instrumente erhalten werden können;
Fig. 5 ein beispielhaftes Pattern-Histogramm als Beispiel für zusammengefasste Unterfolgen für die einzelnen Tonquellen (Instrumente); und Fig. 6 ein nachverarbeitetes Pattern-Histogramm als Beispiel für ein alternatives Charakteristikum des Tonsignals .
Fig. 1 zeigt eine erfindungsgemäße Vorrichtung zum Charakterisieren eines Tonsignals. Zunächst umfasst Fig. 1 eine Einrichtung 10 zum Bereitstellen einer Folge von Einsatzzeitpunkten für jede Tonquelle von wenigstens zwei Tonquellen über der Zeit. Vorzugsweise sind die Einsatzzeitpunkte bereits quantisierte Einsatzzeitpunkte, die in einem Quantisierungsraster vorliegen. Während Fig. 2 eine Folge von Einsatzzeitpunkten von Noten von verschiedenen Tonquellen, also Instrumenten 1, 2,...,n zeigt, die in Fig. 2 mit „x" bezeichnet sind, zeigt Fig. 3 eine in einem Raster, das in Fig. 3 gezeigt ist, quantisierte Folge von quantisierten Einsatzzeitpunkten für jede Tonquelle, also für jedes Instrument 1, 2, ..., n.
Fig. 3 stellt gleichzeitig eine Matrix oder Liste von Einsatzzeitpunkten dar, wobei eine Spalte in Fig. 3 einem Abstand zwischen zwei Rasterpunkten oder Rasterlinien entspricht und damit ein Zeitintervall darstellt, in dem je nach Folge von Einsatzzeitpunkten ein Noteneinsatz vorhanden ist oder nicht. Bei dem in Fig. 3 gezeigten Ausfüh- rungsbeispiel ist z. B. in der Spalte, die mit dem Bezugszeichen 30 bezeichnet ist, von Instrument 1 ein Noteneinsatz vorhanden, wobei dies auch für das Instrument 2 gilt, wie es durch das „x" in den beiden den Instrumenten 1 und 2 zugeordneten Zeilen in Fig. 3 angedeutet ist. Dagegen hat das Instrument n keinen Noteneinsatzzeitpunkt in dem durch das Bezugszeichen 30 gezeigten Zeitintervall. Die mehreren Folgen von vorzugsweise quantisierten Einsatzzeitpunkten werden von der Einrichtung 10 zu einer Einrichtung 12 zum Ermitteln einer gemeinsamen Periodenlänge zugeführt. Die Einrichtung 12 zum Ermitteln einer gemeinsamen Periodenlänge ist ausgebildet, um nicht für jede Folge von Einsatzzeitpunkten selbst eine eigene Periodenlänge zu ermitteln, sondern um eine gemeinsame Periodenlänge zu finden, die den wenigstens zwei Tonquellen am ehesten zugrunde liegt. Dies basiert darauf, dass auch dann, wenn z. B. meh- rere perkusssive Instrumente in einem Stück spielen, alle mehr oder weniger den selben Rhythmus spielen, so dass eine gemeinsame Periodenlänge existieren muss, an die sich praktisch alle Instrumente, die zu dem Tonsignal beitragen, also alle Tonquellen halten werden.
Die gemeinsame Tonperiodenlänge wird hierauf einer Einrichtung 14 zum Aufteilen jeder Folge von Einsatzzeitpunkten zugeführt, um ausgangsseitig einen Satz von Unterfolgen für jede Tonquelle zu erhalten.
Wenn beispielsweise Fig. 4 betrachtet wird, so ist zu sehen, dass eine gemeinsame Periodenlänge 40 gefunden worden ist, und zwar für sämtliche Instrumente 1, 2, ..., n, wobei die Einrichtung 14 zum Aufteilen in ünterfolgen ausgebildet ist, um sämtliche Folgen von Einsatzzeitpunkten in Unterfolgen der Länge der gemeinsamen Periodenlänge 40 aufzuteilen. Die Folge von Einsatzzeitpunkten für das Instrument würde dann, wie es in Fig. 4 gezeichnet ist, in eine erste Unterfolge 41, eine anschließende zweite Unterfolge 42 und eine wieder anschließende Unterfolge 43 aufgeteilt werden, um somit für das in Fig. 4 gezeigte Beispiel für die Folge für das Instrument 1 drei Unterfolgen zu erhalten. Ähnlich werden die anderen Folgen für die Instrumente 2, ..., n e- benfalls in entsprechende an einander angrenzende Unterfolgen aufgeteilt, wie es anhand der Folge von Einsatzzeitpunkten für das Instrument 1 dargestellt worden ist.
Die Sätze von Unterfolgen für die Tonquellen werden dann einer Einrichtung 16 zum Zusammenfassen für jede Tonquelle zugeführt, um eine zusammengefasste Unterfolge für die erste Tonquelle und eine zusammengefasste Unterfolge für die zweite Tonquelle als Charakteristikum für das Tonsignal zu erhalten. Vorzugsweise findet die Zusammenfassung in Form eines Pattern-Histogramms statt. Die Unterfolgen für das erste Instrument werden ausgerichtet zueinander übereinander gelegt, derart, dass das erste Intervall jeder Unterfolge gewissermaßen „über" dem ersten Intervall jeder ande- ren Unterfolge liegt. Dann werden, wie es anhand von Fig. 5 gezeigt ist, die Einträge in jedem Schlitz einer zusammengefassten ünterfolge bzw. in jedem Histogramm-Bin des Pattern-Histogramms gezählt. Die zusammengefasste Unterfolge für die erste Tonquelle wäre bei dem in Fig. 5 gezeigten Beispiel also eine erste Zeile 50 des Pattern-Histogramms. Für die zweite Tonquelle, also z. B. das Instrument 2 wäre die zusammengefasste Unterfolge die zweite Zeile 52 des Pattern-Histogramms etc. Insgesamt stellt das Pattern- Histogramm in Fig. 5 somit das Charakteristikum für das Tonsignal dar, das dann für diverse weitere Zwecke eingesetzt werden kann.
Nachfolgend wird auf verschiedene Ausführungsbeispiele zur Bestimmung der gemeinsamen Periodenlänge im Schritt 12 ein- gegangen. Das Finden der Patternlänge kann auf verschiedene Art und Weisen realisiert werden, nämlich beispielsweise aus einem a-priori-Kriterium, welches unmittelbar eine Schätzung der Periodizität/Patternlänge aufgrund der vor- handenen Noteninformationen liefert, oder alternativ z. B. durch einen vorzugsweise iterativen Suchalgorithmus, welcher eine Anzahl von Hypothesen für die Patternlänge annimmt und deren Plausibilität anhand der sich ergebenden Resultate prüft. Dies kann beispielsweise ebenfalls wieder durch Auswertung eines Pattern-Histogramms, wie es auch durch die Einrichtung 16 zum Zusammenfassen vorzugsweise implementiert wird, oder unter Verwendung anderer Selbstähnlichkeitsmaße erfolgen.
Wie es ausgeführt worden ist, kann das Pattern-Histogramm, wie es in Fig. 5 gezeigt ist, von der Einrichtung 16 zum Zusammenfassen erzeugt werden. Das Pattern-Histogramm kann alternativ auch die Intensitäten der einzelnen Noten be- rücksichtigen, um so eine Gewichtung der Noten nach ihrer Relevanz zu erreichen. Alternativ kann, wie es in Fig. 5 gezeigt worden ist, das Histogramm lediglich Informationen dahin gehend enthalten, ob in einer Unterfolge bzw. in einem Bin oder Zeitschlitz einer Unterfolge ein Ton vorhanden ist oder nicht. Hier würde eine Gewichtung der einzelnen Noten im Hinblick auf ihre Relevanz nicht in das Histogramm einfließen.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird das in Fig. 5 gezeigte Charakteristikum, das hier vorzugsweise ein Pattern-Histogramm ist, noch weiter verarbeitet. Hierbei kann eine Notenauswahl anhand eines Kriteriums getroffen werden, wie beispielsweise durch den Vergleich der Häufigkeit oder der kombinierten Intensitäts- werte mit einem Schwellwert. Dieser Schwellwert kann unter anderem auch vom Instrumententyp oder von der Flachheit des Histogramms abhängig sein. Die Einträge in Drum-Pattern können Boolsche Größen sein, wobei eine „1" für die Tatsa- ehe stehen würde, dass eine Note auftritt, während eine „0" für die Tatsache stehen würde, dass keine Note auftritt. Alternativ kann ein Eintrag im Histogramm auch ein Maß dafür sein, wie hoch die Intensität (Lautheit) oder Relevanz der in diesem Zeitschlitz auftretenden Note über das Musiksignal betrachtet ist. Wenn Fig. 6 betrachtet wird, so wird ersichtlich, dass der Schwellwert dahin gehend gewählt war, dass sämtliche Zeitschlitze bzw. Bins in dem Pattern- Histogramm für jedes Instrument mit einem „x" markiert wer- den, bei denen die Anzahl der Einträge größer oder gleich 3 ist. Dagegen werden sämtliche Bins gelöscht, bei denen die Anzahl der Einträge kleiner als 3 ist, nämlich beispielsweise 2 oder 1 beträgt.
Erfindungsgemäß wird also ein musikalisches „Ergebnis" oder Score aus perkussiven Instrumenten, die nicht oder nicht signifikant durch eine Tonhöhe charakterisiert werden, erzeugt. Ein musikalisches Ereignis wird als Auftreten eines Tons eines Musikinstruments definiert. Vorzugsweise werden nur perkussive Instrumente ohne einen wesentlichen Pitch betrachtet. Ereignisse werden in dem Audiosignal erfasst und in Instrumentenklassen klassifiziert, wobei die zeitlichen Positionen der Ereignisse auf einem Quantisierungsraster, das auch als Tatum-Grid bezeichnet wird, quanti- siert werden. Ferner wird das musikalische Maß bzw. die Länge eines Taktes in Millisekunden oder aber eine Anzahl von Quantisierungsintervallen berechnet, wobei ferner auch vorzugsweise Auftakte identifiziert werden. Die Identifikation von rhythmischen Strukturen auf der Basis der Frequenz des Auftretens musikalischer Ereignisse an bestimmten Positionen im Drum-Pattern ermöglicht eine robuste Identifikation des Tempos und gibt wertvolle Hinweise für die Positi- onierung der Taktlinien, wenn ferner musikalisches Hintergrundwissen eingesetzt wird.
Es sei darauf hingewiesen, dass der musikalische Score bzw. das Charakteristikum vorzugsweise die rhythmischen Informationen, wie beispielsweise Startzeit und Dauer umfasst. Obgleich die Schätzung dieser metrischen Informationen, nämliche einer Zeitsignatur, nicht unbedingt für die automatische Synthese der transkribierten Musik nötig ist, wird sie dennoch für die Erzeugung eines gültigen musikalischen Scores und für die Reproduktion durch menschliche Reproduzen- ten benötigt. Daher kann ein automatischer Transkripti- onsprozess in zwei Aufgaben aufgeteilt werden, nämlich die Erfassung und Klassifizierung der musikalischen Ereignisse, also Noten, und die Erzeugung eines musikalischen Scores aus den erfassten Noten, also des Drum-Patterns, wie es vorstehend bereits erläutert worden ist. Hierzu wird vorzugsweise die metrische Struktur der Musik geschätzt, wobei auch eine Quantisierung der zeitlichen Positionen der erfassten Noten sowie eine Erkennung von Auftakten und eine Bestimmung der Position der Taktlinien vorgenommen werden kann. Insbesondere wird die Extraktion des musikalischen Scores für perkussive Instrumente ohne eine signifikante Pitch-Information aus polyphonen musikalischen Audiosigna- len beschrieben. Die Erfassung und Klassifizierung der Ereignisse wird vorzugsweise mit dem Verfahren der unabhängigen Subspace-Analyse durchgeführt.
Eine Erweiterung der ICA stellt die Independent Subspace Analysis (ISA) dar. Hier werden die Komponenten unterteilt in unabhängige Unterräume oder Subspaces, deren Komponenten nicht statistisch unabhängig sein müssen. Durch eine Transformation des Musiksignals wird eine mehrdimensionale Dar- Stellung des Mischsignals ermittelt und der letzten Annahme für die ICA entsprochen. Verschiedene Verfahren zur Berechnung der unabhängigen Komponenten wurden in den letzten Jahren entwickelt. Einschlägige Literaturstellen, die sich zum Teil auch mit der Analyse von Audiosignalen beschäftigen, sind folgende:
1. J. Karhunen, „Neural approaches to independent component analysis and source Separation", Proceedings of the European Symposium on Artificial Neural Networks, S. 249-266, Bruges, 1996.
2. M.A. Casey and A. Westner, „Separation of Mixed Audio Sources by Independent Subspace Analysis", Proceedings of the International Computer Music Conference, Berlin, 2000.
3. J.-F. Cardoso, „Multidimensional independent component analysis", Proceedings of ICASSP'98, Seattle, 1998.
4. A. Hyvärinen, P.O. Hoyer and M. Inki, „Topographie Independent analysis", Neural Computation, 13(7), S. 1525-1558, 2001.
5. S. Dubnov, „Extracting Sound Objects by Independent Subspace Analysis" Proceedings of AES 22nd International Conference on Virtual, Synthetic and Entertainment Audio, Helsinki, 2002.
6. J.-F. Cardoso and A. Souloumiac, „Blind beamforming for non Gaussian signals" IEE Proceedings, Bd. 140, Nr. 6, S. 362-370, 1993. Ein Ereignis wird als Auftreten einer Note eines musikalischen Instruments definiert. Der Auftrittszeitpunkt einer Note ist also der Zeitpunkt, zu dem die Note in dem musikalischen Stück auftritt. Das Audiosignal wird in Teile seg- mentiert, wobei ein Segment des Audiosignals ähnliche rhythmische Eigenschaften hat. Dies wird unter Verwendung eines Abstandsmaßes zwischen kurzen Rahmen des Audiosignals durchgeführt, das durch einen Vektor von Audiomerkmalen auf niedriger Ebene dargestellt wird. Das Tatum-Grid und höhere metrische Ebenen werden aus den segmentierten Teilen separat ermittelt. Es wird angenommen, dass sich die metrische Struktur innerhalb eines segmentierten Teils des Audiosignals nicht verändert. Die erfassten Ereignisse sind vorzugsweise mit dem abgeschätzten Tatum-Grid ausgerichtet. Dieser Prozess entspricht in etwa der bekannten Quantisierungsfunktion in üblichen MIDI-Sequenzer-Softwareprogrammen für die Musikproduktion. Die Taktlänge wird aus der quantisierten Ereignisliste abgeschätzt, und wiederkehrende rhythmische Strukturen werden identifiziert. Die Kenntnis über die rhythmischen Strukturen wird für die Korrektur des geschätzten Tempos verwendet und für die Identifikation der Position der Taktlinien unter Verwendung musikalischen Hintergrundwissens .
Nachfolgend wird auf bevorzugte Ausgestaltungen verschiedener erfindungsgemäßer Elemente eingegangen. Vorzugsweise führt die Einrichtung 10 zum Bereitstellen von Folgen von Einsatzzeitpunkten für mehrere Tonquellen eine Quantisierung durch. Die erfassten Ereignisse werden vorzugsweise in dem Tatum-Grid quantisiert. Das Tatum-Grid wird unter Verwendung der Noteneinsatzzeiten der erfassten Ereignisse zusammen mit Noteneinsatzzeiten abgeschätzt, die mittels herkömmlicher Noteneinsatzerfassungsverfahren arbeiten. Die Erzeugung des Tatum-Grids auf der Basis der erfassten per- kussiven Ereignisse arbeitet zuverlässig und robust. Hierbei sei darauf hingewiesen, dass der Abstand zwischen zwei Rasterpunkten in einem Musikstück meistens die schnellste gespielte Note darstellt. Kommen in einem Musikstück somit höchstens Sechzehntelnoten und keine schnelleren als die Sechzehntelnoten vor, so ist der Abstand zwischen zwei Rasterpunkten des Tatum-Grids gleich der zeitlichen Länge einer Sechzehntelnote des Tonsignals.
Im allgemeinen Fall entspricht der Abstand zwischen zwei Rasterpunkten dem größten Notenwert, der benötigt wird, um durch Bildung ganzzahliger Vielfacher dieses Notenwerts alle vorkommenden Notenwerte bzw. zeitlichen Periodendauern darzustellen. Der Rasterabstand ist damit der größte gemeinsame Teiler aller vorkommenden Notendauern/Periodenlängen etc.
Nachfolgend werden zwei alternative Lösungsansätze zur Be- Stimmung des Tatum-Grids dargestellt. Zunächst, als erster Lösungsansatz, wird das Tatum-Grid unter Verwendung einer 2-Wege-Mismatch-Prozedur (TWM) dargestellt. Eine Serie von Versuchswerten für die Tatum-Periode, also für den Abstand von zwei Rasterpunkten, wird aus einem Histogramm für ein Inter-Onset-Intervall (IOI) abgeleitet. Die Berechnung des IOI ist nicht auf aufeinanderfolgende Onsets begrenzt, sondern auf praktisch alle Paare von Onsets in einem zeitlichen Rahmen. Tatum-Kandidaten werden als ganzzahlige Bruchteile des häufigsten IOI berechnet. Der Kandidat wird aus- gewählt, der am besten die harmonische Struktur des IOI gemäß der 2-Wege-Mismatch-Fehlerfunktion vorhersagt. Die geschätzte Tatum-Periode wird nachfolgend durch Berechnung der Fehlerfunktion zwischen dem Comb-Grid, das von der Ta- tu -Periode abgeleitet wird und den Onset-Zeiten des Signals berechnet. Es wird also das Histogramm des IOI erzeugt und mittels eines FIR-Tiefpassfilters geglättet. Tatum- Kandidaten werden also durch Aufteilen des IOI entsprechend den Spitzen in dem IOI-Histogramm durch einen Satz von Werten zwischen z. B. 1 und 4 erhalten. Ein roher Schätzwert für die Tatum-Periode wird aus dem IOI-Histogramm nach dem Anwenden der TWM abgeleitet. Anschließend werden die Phase des Tatum-Grids und ein exakter Schätzwert der Tatum- Periode mittels der TWM zwischen den Noteneinsatzzeiten und mehreren Tatum-Grids mit Perioden nahe der vorher geschätz¬ ten Tatum-Periode berechnet.
Das zweite Verfahren verfeinert und stellt das Tatum-Grid durch Berechnen der besten Übereinstimmung zwischen den No¬ teneinsatzvektor und dem Tatum-Grid dar, und zwar unter Verwendung eines Korrelationskoeffizienten Rxy zwischen dem Noteneinsatzvektor x und dem Tatu y.
Figure imgf000023_0001
Um kleinen Tempovariationen zu folgen, wird das Tatum-Grid für benachbarte Rahmen mit z. B. einer Länge von 2,5 Sek. geschätzt. Die Übergänge zwischen den Tatum-Grids von be- nachbarten Rahmen werden durch Tiefpassfiltern des IOI- Vektors der Tatum-Grid-Punkte geglättet, und das Tatum-Grid wird aus dem geglätteten IOI-Vektor wieder hergestellt. Anschließend wird jedes Ereignis seiner nahe liegendsten Grid-Position zugeordnet. Damit wird gewissermaßen eine Quantisierung durchgeführt. Der Score kann dann als Matrix Tιk, i =1, ... n und j = 1, ... , m geschrieben werden, wobei n die Anzahl von erfassten Instrumenten bezeichnet, und wobei m gleich der Anzahl von Tatum-Grid-Elementen ist, also gleich der Anzahl von Spal- ten der Matrix. Die Intensität der erfassten Ereignisse kann entweder entfernt werden oder verwendet werden, was zu einer Boolschen Matrix führt oder zu einer Matrix mit Intensitätswerten führt.
Nachfolgend wird auf spezielle Ausführungsformen der Einrichtung 12 zum Ermitteln einer gemeinsamen Periodenlänge eingegangen. Die quantisierte Darstellung der perkussiven Ereignisse liefert wertvolle Informationen für die Abschätzung des musikalischen Maßes bzw. einer Periodizität, die dem Spielen der Tonquellen zugrunde liegt. Die Periodizität auf Taktebene beispielsweise wird in zwei Stufen ermittelt. Zunächst wird eine Periodizität berechnet, um dann die Taktlänge abzuschätzen.
Vorzugsweise werden als Periodizitätsfunktionen die Autokorrelationsfunktion (ACF) oder die mittlere Betrags- Differenz-Funktion (AMDF) verwendet, wie sie in den nachfolgenden Gleichungen dargestellt sind.
ACF(τ) = ∑xtxi+τ ι=l
Figure imgf000024_0001
Die AMDF wird auch für die Abschätzung der Fundamentalfrequenz für Musik- und Sprachsignale und für die Abschätzung des musikalischen Maßes eingesetzt. Im allgemeinen Fall misst eine Periodizitätsfunktion die Ähnlichkeit bzw. Unähnlichkeit zwischen dem Signal und seiner zeitlich verschiedenen Version. Verschiedene Ähnlich- keitsmaße sind bekannt. So gibt es beispielsweise die Ham- ming-Distanz (HD) , welche eine Unähnlichkeit zwischen zwei Boolschen Vektoren Bi und B2 gemäß nachfolgender Gleichung berechnet .
Figure imgf000025_0001
Eine geeignete Erweiterung für den Vergleich der rhythmischen Strukturen ergibt sich aus der unterschiedlichen Gewichtung ähnlicher Treffer und Ruhepausen. Die Ähnlichkeit B zwischen zwei Abschnitten eines Scores Ti und T2 wird dann durch gewichtete Summation der Boolschen Operationen, wie sie nachfolgend dargestellt sind, berechnet.
Figure imgf000025_0002
In der vorstehenden Gleichung werden die Gewichte a, b und c ursprünglich auf a = 1, b = 0, 5 und c = 0 gesetzt, a gewichtet das Auftreten gemeinsamer Noten, b gewichtet das Auftreten gemeinsamer pausen und c gewichtet das Auftretens eines Unterschieds, d. h. in einem Score tritt eine Note auf und in dem anderen Score tritt keine Note auf. Das Ähnlichkeitsmaß M wird durch Summation der Elemente von B erhalten, wie es nachfolgend dargelegt ist.
M = ∑∑BiJ fe=l =l Dieses Ähnlichkeitsmaß ähnelt der Hamming-Distanz dahin gehend, dass Differenzen zwischen Matrixelementen auf ähnliche Art und Weise berücksichtigt werden. Nachfolgend wird als Distanzmaß eine modifizierte Hamming-Distanz (MHD) ein- gesetzt. Zusätzlich kann der Einfluss distinkter Instrumen- te mittels eines Gewichtungsvektors v±, i =1, ..., n gesteuert werden, der entweder unter Verwendung eines musikalischen Vorauswissens, z. B. indem mehr Wichtigkeit auf kleine Trommeln (Snare-Drums) oder auf tiefe Instrumente gelegt werden, oder abhängig von der Frequenz und Regelmäßigkeit des Auftretens der Instrumente gesteuert werden:
Mv = ∑v ∑BtJ ι=ι /=ι Zusätzlich können die Ähnlichkeitsmaße für Boolsche Matrizen durch Gewichten von B mit dem Mittelwert aus Ti und T2 erweitert werden, um Intensitätswerte zu berücksichtigen. Abstände bzw. Unähnlichkeiten werden als negative Ähnlichkeiten aufgefasst. Die Periodizitätsfunktion P = f (M, 1) wird durch Berechnen des Ähnlichkeitsmaßes M zwischen dem Score T und einer verschobenen Version desselben berechnet, wobei eine Verschiebung 1 zugrunde liegt. Die Zeitsignatur wird durch Vergleichen von P mit einer Anzahl von Metrikmodellen bestimmt. Die implementierten Metrikmodelle Q beste- hen aus einem Zug aus Spikes bei typischen Akzentpositionen für unterschiedliche Zeitsignaturen und Mikrozeiten. Eine Mikrozeit ist das ganzzahlige Verhältnis zwischen der Dauer einer musikalischen Zählzeit, d.h. des Notenwerts, der das musikalische Tempo bestimmt (z. B. Viertelnote), und der Dauer einer Tatum-Periode. Die beste Übereinstimmung zwischen P und Q wird erhalten, wenn der Korrelationskoeffizient sein Maximum annimmt. Im gegenwärtigen Zustand des Systems werden 13 Metrikmodelle für sieben unterschiedliche Zeitsignaturen implementiert.
Wiederkehrende Strukturen werden erfasst, um Auftakte z. B. zu erfassen, und um eine robust Temposchätzung zu erhalten. Für die Erfassung von Drum-Patterns wird ein Score T aus der Länge eines Takts b durch Summation der Matrixelemente T mit ähnlicher metrischer Position gemäß folgender Gleichung erhalten:
Figure imgf000027_0001
In der vorstehenden Gleichung bezeichnen b eine geschätzte Taktlänge und p die Anzahl von Takten in T. Nachfolgend wird T' als Score-Histogramm bzw. Pattern-Histogramm bezeichnet. Drum-Patterns werden aus dem Score-Histogramm T' durch eine Suche nach Score-Elementen T'ι,j mit großen Histogrammwerten erhalten. Pattern einer Länge von mehr als einem Takt werden mittels einer Wiederholung der oben beschriebenen Prozedur für ganzzahlige Werte der gemessenen Länge wiedergewonnen. Die Patternlänge mit den meisten Treffern, und zwar bezogen auf die Patternlänge selbst, wird ausgewählt, um ein maximal repräsentatives Pattern als weiteres oder alternatives Charakteristikum für das Tonsignal zu erhalten.
Vorzugsweise werden die identifizierten rhythmischen Pat- tern unter Verwendung eines Satzes von Regeln interpretiert, die aus musikalischer Kenntnis abgeleitet werden. Vorzugsweise werden äquidistante Ereignisse des Auftretens von einzelnen Instrumenten identifiziert und Bezug nehmend auf die Instrumentenklasse evaluiert . Dies führt zu einer Identifikation von Spielstilen, die häufig in populärer Musik auftreten. Ein Beispiel ist die sehr häufige Verwendung der kleinen Trommel (Snare-Drum) oder von Tambourinen oder von „Hand Claps" (Händeklatschen) in dem zweiten und vierten Schlag in einem Vier-Viertel-Takt. Dieses Konzept, das als Backbeat bezeichnet wird, dient als Indikator für die Position der Taktlinien. Wenn ein Backbeat-Pattern vorhan- den ist, startet ein Takt zwischen zwei Anschlägen der kleinen Trommel.
Ein weiterer Hinweis für die Positionierung der Taktlinien besteht in dem Auftreten von Kick-Drum-Ereignissen, also Ereignissen einer typischerweise per Fuß betätigten großen Trommel.
Es wird angenommen, dass der Start eines musikalischen Maßes durch die metrische Position markiert wird, wo die meisten Kick-Drum-Noten auftreten.
Eine bevorzugte Anwendung des Charakteristikums, wie es durch die Einrichtung 16 zum Zusammenfassen für jede Tonquelle, wie es in Fig. 1 gezeigt und beschrieben worden ist, erhalten wird, wie es z. B. in Fig. 5 oder 6 dargestellt ist, besteht in der Genre-Klassifizierung von populärer Musik. Von den erhaltenen Drum-Patterns können verschiedene Merkmale auf hoher Ebene abgeleitet werden, um typische Spielstile zu identifizieren. Eine Klassifikati- onsprozedur bewertet diese Merkmale in Verbindung mit Informationen über das musikalische Maß, also die Geschwindigkeit, in z. B. Schlägen pro Minute oder Beats per Minute und unter Verwendung der verwendeten perkussiven Instrumen- te. Das Konzept basiert darauf, dass sämtliche perkussiven Instrumente Rhythmusinformationen tragen und häufig repeti- tiv gespielt werden. Drum-Patterns haben Genre-spezifische Charakteristika. Daher können diese Drum-Patterns zur Klas- sifikation des Musik-Genres eingesetzt werden.
Hierzu wird eine Klassifikation von verschiedenen Spielstilen (Playing Style) durchgeführt, die jeweils einzelnen Instrumenten zugeordnet sind. So besteht ein Spielstil bei- spielsweise darin, dass Ereignisse nur auf jeder Viertelnote auftreten. Ein zugeordnetes Instrument für diesen Spielstil ist die Kick-Drum, also die große mit dem Fuß betätigte Trommel des Schlagzeugs. Dieser Spielstil wird mit FS abgekürzt.
Ein alternativer Spielstil besteht beispielsweise darin, dass Ereignisse in jeder zweiten und vierten Viertelnote eines Vier-Viertel-Takts auftreten. Dies wird hauptsächlich von der kleinen Trommel (Snare-Drum) und Tambourinen, also den Hand-Claps gespielt. Dieser Spielstil wird als BS abgekürzt. Beispielhafte weitere Spielstile bestehen darin, dass Noten oft auf der ersten und der dritten Note eines Triplets auftreten. Dies wird als SP abgekürzt und oft bei einem Hi-Hat oder bei einem Becken (Cymbal) beobachtet.
Es sind also Spielstile für verschiedene Musikinstrumente spezifisch. Beispielsweise ist das erste Merkmal FS ein Boolscher Wert und wahr, wenn Kick-Drum-Ereignisse nur auf jeder Viertelnote auftreten. Lediglich für bestimmte Werte werden keine Boolschen Variablen berechnet, sondern werden bestimmte Zahlen ermittelt, wie beispielsweise für die Relation zwischen der Anzahl von Off-Beat-Ereignissen und die Anzahl von On-Beat-Ereignissen, wie sie beispielsweise von einem Hi-Hat, einem Shaker oder einem Tamburin gespielt werden.
Typische Kombinationen von Drum-Instrumenten werden in ei- nen der verschiedenen Drum-Set-Typen klassifiziert, wie beispielsweise Rock, Jazz, Latin, Disco und Techno, um ein weiteres Merkmal für die Genre-Klassifikation zu erhalten. Die Klassifikation des Drum-Sets wird nicht unter Verwendung der Instrumententöne abgeleitet, sondern durch allge- meine Untersuchung des Auftretens von Drum-Instrumenten in verschiedenen Stücken, die zu den einzelnen Genres gehören. So zeichnet sich der Drum-Set-Typ Rock beispielsweise dadurch aus, dass eine Kick-Drum, eine Snare-Drum, ein Hi-Hat und ein Becken vorkommt. Dagegen kommt im Type „Latin" ein Bongo, ein Conga, Claves und Shaker vor.
Ein weiterer Satz von Merkmalen wird aus den rhythmischen Merkmalen des Drum-Scores bzw. Drum-Patterns abgeleitet. Diese Merkmale umfassen musikalisches Tempo, Zeitsignatur, Mikrozeit, etc. Zusätzlich wird ein Maß für die Variation des Auftretens von Kick-Drum-Noten durch Zählen der Anzahl von unterschiedlichen IOI, die in dem Drum-Pattern auftreten, erhalten.
Die Klassifikation des musikalischen Genres unter Verwendung des Drum-Patterns wird unter Verwendung eines Regelbasierten Entscheidungsnetzwerks ausgeführt. Mögliche Genre-Kandidaten werden belohnt, wenn sie eine gegenwärtig untersuchte Hypothese erfüllen, und werden „bestraft", wenn sie Aspekte einer gegenwärtig untersuchten Hypothese nicht erfüllen. Dieser Prozess resultiert in der Auswahl günstiger Merkmalskombinationen für jedes Genre. Die Regeln für eine vernünftige Entscheidung werden aus Beobachtungen re- präsentativer Stücke und aus musikalischer Kenntnis an sich abgeleitet. Werte für Belohnung bzw. Bestrafung werden unter Berücksichtigung der Robustheit des Extraktionskonzepts empirisch eingestellt. Die resultierende Entscheidung für ein bestimmtes musikalisches Genre wird für den Genre- Kandidaten getroffen, der die maximale Anzahl von Belohnungen hat. So wird beispielsweise das Genre Disco erkannt, wenn ein Drum-Set-Typ Disco ist, wenn das Tempo im Bereich zwischen 115 und 132 bpm ist, wenn eine Zeitsignatur 4/4 Bit beträgt und die Mikrozeit gleich 2 ist. Ferner ist ein weiteres Merkmal für das Genre Disco, dass ein Spielstil FS z. B. vorhanden ist, und dass z. B. noch ein weiterer Spielstil vorhanden ist, nämlich das Ereignisse auf jeder Off-Beat-Position auftreten. Ähnliche Kriterien können für andere Genres, wie beispielsweise Hip-Hop, Soul/Funk, Drum and Bass, Jazz/Swing, Rock/Pop, Heavy Metal, Latin, Walzer, Polka/Punk oder Techno aufgestellt werden.
Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Charakterisieren eines Tonsignals in Hardware oder in Software implementiert werden. Die Implementierung kann auf einen digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computer- System zusammenwirken können, dass das Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des Verfahrens, wenn das Computer-Programm-Produkt auf ei- nem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfindung somit als ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computer-Programm auf einem Computer abläuft.

Claims

Patentansprüche
Vorrichtung zum Charakterisieren eines Tonsignals, mit folgenden Merkmalen: einer Einrichtung (10) zum Bereitstellen einer Folge von Einsatzzeitpunkten von Tönen für wenigstens eine Tonquelle; einer Einrichtung (12) zum Ermitteln einer gemeinsamen Periodenlänge, die der wenigstens einen Tonquelle zugrunde liegt, unter Verwendung der wenigstens einen Folge von Einsatzzeitpunkten; einer Einrichtung (14) zum Aufteilen der wenigstens einen Folge von Einsatzzeitpunkten in jeweilige Unterfolgen, wobei eine Länge einer Unterfolgen gleich der gemeinsamen Periodenlänge ist oder von der gemeinsamen Periodenlänge abgeleitet ist; und einer Einrichtung (16) zum Zusammenfassen der Unterfolgen für die wenigstens eine Tonquelle in eine zusammengefasste Unterfolge, wobei die zusammengefasste Unterfolge ein Charakteristikum für das Tonsignal dar- stellt.
2. Vorrichtung nach Anspruch 1, bei der die Einrichtung (10) zum Bereitstellen ausge- bildet ist, um wenigstens zwei Folgen von Einsatzzeitpunkten für wenigstens zwei Tonquellen bereitzustellen, bei der Einrichtung (12) zum Ermitteln ausgebildet ist, um die gemeinsame Periodenlänge für die wenigstens zwei Tonquellen zu ermitteln, bei der die einer Einrichtung (14) zum Aufteilen ausgebildet ist, um die wenigstens zwei Folgen von Einsatzzeitpunkten gemäß der gemeinsamen Periodenlänge aufzuteilen, und bei der die Einrichtung (16) zum Zusammenfassen ausgebildet ist, um die Unterfolgen für die zweite Tonquelle in eine zweite zusammengefasste Unterfolge zusammenzufassen, wobei die erste zusammengefasste Unterfolge und die zweite zusammengefasste Unterfolge das Charakteristikum für das Tonsignal darstellen.
3. Vorrichtung nach Anspruch 1 , bei der die Einrichtung zum Bereitstellen (10) ausgebildet ist, um für jede der zumindest zwei Tonquellen eine Folge von quanti- sierten Einsatzzeitpunkten zu liefern, wobei die Einsatzzeitpunkte bezüglich eines Quantisierungsrasters quantisiert sind, wobei ein Rasterpunktabstand zwischen zwei Rasterpunkten gleich einem kürzesten Abstand zwischen zwei Tönen in dem Tonsignal oder gleich dem größten gemeinsamen Teiler der Dauern von Tönen in dem Musiksignal ist.
4. Vorrichtung nach Anspruch 1, 2 oder 3, bei der die Einrichtung (10) zum Bereitstellen ausgebildet ist, um die Einsatzzeitpunkte von perkussiven Instrumenten, nicht aber Einsatzzeitpunkte von harmonischen Instrumenten zu liefern.
5. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung zum Ermitteln (12) ausgebildet ist, um für jede einer Mehrzahl von hypothetischen gemeinsamen Periodenlängen ein Wahrscheinlichkeitsmaß zu ermitteln, und um die hypothetische gemeinsame Periodenlänge aus der Mehrzahl von hypothetischen gemeinsamen Periodenlängen als gemeinsame Periodenlänge auszuwählen, deren Wahrscheinlichkeitsmaß darauf hinweist, dass die hypothetische gemeinsame Periodenlänge die gemeinsame Periodenlänge für die wenigstens zwei Tonquellen ist.
6. Vorrichtung nach Anspruch 5, bei der die Einrichtung (12) zum Ermitteln ausgebildet ist, um das Wahrscheinlichkeitsmaß auf der Basis eines ersten Wahrscheinlichkeitsmaßes für die erste Tonquelle und auf der Ba- sis eines zweiten Wahrscheinlichkeitsmaßes für die zweite Tonquelle zu ermitteln.
7. Vorrichtung nach Anspruch 5 oder 6, bei der die Einrichtung (12) zum Ermitteln ausgebildet ist, um die Wahrscheinlichkeitsmaße durch einen Vergleich der Folge von Einsatzzeitpunkten mit einer verschobenen Folge von Einsatzzeitpunkten zu berechnen.
8. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (14) zum Aufteilen ausgebildet ist, um für jede Unterfolge eine Liste zu erzeugen, wobei die Liste für jeden Rasterpunkt und für jede Tonquelle eine zugeordnete Information aufweist, die sich darauf bezieht, ob an dem Rasterpunkt ein Einsatzzeitpunkt eines Tons ist oder nicht.
9. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (10) zum Bereitstellen ausgebildet ist, um für jede Tonquelle eine Liste zu erzeugen, wobei die Liste für jeden Rasterpunkt eines Rasters eine zugeordnete Information aufweist, ob an dem Rasterpunkt ein Einsatzzeitpunkt eines Tons ist.
10. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (16) zum Zusammenfassen ausgebildet ist, um als zusammengefasste Unterfolge ein Histogramm zu erzeugen.
11. Vorrichtung nach Anspruch 10, bei der die Einrichtung (16) zum Zusammenfassen ausgebildet ist, um das Histogramm so zu erzeugen, dass jeder Rasterpunkt eines Tonrasters der zusammengefassten Unterfolge einen Histogramm-Bin darstellt.
12. Vorrichtung nach Anspruch 10 oder 11, bei der die Einrichtung (16) zum Zusammenfassen ausgebildet ist, um bei jeder Unterfolge für eine Tonquelle bei Auffinden eines Eintrags einen Zählwert für einen zugeordneten Bin in dem Histogramm zu inkrementieren, oder durch Addition eines durch den Eintrag festgelegten Maßes zu erhöhen, wobei der Eintrag ein Maß für eine Intensität eines Tons ist, der zu dem Einsatzzeitpunkt einen Ein- satz hat.
13. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (16) zum Zusammenfassen ausge- bildet ist, um in der ersten zusammengefassten Unterfolge und der zweiten zusammengefassten ünterfolge lediglich Werte der Unterfolgen als Charakteristikum auszugeben, die oberhalb einer Schwelle sind.
14. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (16) zum Zusammenfassen ausgebildet ist, um die Unterfolgen bezüglich der gemeinsamen Länge zu normieren oder um die erste zusammenge- fasste Unterfolge oder die zweite zusammengefasste Unterfolge bezüglich der gemeinsamen Länge zu normieren.
15. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Einrichtung (10) zum Bereitstellen ausge- bildet ist, um Segmente mit einer einheitlichen rhythmischen Struktur aus einem Audiosignal zu erzeugen, und wobei die Einrichtung (16) zum Zusammenfassen ausge- bildet ist, um das Charakteristikum für ein Segment mit einer einheitlichen rhythmischen Struktur zu erzeugen.
16. Vorrichtung nach einem der vorhergehenden Ansprüche, die ferner folgendes Merkmal aufweist: eine Einrichtung zum Extrahieren eines Merkmals aus dem Charakteristikum für das Tonsignal; und eine Einrichtung zum Bestimmen eines Musik-Genres zu dem das Tonsignal gehört, unter Verwendung des Merkmals .
17. Vorrichtung nach Anspruch 16, bei der die Einrichtung zum Bestimmen ausgebildet ist, um ein Regel-basiertes Entscheidungsnetzwerk, eine Mustererkennungseinrichtung oder einen Klassifikator zu verwenden.
18. Vorrichtung nach einem der vorhergehenden Ansprüche, die ferner eine Einrichtung zum Extrahieren eines Tempos aus dem Charakteristikum aufweist.
19. Vorrichtung nach Anspruch 18, bei der die Einrichtung zum Extrahieren ausgebildet ist, um das Tempo auf der Basis der gemeinsamen Periodenlänge zu bestimmen.
20. Verfahren zum Charakterisieren eines Tonsignals, mit folgenden Schritten:
Bereitstellen (10) einer Folge von Einsatzzeitpunkten von Tönen für wenigstens eine Tonquelle; Ermitteln (12) einer gemeinsamen Periodenlänge, die der wenigstens einen Tonquelle zugrunde liegt, unter Verwendung der wenigstens einen Folge von Einsatzzeitpunkten; Aufteilen (14) der wenigstens einen Folge von Einsatzzeitpunkten in jeweilige Ünterfolgen, wobei eine Länge einer Unterfolgen gleich der gemeinsamen Periodenlänge ist oder von der gemeinsamen Periodenlänge abgeleitet ist; und
Zusammenfassen (16) der Unterfolgen für die wenigstens eine Tonquelle in eine zusammengefasste Unterfolge, wobei die zusammengefasste Unterfolge ein Charakteristikum für das Tonsignal darstellt.
21. Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens gemäß Patentanspruch 20, wenn das Computer-Programm auf einem Computer abläuft.
PCT/EP2005/004517 2004-05-07 2005-04-27 Vorrichtung und verfahren zum charakterisieren eines tonsignals WO2005114650A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE502005000658T DE502005000658D1 (de) 2004-05-07 2005-04-27 Vorrichtung und verfahren zum charakterisieren eines tonsignals
JP2007511960A JP4926044B2 (ja) 2004-05-07 2005-04-27 音信号の特徴を記述する装置および方法
EP05735854A EP1671315B1 (de) 2004-05-07 2005-04-27 Vorrichtung und verfahren zum charakterisieren eines tonsignals

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102004022659.8 2004-05-07
DE200410022659 DE102004022659B3 (de) 2004-05-07 2004-05-07 Vorrichtung zum Charakterisieren eines Tonsignals

Publications (1)

Publication Number Publication Date
WO2005114650A1 true WO2005114650A1 (de) 2005-12-01

Family

ID=34965834

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2005/004517 WO2005114650A1 (de) 2004-05-07 2005-04-27 Vorrichtung und verfahren zum charakterisieren eines tonsignals

Country Status (4)

Country Link
EP (1) EP1671315B1 (de)
JP (1) JP4926044B2 (de)
DE (2) DE102004022659B3 (de)
WO (1) WO2005114650A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019026236A1 (ja) * 2017-08-03 2019-02-07 Pioneer DJ株式会社 楽曲解析装置および楽曲解析プログラム
US11205407B2 (en) 2017-08-29 2021-12-21 Alphatheta Corporation Song analysis device and song analysis program
CN108257588B (zh) * 2018-01-22 2022-03-01 姜峰 一种谱曲方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6201176B1 (en) * 1998-05-07 2001-03-13 Canon Kabushiki Kaisha System and method for querying a music database
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
DE10157454B4 (de) * 2001-11-23 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Erzeugen einer Kennung für ein Audiosignal, Verfahren und Vorrichtung zum Aufbauen einer Instrumentendatenbank und Verfahren und Vorrichtung zum Bestimmen der Art eines Instruments
JP2004029274A (ja) * 2002-06-25 2004-01-29 Fuji Xerox Co Ltd 信号パターン評価装置、信号パターン評価方法及び信号パターン評価プログラム

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FOOTE J: "Automatic audio segmentation using a measure of audio novelty", MULTIMEDIA AND EXPO, 2000. ICME 2000. 2000 IEEE INTERNATIONAL CONFERENCE ON NEW YORK, NY, USA 30 JULY-2 AUG. 2000, PISCATAWAY, NJ, USA,IEEE, US, vol. 1, 30 July 2000 (2000-07-30), pages 452 - 455, XP010511494, ISBN: 0-7803-6536-4 *
GOTO M ET AL: "Real-time beat tracking for drumless audio signals: Chord change detection for musical decisions", SPEECH COMMUNICATION, ELSEVIER SCIENCE PUBLISHERS, AMSTERDAM, NL, vol. 27, no. 3-4, April 1999 (1999-04-01), pages 311 - 335, XP004163257, ISSN: 0167-6393 *
GRUHNE, UHLE, DITTMAR, CREMER: "EXTRACTION OF DRUM PATTERNS AND THEIR DESCRIPTION WITHIN THE MPEG-7 HIGH LEVEL FRAMEWORK", INTERNATIONAL CONFERENCE ON MUSIC RETRIEVAL, ISMIR 2004, 10 October 2004 (2004-10-10) - 14 October 2004 (2004-10-14), Barcelona, pages 1 - 4, XP002335839, Retrieved from the Internet <URL:http://www.iua.upf.es/mtg/ismir2004/review/CRFILES/paper167-2b0ad1536922cd780a9bb9d2385e4f44.pdf> [retrieved on 20050713] *
PAULUS, KLAPURI: "MODEL-BASED EVENT LABELING IN THE TRANSCRIPTION OF PERCUSSIVE AUDIO SIGNALS", INTERNATIONAL CONFERENCE ON DIGITAL AUDIO EFFECTS DAFX-03, 8 November 2003 (2003-11-08), LONDON, pages 1 - 5, XP002335840 *
UHLE C ET AL: "Estimation of Tempo, Micro Time and Time Signature from Percussive Music", PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON DIGITAL AUDIO EFFECTS, 8 September 2003 (2003-09-08) - 11 September 2003 (2003-09-11), London, pages 1 - 6, XP002321810 *

Also Published As

Publication number Publication date
EP1671315B1 (de) 2007-05-02
JP2007536586A (ja) 2007-12-13
DE102004022659B3 (de) 2005-10-13
DE502005000658D1 (de) 2007-06-14
EP1671315A1 (de) 2006-06-21
JP4926044B2 (ja) 2012-05-09

Similar Documents

Publication Publication Date Title
US7273978B2 (en) Device and method for characterizing a tone signal
Mitrović et al. Features for content-based audio retrieval
EP1371055B1 (de) Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion
EP2351017B1 (de) Verfahren zur erkennung von notenmustern in musikstücken
EP1523719A2 (de) Vorrichtung und verfahren zum charakterisieren eines informationssignals
DE60315880T2 (de) Datenerzeugungseinrichtung und verfahren für musikkompositionen
WO2002084641A1 (de) Verfahren zum überführen eines musiksignals in eine noten-basierte beschreibung und zum referenzieren eines musiksignals in einer datenbank
DE10123366C1 (de) Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen
DE102004028693B4 (de) Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
EP1671315B1 (de) Vorrichtung und verfahren zum charakterisieren eines tonsignals
EP1377924B1 (de) VERFAHREN UND VORRICHTUNG ZUM EXTRAHIEREN EINER SIGNALKENNUNG, VERFAHREN UND VORRICHTUNG ZUM ERZEUGEN EINER DAZUGEHÖRIGEN DATABANK und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals
Tzanetakis et al. Subband-based drum transcription for audio signals
DE112020002116T5 (de) Informationsverarbeitungsvorrichtung und Verfahren und Programm
Bader Neural coincidence detection strategies during perception of multi-pitch musical tones
EP1743324B1 (de) Vorrichtung und verfahren zum analysieren eines informationssignals
Tjahyanto et al. Gamelan instrument sound recognition using spectral and facial features of the first harmonic frequency
Wang et al. The analysis and comparison of vital acoustic features in content-based classification of music genre
Morman et al. A system for the automatic segmentation and classification of chord sequences
Uhle et al. Generation of musical scores of percussive un-pitched instruments from automatically detected events
Pérez Fernández et al. A comparison of pitch chroma extraction algorithms
Krusche Visualization and auralization of features learned by neural networks for musical instrument recognition
DE102006014507B4 (de) Verfahren und Vorrichtung zur Klassifikation und Beurteilung von Musikinstrumenten gleicher Instrumentengruppen
Kusaka et al. ONSET-INFORMED SOURCE SEPARATION USING NON-NEGATIVE MATRIX FACTORIZATION WITH BINARY MASKS
Vogl et al. NEURAL NETWORKS FOR DRUM TRANSCRIPTION
Nam et al. Automatic Music Style Classification: towards the detection of perceptually similar music

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005735854

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2005735854

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2007511960

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWG Wipo information: grant in national office

Ref document number: 2005735854

Country of ref document: EP