WO2005122137A1 - Vorrichtung und verfahren zum bestimmen eines einem audiosignal zugrunde liegenden frequenzrasters - Google Patents

Vorrichtung und verfahren zum bestimmen eines einem audiosignal zugrunde liegenden frequenzrasters Download PDF

Info

Publication number
WO2005122137A1
WO2005122137A1 PCT/EP2005/004679 EP2005004679W WO2005122137A1 WO 2005122137 A1 WO2005122137 A1 WO 2005122137A1 EP 2005004679 W EP2005004679 W EP 2005004679W WO 2005122137 A1 WO2005122137 A1 WO 2005122137A1
Authority
WO
WIPO (PCT)
Prior art keywords
frequency
audio signal
raster
audio
grid
Prior art date
Application number
PCT/EP2005/004679
Other languages
English (en)
French (fr)
Inventor
Claas Derboven
Sebastian Streich
Markus Cremer
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Publication of WO2005122137A1 publication Critical patent/WO2005122137A1/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H3/00Instruments in which the tones are generated by electromechanical means
    • G10H3/12Instruments in which the tones are generated by electromechanical means using mechanical resonant generators, e.g. strings or percussive instruments, the tones of which are picked up by electromechanical transducers, the electrical signals being further manipulated or amplified and subsequently converted to sound by a loudspeaker or equivalent instrument
    • G10H3/125Extracting or recognising the pitch or fundamental frequency of the picked up signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental

Definitions

  • the present invention relates to the technical field of audio signal processing, and in particular the present invention relates to the determination of a frequency grid on which an audio signal is based, the frequency grid defining the spectral position of semitones of the grading scale and thereby tuning or detuning an audio signal in terms of an exact mood is possible.
  • Time-frequency domain transformations such as the Fourier transformation, the wavelet transformation and the like are usually used to analyze a piece of music or a corresponding audio signal.
  • a time domain signal such as an audio signal in the time domain representation
  • the transformations being used to analyze which spectral components of the transformation are the basis.
  • the basic functions are contained in the audio signal.
  • a disadvantage of using the Fourier-based transformations is the equidistant spacing of the individual examination frequencies, ie the frequency grid on which the Fourier-based transformation is based.
  • a transformation that can perform such a mapping is, for example, the Constant Q Transform, as described in Judith C.
  • Constant Q transformation CQT is presented here, which, similar to a Fourier transformation, represents a signal provided in a time domain representation implements a frequency range representation, whereby in contrast to Fourier-based transformations, a logarithmic and therefore non-linear frequency grid is used as the basis for the CQT.
  • the letter Q denotes the ratio of a frequency to a bandwidth, ie the ratio of a frequency to the next adjacent frequency of the (logarithmic) non-linear frequency grid on which the CQT is based. Since the western grading scale is also based on such a logarithmic non-linear frequency grid, the CQT can be used very well for the detection of tones or semitones in an audio signal. The use of the CQT is particularly favored by the fact that the semitone distance between the individual semitones in the various octaves of the grading scale is becoming increasingly larger, i.e.
  • a semitone distance in the range of the chamber tone at 440 hearts is smaller than a semitone distance in an octave above the chamber tone a '.
  • the CQT is therefore of particular interest for the detection of tones occurring in the audio signal, it also being possible for the CQT to determine octave information of the tone that occurred.
  • the use of the CQT is problematic if, firstly, the frequency grid on which the CQT is based deviates slightly from the frequency grid of the actual grading scale. This can result, for example, from a mismatch in the filter coefficients of the CQT.
  • the filter coefficients for the CQT ensure the specific frequency resolution of the CQT, ie the exact location of the examination frequencies or the frequency grid of the CQT. It should be noted here that for each filter coefficient set either a minimum frequency f mn is specified, on the basis of which the further frequencies of the frequency grid on which the CQT is based, for example by the one mentioned in Judith C.
  • a further, second aspect can be seen in the fact that, for example, the chamber tone a 'is at 440 hearts, but that, for example due to artistic freedom, an orchestra for its interpretation of pieces of music has the chamber tone a' at an "own" chamber tone frequency of 444, for example Heart lays.
  • the problems described above also result in this case, since the coefficient set, on the basis of which the frequency grid of the CQT was "calibrated", has grid frequencies at the "correct" semitone frequencies according to the grading scale, but due to the arbitrary "detuning" of the chamber tone by the orchestra, a mismatch again results.
  • the object of the present invention to create a possibility for determining the frequency grid on which an audio signal is based, the frequency grid on which the audio signal is based being determined in a numerically simple and quick manner.
  • This object is achieved by a device for determining a frequency grid on which an audio signal is based, and a method for determining a frequency grid on which an audio signal is based.
  • the present invention provides a device for determining a frequency grid on which an audio signal is based, having the following features:
  • each frequency raster being associated with a different mood
  • the means for comparing being designed to determine the frequency raster that best matches the tone frequency
  • the present invention provides a method for determining a frequency grid on which an audio signal is based, with the following steps: Determining a frequency estimate of a tone occurring in the audio signal;
  • each frequency raster being assigned to a different mood, in order to determine by comparison the frequency raster that best matches the tone frequency.
  • the present invention is based on the knowledge that it is possible to determine a frequency grid on which an audio signal is based by first determining a frequency estimate of a frequency of a tone occurring in the audio signal and then using the frequency estimate and the audio signal to determine a frequency that is more accurate compared to the frequency estimate Tone frequency of the sound occurring in the audio signal is calculated. Then, knowing the more exact sound frequency, it can be compared which frequency grid best matches the sound frequency, ie which frequency grid has, for example, a grid frequency that comes closest to the sound frequency.
  • the predetermination of the frequency estimate can be carried out, for example, by a Fourier-based transformation with 256 support points or a numerical conversion of a time-domain signal into a frequency-domain representation in a simple manner compared to conventional approaches for determining an exact frequency.
  • the more precise audio frequency can then be calculated from the “non-precise” frequency estimate for the tone occurring in the audio signal, which result from the numerically simple implementation, which can be achieved, for example, by using the frequency estimate, the audio signal and a version of the derived, ie different limited audio signal.
  • Such a calculation in turn enables a numerically simple procedure compared to the prior art.
  • the determination of the frequency grid that best matches the more exact tone frequency can also be carried out, for example, by a simple comparison operation in the form of a subtraction.
  • the present invention thus offers the advantage of creating a possibility of determining a frequency grid on which an audio signal is based, compared to the prior art, by numerically simple, and thus also quickly executable operations, as a result of which the proposed approach can also be carried out cost-effectively.
  • the frequency raster can comprise a number of raster frequencies which are arranged in a non-linear scaling on the frequency axis, with a spectral distance between a first raster frequency and a second raster frequency adjacent to the first raster frequency within a predetermined tolerance range of a semitone distance between two halftones adjacent to one another in a region around the first raster frequency corresponds to a grading scale, and the device is designed for comparison in order to determine a spectral distance between a raster frequency and the tone frequency.
  • the means (106) is designed for comparison to determine that raster frequency of the first, second or third frequency raster that has a raster frequency that has a smaller spectral spacing to the tone frequency as a raster frequency of another one of the first, second or third frequency raster.
  • Such a provision offers the advantage that it is not necessary to examine an arbitrarily high number of frequency grids with different grid frequencies, but rather that a number of three frequency grids, which either have grid frequencies on the exact halftone frequencies of the grading scale, or their grid frequencies by one Third semitones shifted spectrally higher or lower are sufficient for a sufficiently precise classification of the frequency grid on which an audio signal is based.
  • the device (102) can be designed to determine a conversion of a segment of the audio signal into the frequency range in order to obtain an audio frequency range signal, a first frequency value of the audio frequency range signal being assigned and A second frequency value of the audio frequency range signal is assigned a second amplitude value and the device for determining is further configured to determine the first frequency as a frequency estimate of the sound that has occurred in the audio signal if the first amplitude value is greater than the second amplitude value.
  • An embodiment of the present invention designed in this way enables a very simple detection of a tonal component occurring in an audio signal on the basis of a “peak” occurring at a frequency in the spectral range.
  • the device for determining can also be designed to determine the first frequency as a frequency estimate if the first amplitude value is greater than a predefined threshold value or a quotient of the first and second amplitude values is greater than the predefined threshold value , This offers the advantage of a clear and certain decision about the presence of a tonal component at the frequency with the larger amp value.
  • the means for calculating can be designed to calculate a differentiated version of the segment of the audio signal from a segment of the audio signal, to convert the differentiated version of the audio signal into the frequency range in order to obtain a differentiated audio frequency range signal and to calculate the compared to the frequency estimate more accurate tone frequency based on the audio frequency range signal, the differentiated audio frequency range signal and the frequency estimate.
  • Such a procedure enables the calculation of an audio frequency that is significantly more accurate than the frequency estimate by numerically simple calculation steps.
  • the device for determining and the device for calculating can be designed to convert the segment of the audio signal into the frequency domain in the same way as converting the differentiated version of the segment of the audio signal into the frequency domain.
  • This offers the advantage that a numerically efficient implementation of a conversion rule of a time domain signal into a frequency domain signal can continue to be used and that disruptive effects such as windowing effects in a Fourier-based transformation have the same effect on the audio frequency domain signal and the differentiated audio frequency domain signal and the subsequent processing - device of the two signals can be substantially compensated.
  • the device can be designed to determine a plurality of audio signal sub-segments from the audio signal and to determine a frequency estimate of the tone occurring in the audio sub-signal segment for each audio sub-signal segment, the device being designed to calculate an im for each audio signal sub-segment To calculate the exact tone frequency of the tone occurring in the audio signal sub-segment compared to the frequency estimate, and wherein the means for comparing is further designed to determine the frequency grid on the basis of the plurality of the more accurate tone frequencies.
  • the means for calculating can be designed to define a first class of sound frequencies, a second class of sound frequencies and a third class of sound frequencies, the sound frequencies of the first class having a raster frequency in a first spectral range of the first frequency grid, the sound frequencies of the second class are in a second spectral range with a grid frequency of the second frequency grid and the sound frequencies of the third class are in a third spectral range with a grid frequency of the third frequency grid, the spectral ranges of the first, second and third class do not overlap, the device being further configured to determine a frequency of occurrence of sound frequencies in each of the first, second or third class, and the device being designed to compare that frequency to determine the frequency grid that has a grid frequency in the class in which most sound frequencies have occurred.
  • the device for determining can be designed to determine 10 audio signal sub-segments from the audio signal. This has the advantage that a classification is possible even with a number of 10 audio signal sub-segments, which leads to a sufficient, i.e. leads to a sufficiently high probability of a correct classification of the correct frequency grid.
  • a coefficient set that uniquely defines the frequency grid can be assigned to each frequency grid, the device also having the following features:
  • coefficient sets for an implementation rule can already be calculated in advance for different frequency grids, which is numerically complex. These sets of coefficients can then be selected in a simple manner by determining the frequency grid on which the audio signal is based in order to carry out the conversion of the audio signal into the frequency range.
  • the device for determining can be designed to carry out the conversion of the segment of the audio signal using a first conversion algorithm and in which the device is designed for converting the audio signal into the frequency range is to carry out the conversion using a second conversion algorithm, wherein the execution of the first conversion algorithm requires less numerical effort than the execution of the second conversion algorithm.
  • FIG. 1 shows a block diagram of an exemplary embodiment of the device according to the invention for determining a frequency grid on which an audio signal is based;
  • FIG. 4 shows a flowchart of an exemplary embodiment of the method according to the invention for determining a frequency grid on which an audio signal is based.
  • the device 100 has a device 102 for ascertaining a frequency estimate of a tone occurring in the audio signal, a device 104 for calculating a tone frequency of the tone occurring in the audio signal that is more accurate compared to the frequency estimate, and a device 106 for comparing the tone frequency with a plurality of frequency grids ,
  • the device 102 for determining has an input for receiving an audio signal 108 and a first output 110 for outputting the determined frequency estimate and a second output 111 for outputting the audio signal (ie the audio signal present at input 108 is used at the second output 111 of the device Determine spent again).
  • the device 104 for calculation has an input 112 for receiving the estimated value output by the device 102 for determining and a second input 113 for receiving the audio signal output by the device 102 for determining. Furthermore, the device 104 for calculating has an output 114 for outputting the calculated audio frequency f p .
  • the device 106 for comparing the audio frequency f p with a plurality of frequency grids has an input 116 for receiving the audio frequency f p calculated by the device 104 for calculating and an output 118 for outputting the frequency grid determined by the device 106 for comparison.
  • an audio signal or an audio signal segment is input via the input 108 of the device 102 for determining a frequency estimate of a tone occurring in the audio signal fed.
  • the audio signal (preferably in the time domain) is then converted into the frequency domain, for example using a Fourier transform or the like (for example a wavelet transform).
  • the frequencies occurring in the audio signal are mapped on a frequency scale or frequency axis by the transformation, mostly for the sake of simplicity, in a linear scaling.
  • the device 102 for ascertaining thus first determines from the audio signal a frequency estimate of a tone occurring in the audio signal, which reproduces the approximate position of a tone occurring in the audio signal on the frequency axis.
  • This determined frequency estimate is then transmitted via the output 110 of the device 102 for determination to the device 104 for calculation via its input 112. Furthermore, the audio signal itself is also passed on from the device 102 for determining to the device 104 for calculating. In the device 104 for calculating a sound frequency, which is more exact than the frequency estimate, of the sound occurring in the audio signal, the sound frequency can then be calculated on the basis of an algorithm, as described, for example, in the article by M. Desainte-Catherine and S. Marchand: "High -Precision Fourier Analysis of Sounds Using Signal Derivatives ", published in: Journal of Acoustic Engineering Society, 48 (7), July / August 2000.
  • Such an approach uses the frequency estimate and the audio signal to determine the (in Comparison to the frequency estimate (more exact) tone frequency f p of the tone occurring in the audio signal, which is output via the output 114 of the device 104 for calculation.
  • the audio frequency f p which is now present at the output 114 of the device 104 for calculation, is fed to the device 106 for comparison via its input 116, the device 106 for comparison now determining, for example using a plurality of provided frequency grids, the frequency grid which best matches the more exact tone frequency.
  • This determination of the frequency raster that best matches the more accurate audio frequency can be done, for example, by comparing individual raster frequencies of the different frequency rasters with the audio frequency f p (for example in the form of a subtraction of a raster frequency value from a value of the audio frequency f p ), whereby then that frequency raster is selected that has a raster frequency that has the smallest spectral distance from the audio frequency f p .
  • That frequency raster can be selected, for example, whose raster frequency takes a value when subtracted with the audio frequency f p , which is closer to the value 0 than all other values at a comparable subtraction from a raster frequency with the tone frequency f p can be obtained.
  • the raster frequency determined in this way can then be output at the output 118 of the device 106 for comparison.
  • FIG. 2 shows a possibility of determining a frequency estimate of a tone occurring in the audio signal.
  • a diagram is shown in each of FIGS. 2A to 2C, the frequency being plotted on the abscissa and the amplitude of the audio signal segment at the corresponding frequency being plotted on the ordinate.
  • a frequency component fi has a tonal component, which is shown by the clear “peak” (or peak value) in the amplitude spectrum an amplitude spectrum as shown in FIG. 2B, a clear statement regarding a tonal component at the frequency fi is not possible, since the amplitude profile on the left side of the frequency fi is lower than at the frequency fi and on the right side of the frequency fi higher amplitude values than In such a case, for example, a tonal component would have to be assumed at the frequency f 2 , since this has a “peak” in the amplitude spectrum (although not so clearly defined). In contrast, it is shown in FIG.
  • a tonal component In order to be able to make a clearer decision about the presence of a tonal component, additional criteria can also be determined whether a tonal component is present or not, for example a quotient condition, such that an amplitude value, for example the amplitude value at frequency fi, is divided by a further amplitude value at another frequency, thus forming a quotient are compared with a predetermined threshold value and if the quotient is exceeded above the predetermined threshold value, it is concluded that a tonal component is present. tients below the predetermined threshold can be concluded that there is no tonal component at frequency fi. In this case, amplitude spectrum profiles as shown in FIG. 2B can also be better evaluated.
  • a quotient condition such that an amplitude value, for example the amplitude value at frequency fi, is divided by a further amplitude value at another frequency, thus forming a quotient are compared with a predetermined threshold value and if the quotient is exceeded above the predetermined
  • the amplitude value at the frequency f x can also be subjected to a threshold-based examination, in which case the above is no longer valid for the quotient but directly for the amplitude value at the frequency fi. Accordingly, a changed decision threshold may have to be applied accordingly.
  • a plurality of (for example successive) audio signal segments can be examined, the segments then being converted individually from the time domain into the frequency domain and in one Matrix structure the amplitude spectrum, ie the assignment of amplitude values to frequencies can be determined over the time range.
  • the rows of the matrix can then correspond in frequencies to the frequencies predetermined by the time domain-frequency domain transformation, the columns corresponding to the individual audio segments.
  • a smoothing with a low-pass filter can also be carried out in the matrix with the transformed signal, and a search can also optionally be carried out continuous rising chains are carried out, which then, for example, a minimum gene criterion for the appearance of a tonal component in the audio signal.
  • a minimum gene criterion for the appearance of a tonal component in the audio signal can be carried out, which then, for example, a minimum gene criterion for the appearance of a tonal component in the audio signal.
  • the occurrence of a tonal component can furthermore be recognized when a time duration of an occurrence of a tonal component lies above a temporal minimum length threshold for the corresponding tone.
  • the device 104 for calculating the more precise audio frequency uses the Fourier transform of the audio signal segment or the audio signal, a Fourier transform of the derived (ie differentiated) audio signal segment or the derived audio signal is used in each case at the location of the frequency estimate.
  • phase information from the audio signal segment or the audio signal can thus be taken into account and thus a more precise tone frequency f p can be determined than the frequency estimate for the tone occurring in the audio signal.
  • the audio frequency f p which is more exact than the estimated frequency value, can now be used to determine a frequency grid from a plurality of frequency grids.
  • a plurality of frequency grids is represented, for example, by the frequency grids with the frequencies f_, f, f + in FIG. 3.
  • the frequency grid with the frequencies f denotes the spectral position of the exact halftone frequencies of the western grading scale.
  • the frequency fi shown in FIG. 3 characterizes the chamber tone a 'which has a frequency of 440 hearts.
  • the raster frequency f 0 then characterizes a semitone of the grading scale, which has a lower frequency than the chamber tone a 1 .
  • Demge- gen undergraduate is the frequency spacing shown in Fig. 3 • with the raster frequency f_ respect to the frequency raster with the raster frequencies f spectrally slightly offset.
  • the raster frequencies f_ have a slightly lower frequency than the raster frequencies f, which corresponds, for example, to a third semitone step (ie the raster frequencies f_ are shifted by -33 cents from the raster frequencies f). This then means that, for example, the frequency f ⁇ _ a frequency of 431.6 Hz, the raster frequency f 0 - has a value of 407.0 Hz and the raster frequency of f 2 _ has a value of 457.3 Hz.
  • the frequency raster with the raster frequencies f + has a positive spectral offset compared to the frequency raster with the raster frequencies f, for example also by a third semitone step, ie by +33 cents.
  • the three frequency grids are in a predetermined relationship, namely that the frequency grid with the grid frequencies f_ is shifted by -33 cent compared to the frequency grid with the grid frequencies f of the exact halftone frequency (ie the grid frequency is 0 cent), while the frequency grid with the grid frequencies f + is shifted by +33 cent compared to the frequency grid with the Raster frequencies f is shifted.
  • the frequency f p is now determined as the exact tone frequency, a statement can first be made that the exact tone frequency of a tone occurring in the audio signal or the audio signal segment does not match the normalized halftone frequency of a semitone of the grading scale. Rather, the more exact tone frequency lies slightly above the frequency of the chamber tone a 'of 440 hearts.
  • the exact tone frequency f p can now be compared with the raster frequencies of the corresponding frequency rasters. It is then determined here that the raster frequencies f ⁇ _, fi and f 1+ are the raster frequencies that are closest to the exact tone frequency f p for each frequency raster. If the tone frequency f p is now compared with each of the three raster frequencies f ⁇ _, fi and f ⁇ + , it can further be determined that the raster frequency fi of the frequency raster with the raster frequencies f is closest to the exact tone frequency f p .
  • the raster frequency with the raster frequencies f can be determined as the frequency raster that best matches the exact tone frequency f p .
  • more than three frequency grids can also be used, which need not have a symmetrical distance of + 33 cents from each other. It turns out, however, that a determination necessary for a determination of harmonies or chords of tones or semitones that have occurred in an audio signal is possible with sufficient accuracy by means of the three frequency grids shown in FIG. 3, whereby a numerical effort takes into account only three frequency grids can be optimized to determine the semitones occurring in the audio signal.
  • the raster frequencies of the three frequency rasters shown in FIG. 3 can be achieved, for example, as center frequencies in a constant Q transform (CQT) which has a non-linear frequency scaling on the frequency axis.
  • CQT constant Q transform
  • it is therefore necessary first to "calibrate" the CQT, so to speak, in order to determine the frequency grid, which is the center frequency of the non-linear time-frequency domain transformation on which the CQT is based Are defined. It must be taken into account here that a separate set of CQT coefficients must be determined in advance for each frequency grid.
  • This coefficient set corresponding to the frequency grid then enables the audio signal to be resolved into those grid frequencies which form the frequency grid corresponding to the coefficient set when using the CQT.
  • a spectral resolution of the audio signal into the center frequencies f 0 -, fi, f 2 -, etc. can be carried out by a first coefficient set, while a spectral resolution of the audio signal can be carried out by the CQT for a second coefficient set into the center frequencies fo, fi, f 2 , ...
  • a spectral resolution of the audio signal in the frequencies fo + , f ⁇ + , f 2+ , etc. perform.
  • the calculation rule of the CQT remains the same; only a different set of coefficients is used in the execution of the CQT.
  • This different set of coefficients, the length of filter windows N [k] for the CQT or a minimum Initialtechnischsfrequenzwert f m ⁇ n can be examples of play for the arrangement of the screen frequencies on the frequency axis.
  • the present approach can thus use a numerically easy-to-implement determination of a frequency estimate, a subsequent determination of a more exact tone frequency on the basis of the frequency estimate and the audio signal and the here subsequent "calibration", ie the selection of a suitable set of coefficients for the CQT, a significant reduction in the numerical effort for such a calibration can be realized, the procedure described at the same time the tone frequency can be precisely determined and the initialization or "calibration" of the CQT can be carried out more quickly than with other initials
  • This significant numerical simplification results in particular from the fact that when determining the frequency estimate a Fourier-based transformation (for example an FFT or an STFT) can be used, which can be carried out particularly efficiently numerically, while a CQT represents the frequencies of the Audio signal in a non-linear representation is possible, but this can only be done with a high numerical effort.
  • a Fourier-based transformation for example an FFT or an STFT
  • the calculations of the more precise audio frequency f p can be further optimized.
  • a definite determination of the exact tone frequency of the tone contained in the audio signal may not be 100% conclusive, since the The duration of the audio signal segment used for the transformation is too short.
  • This problem can be alleviated, for example, by statistically verifying the occurrence of the calculated more accurate audio frequency f p .
  • a frequency estimated value is determined in, for example, 10 consecutive segments of the audio signal and an audio frequency f p is determined from this in conjunction with the corresponding audio signal segment for each audio signal segment.
  • each frequency class comprising one of the raster frequencies f 1, f x or f i + shown in FIG. 3 and each of these three raster frequencies corresponding to a different class, ie to a spectral section on the frequency axis corresponding to the class.
  • the determined more exact sound frequencies f p are now classified in such a way that a frequency of occurrence of sound frequencies f p is counted in each class.
  • the frequency grid is selected whose grid frequency is in the class in which the sound frequencies f p calculated from the 10 audio signal segments also occurred most frequently.
  • FIG. 4 shows a flow chart of an exemplary embodiment of the method 400 according to the invention for determining a frequency grid on which an audio signal is based.
  • the method shown in FIG. 4 comprises, in a first step, determining 402 an estimated frequency value of a sound occurring in the audio signal.
  • This determination 402 can, as was explained above, using a numerically efficient time-frequency domain conversion method, such as, for example, ner FFT or STFT.
  • a frequency estimate can be determined by the “peak picking” method, which is also specified above.
  • This frequency estimate is used in a subsequent step of calculating 404 a tone frequency of the tone that has occurred in the audio signal that is more accurate than the frequency estimate and, for example, from this the method described above by M.
  • Desainte-Catherine calculates a tone frequency f p .
  • the calculated tone frequency f p is compared 406 with a plurality of different frequency grids in order to determine the frequency grid that best matches the more exact one Tone frequency matches.
  • the method according to the invention for determining a frequency grid on which an audio signal is based can be implemented in hardware or in software.
  • the implementation can take place on a digital storage medium, in particular a floppy disk or CD with electronically readable control signals, which can interact with a programmable computer system in such a way that the corresponding method is carried out.
  • the invention thus also consists in a computer program product with a program code stored on a machine-readable carrier for carrying out the method according to the invention when the computer program product runs on a computer.
  • the invention can thus be implemented as a computer program with a program code for carrying out the method if the computer program runs on a computer.
  • the semitones in the frequency domain must be reproduced as accurately as possible.
  • an estimate for the "mismatch solution "of the frequency grid on which the audio signal is based in order to ensure that the tonal components match as well as possible to the center frequencies of the spectral conversion of the audio signal from the time domain to the frequency domain.
  • the tonal components that occur can be recognized by the Peak picking methods explained in more detail above are carried out from a STFT amplitude spectrum, from which a frequency estimate for a tone occurring in the audio signal can be determined.
  • This estimated frequency value can then be used to calculate an exact frequency f p corresponding to the estimated frequency value, this calculating the exact frequency using a transformed derived (ie differentiated) signal, as is done, for example, by M. Desainte -Catherine proposed procedure is possible.
  • a "detuning factor" can then be determined for each of these exact tone frequency values and a histogram can be created for 10 successive time frames (or time segments) of the audio signal segment. In this case, a time span of 1.4 seconds is covered approximately by the 10 frames of the audio signal segments, a sound occurring in the audio signal being recognizable with high probability within this time span.
  • a maximum can then be recognized from the histogram, which indicates which of, for example, three sets of coefficients is to be used for a subsequent transformation with, for example, the CQT method.
  • a first set of coefficients is designed in such a way that it is tuned to a center frequency of exactly 440 hearts (ie its tuning is tuned to an exact frequency of 440 Hz ⁇ 0 cent)
  • a second set of coefficients is tuned, for example, 33 cents lower
  • a third set of coefficients is tuned in such a way that raster frequencies that are 33 cents above the raster frequencies of the first coefficient set can be realized with this third coefficient set.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Stereophonic System (AREA)

Abstract

Eine Vorrichtung (100) zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters umfasst eine Einrichtung (102) zum Ermitteln eines Frequenzschätzwertes eines in dem Audiosignal auftretenden Tones und eine Einrichtung (104) zum Berechnen einer im Vergleich zum Frequenzschätzwert exakteren Tonfrequenz (fp) des in dem Audiosignal auftretenden Tons unter Verwendung des Frequenzschätzwertes und des Audiosignals. Ferner umfasst die Vorrichtung (100) zum Bestimmen eine Einrichtung (106) zum Vergleichen der Tonfrequenz mit einer Mehrzahl von unterschiedlichen Frequenzrastern, wobei jedes Frequenzraster einer anderen Stimmung zugeordnet ist, wobei die Einrichtung (106) zum Vergleichen ausgebildet ist, um das Frequenzraster zu bestimmen, das mit der Tonfrequenz am besten übereinstimmt. Hierdurch ist es möglich, auf numerisch effiziente und schnelle Weise ein Frequenzraster zu ermitteln, dem ein Audiosignal zugrunde liegt.

Description

Vorrichtung und Verfahren zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters
Beschreibung
Vorrichtung und Verfahren zum Bestimmen eines einem Audiosignal zugrundeliegenden Frequenzrasters
Die vorliegende Erfindung bezieht sich auf das technische Gebiet der Audiosignalverarbeitung und insbesondere bezieht sich die vorliegende Erfindung auf die Bestimmung eines einem Audiosignal zugrunde liegenden Frequenzrasters, wobei durch das Frequenzraster die spektrale Lage von Halbtönen der Notenskala definiert ist und hierdurch eine Stimmung bzw. Verstimmung eines Audiosignals in bezug auf eine exakte Stimmung möglich ist.
Um mit Hilfe von technischen Mitteln eine Harmonie oder Klanginformation aus einem Musikstück bzw. einem Audiosig- nal mit Musikinformationen zu erkennen, ist es zunächst notwendig, dass mit Hilfe von technischen Hilfsmitteln exakt bestimmt werden kann, welche Frequenzen innerhalb des Musikstücks auftreten. Hierbei ist es besonders wichtig, auf eine exakte Stimmung der Analysehilfsmittel oder -Werkzeuge zu achten, da bereits bei einer kleinen FehlStimmung des Analysewerkzeugs bereits eine fehlerhafte Erkennung der dem Musikstück zugrunde liegenden Harmonien o- der Akkorde resultiert.
Meist werden zur Analyse eines Musikstücks bzw. eines entsprechenden Audiosignals Zeit-Frequenzbereichstransformationen wie die Fourier-Transformation, die Wavelet-Trans- for ation und ähnliches verwendet. Bei derartigen Transformationen wird ein Zeitbereichssignal, wie beispielsweise eines in Zeitbereichsdarstellung vorliegendes Audiosignal, in den Frequenzbereich transformiert oder umgesetzt, wobei durch die Transformationen eine Analyse erfolgt, welche spektralen Anteile von der Transformation, zugrunde liegen- den Basisfunktionen in dem Audiosignal enthalten sind. Hierbei wird insbesondere häufig die Fourier-Transformation oder deren numerisch effizientere Variante FFT (FFT = Fast Fourier-Transformation = schnelle Fourier-Transformation) verwendet, bei der, abhängig von einer vordefinierten Fensterlänge eines Transformationsfensters eine spektrale Auflösung erreicht wird, bei der das Audiosignal auf ein Auftreten von Spektralanteilen des Audiosignals in einem fest vorgegebenen Frequenzraster untersucht wird. Dies bedeutet mit anderen Worten, dass bei der Verwendung einer Fourier- basierten Transformation bereits feste Untersuchungsfrequenzwerte als Frequenzraster der vorgegeben sind, und durch die Transformation untersucht wird, ob in dem Audiosignal Frequenzanteile bei den vorgegebenen Frequenzen des Frequenzrasters enthalten sind.
Nachteilig bei der Verwendung der Fourier-basierten Transformationen ist jedoch der äquidistante Abstand der einzelnen Untersuchungsfrequenzen, d.h. des der Fourier-basierten Transformation zugrunde liegenden Frequenzrasters. Um eine Analyse von Audiosignalen und der den Audiosignalen inhärenten Harmonien erkennen zu können, ist ein "Mapping" des Frequenzrasters auf die Frequenzskala notwendig, wie sie für die westliche Notenskala verwendet wird. Dies beinhal- tet ein "Mapping" des äquidistanten, linearen, Frequenzrasters auf ein logarithmisches und somit nicht-lineares Frequenzraster. Eine Transformation die ein derartiges Mapping durchführen kann, ist beispielsweise die Constant Q Transform, wie sie in Judith C. Brown: "Calculation of a constant Q spectral transform", in: Journal of the Acousti- cal Society of America, '98(1): Seiten 425 bis 432, Januar 1991, oder in Judith C. Brown and Miller S. Puckette: "An efficient Algorithm for the Calculation of a Constant Q transform", in: Journal of the Acoustical Society of A eri- ca, '92(5): Seiten 2698 bis 2701, November 1992 näher beschrieben ist. Hierin wird die Constant Q Transformation CQT vorgestellt, die ähnlich einer Fourier-Transformation ein in Zeitbereichsdarstellung bereitgestelltes Signal in eine Frequenzbereichsdarstellung umsetzt, wobei jedoch im Gegensatz zu Fourier-basierten Transformationen ein logarithmisches und somit nicht-lineares Frequenzraster bei der CQT zugrunde gelegt wird. In diesem Zusammenhang kennzeich- net der Buchstabe Q das Verhältnis einer Frequenz zu einer Bandbreite, d.h. das Verhältnis einer Frequenz zur nächst benachbarten Frequenz des der CQT zugrunde gelegten (logarithmischen) nicht-linearen Frequenzrasters. Da auch der westlichen Notenskala ein derartiges logarithmisches nicht- lineares Frequenzraster zugrunde liegt, lässt sich die CQT sehr gut zur Erkennung von Tönen bzw. Halbtönen in einem Audiosignal einsetzen. Der Einsatz der CQT wird insbesondere dadurch begünstigt, dass auch der Halbtonabstand zwischen den einzelnen Halbtönen in den verschiedenen Oktaven der Notenskala zunehmend größer wird, d.h. ein Halbtonabstand im Bereich des Kammertones bei 440 Herz (Kammerton a') kleiner ist als ein Halbtonabstand in einer Oktav über dem Kammerton a' . Insbesondere durch die Tatsache, dass die Halbtonabstände auch logarithmisch angeordnet sind, ist da- her die CQT besonders für die Aufdeckung von auftretenden Tönen in dem Audiosignal interessant, wobei dann auch eine Ermittlung einer Oktavinformation des aufgetretenen Tones durch die CQT möglich ist.
Problematisch ist die Anwendung der CQT jedoch dann, wenn erstens das der CQT zugrundeliegende Frequenzraster geringfügig von dem Frequenzraster der tatsächlichen Notenskala abweicht. Dies kann beispielsweise aus einer Fehlanpassung der Filterkoeffizienten der CQT resultieren. Die Filterko- effizienten für die CQT stellen dabei die konkrete Frequenzauflösung der CQT, d.h. die exakte Lage der Untersuch- tungsfrequenzen oder das Frequenzrasters der CQT sicher. Hierbei ist anzumerken, dass für jeden Filterkoeffizientensatz entweder eine minimale Frequenz fmn vorgegeben ist, auf deren Basis die weiteren Frequenzen des der CQT zugrundegelegten Frequenzrasters, beispielsweise durch die in Judith C. Brown' s Artikel "Calculation of a Constant Q Spectral Transform" genannte Gleichung 1 berechnet werden kann. Alternativ zur Angabe der Minimumfrequenz fmιn für einen Koeffizientensatz und somit einem zu dem Koeffizientensatz entsprechenden Frequenzraster der CQT kann auch ein Satz von unterschiedlichen Fensterlängen N[k] in einem Ko- effizientensatz enthalten sein, wobei die unterschiedlichen Fensterlängen N[k] durch die Gleichung 3 in dem oben genannten Artikel mit der Minimumfrequenz fmin zusammenhängt. Erfolgt nun beim Berechnen oder Bereitstellen der Koeffizienten für die CQT eine geringfügige Verstimmung, derart, dass beispielsweise nicht die exakten Halbtonfrequenzen der Notenskala getroffen werden, sondern die durch die Koeffizienten realisierten Rasterfrequenzen geringfügig über oder unter den Halbtonfrequenzen der Notenskala liegen, kann dies gravierende negative Effekte (beispielsweise durch ei- nen auftretenden Leck-Effekt bei einer Transformation) bei der Ermittlung von in dem Audiosignal auftretenden Tönen und damit zu einer deutlichen Verschlechterung einer Erkennung von Harmonien oder anderen polyphonen Strukturen in dem Audiosignal führen. Eine solche Verstimmung des Analy- sewerkzeugs führt dann insbesondere dazu, dass nicht mehr Energien bzw. Amplituden der eigentlichen gespielten Tönen korrekt in den Frequenzbereich abgebildet werden, sondern beispielsweise durch Randeffekte oder Filterlängeneffekte resultierende "Verschmierungen" zu einem Auftreten von Amp- litudenwerten bei den "verstimmten" Rasterfrequenzen resultieren.
Ein weiterer, zweiter Aspekt kann darin gesehen werden, dass beispielsweise der Kammerton a' zwar bei 440 Herz liegt, dass aber, beispielsweise durch künstlerische Freiheit, ein Orchester für seine Interpretation von Musikstücken den Kammerton a' auf eine "eigene" Kammertonfrequenz von beispielsweise 444 Herz legt. Auch in diesem Fall resultieren dann die vorstehend beschriebenen Probleme, da zwar der Koeffizientensatz, auf dessen Basis dass Frequenzraster der CQT "geeicht" wurde, bei den nach der Notenskala "korrekten" Halbtonfrequenzen Rasterfrequenzen aufweist, aber durch die willkürliche "Verstimmung" des Kammertones durch das Orchester wieder eine Fehlanpassung resultiert.
Es ist daher die Aufgabe der vorliegenden Erfindung, eine Möglichkeit zu schaffen, um das einem Audiosignal zugrunde liegende Frequenzraster zu bestimmen, wobei das Bestimmen des dem Audiosignal zugrundeliegenden Frequenzrasters numerisch einfach und schnell durchführbar sein soll.
Diese Aufgabe wird durch eine Vorrichtung zum Bestimmen eines einem Audiosignal zugrundeliegenden Frequenzrasters gemäß Anspruch 1 und ein Verfahren zum Bestimmen eines einem Audiosignal zugrundeliegenden Frequenzrasters gemäß Anspruch 13 gelöst.
Die vorliegende Erfindung schafft eine Vorrichtung zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters mit folgenden Merkmalen:
einer Einrichtung zum Ermitteln eines Frequenzschätzwertes eines in dem Audiosignal auftretenden Tones;
einer Einrichtung zum Berechnen einer im Vergleich zum Frequenzschätzwert exakteren Tonfrequenz eines in dem Audio- signal auftretenden Tons unter Verwendung des Frequenzschätzwertes und des Audiosignals; und
einer Einrichtung zum Vergleichen der Tonfrequenz mit einer Mehrzahl von unterschiedlichen Frequenzrastern, wobei jedes Frequenzraster einer anderen Stimmung zugeordnet ist, wobei die Einrichtung zum Vergleichen ausgebildet ist, um das Frequenzraster zu bestimmen, das mit der Tonfrequenz am besten übereinstimmt.
Ferner schafft die vorliegende Erfindung ein Verfahren zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters mit folgenden Schritten: Ermitteln eines Frequenzschätzwertes eines in dem Audiosignal auftretenden Tones;
Berechnen einer im Vergleich zum Frequenzschätzwert exakte- ren Tonfrequenz eines in dem Audiosignal auftretenden Tons unter Verwendung des Frequenzschätzwertes und des Audiosignals; und
Vergleichen der Tonfrequenz mit einer Mehrzahl von unter- schiedlichen Frequenzrastern, wobei jedes Frequenzraster einer anderen Stimmung zugeordnet ist, um durch das Vergleichen das Frequenzraster zu bestimmen, das mit der Tonfrequenz am besten übereinstimmt.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass das Bestimmen eines einem Audiosignal zugrunde liegende Frequenzrasters dadurch möglich ist, dass zuerst ein Frequenzschätzwert einer Frequenz eines in dem Audiosignal auftretenden Tones ermittelt wird und anschließend unter Verwendung des Frequenzschätzwertes und des Audiosignals eine im Vergleich zum Frequenzschätzwert exaktere Tonfrequenz des in dem Audiosignal auftretenden Tones berechnet wird. Hieran anschließend kann unter Kenntnis der exakteren Tonfrequenz verglichen werden, welches Frequenzraster am besten mit der Tonfrequenz übereinstimmt, d.h. welches Frequenzraster beispielsweise eine Rasterfrequenz aufweist, die der Tonfrequenz am nähesten kommt. Das Vorabbestimmen des Frequenzschätzwertes kann dabei beispielsweise durch eine Fourier-basierte Transformation mit 256 Stützstellen oder einer ähnlichen numerisch gegenüber herkömmlichen Ansätzen der Bestimmung einer exakten Frequenz einfachen Umsetzung eines Zeitbereichssignals in eine Frequenzbereichsdarstellung erfolgen. Aus dem durch die numerisch einfache Umsetzung resultierenden „nicht-präzisen" Frequenzschätz- wert für den in dem Audiosignal auftretenden Ton kann dann die exaktere Tonfrequenz berechnet werden, was beispielsweise durch eine Verwendung des Frequenzschätzwertes, dem Audiosignal und einer Version des abgeleiteten, d.h. diffe- renzierten Audiosignals bewerkstelligen lässt. Ein derartiges Berechnen ermöglicht wiederum ein gegenüber dem Stand der Technik numerisch einfaches Vorgehen. Auch die Bestimmung des Frequenzrasters, das am besten mit der exakteren Tonfrequenz übereinstimmt lässt sich beispielsweise durch eine einfache Vergleichsoperation in Form einer Subtraktion durchführen.
Die vorliegende Erfindung bietet somit den Vorteil, eine Möglichkeit zu schaffen, ein Frequenzraster, das einem Audiosignal zugrunde liegt, gegenüber dem Stand der Technik durch numerisch einfache, damit auch schnell durchführbare Operationen zu bestimmen, wodurch sich der vorgeschlagenen Ansatz auch kostengünstig durchführen lässt.
Gemäß einer Ausführungsform der vorliegenden Erfindung kann das Frequenzraster eine Anzahl von Rasterfrequenzen umfasst, die in einer nicht-linearen Skalierung auf der Frequenzachse angeordnet sind, wobei ein spektraler Abstand zwischen einer ersten Rasterfrequenz und einer zur ersten Rasterfrequenz benachbarten zweiten Rasterfrequenz in einem vorbestimmten Toleranzbereich einem Halbtonabstand zwischen zwei in einem Bereich um die erste Rasterfrequenz benachbarten Halbtöne einer Notenskala entspricht, und wobei die Einrichtung zum Vergleichen ausgebildet ist, um einen spektralen Abstand zwischen einer Rasterfrequenz und der Tonfrequenz zu ermitteln. Dies bietet den Vorteil, dass auf einen einfache Weise durch Verwendung einer Differenzbildung zu Bestimmen, welches Raster (mit der Rasterfrequenz) am Besten mit der bestimmten Tonfrequenz übereinstimmt
Gemäß einer weiteren Ausführungsform der erfindungsgemäßen Vorrichtung zum Bestimmen sind drei voneinander unterscheidbare Frequenzraster bereitgestellt, wobei die Raster- frequenzen eines ersten Frequenzrasters Halbtonfrequenzen einer Notenskala entsprechen, die Rasterfrequenzen des zweiten Frequenzrasters um einen Drittel Halbtonabstand reduzierten Halbtonfrequenzen der Notenskala entsprechen und die Rasterfrequenzen des dritten Frequenzrasters um einen dritten Halbtonabstand erhöhten Halbtonfrequenzen der Notenskala entsprechen, und wobei die Einrichtung (106) zum Vergleichen ausgebildet ist, um diejenige Rasterfrequenz des ersten, zweiten oder dritten Frequenzrasters zu ermitteln, das eine Rasterfrequenz aufweist, die einen geringeren spektralen Abstand zur Tonfrequenz aufweist als eine Rasterfrequenz eines anderen des ersten, zweiten oder dritten Frequenzrasters. Ein derartiges Bereitstellen bietet den Vorteil, dass nicht einen beliebig hohe Anzahl von Frequenzrastern mit verschiedenen Rasterfrequenzen zu untersuchen ist, sondern dass bereits eine Anzahl von drei Frequenzrastern, die entweder Rasterfrequenzen auf den exakten Halbtonfrequenzen der Notenskala Rasterfrequenzen aufwei- sen, oder deren Rasterfrequenzen um einen Drittel Halbton spektral höher oder niedriger verschoben sind, für eine hinreichend genaue Klassifikation der des einem Audiosignal zugrundegelegten Frequenzraster ausreichen.
Gemäß einer weiteren Ausführungsform der vorliegenden Erfindung kann die Einrichtung (102) zum Ermitteln ausgebildet sein, um eine Umsetzung eines Segmentes des Audiosignals in den Frequenzbereich durchzuführen, um ein Audiofrequenzbereichssignal zu erhalten, wobei einer ersten Fre- quenz des Audiofrequenzbereichssignals ein erster Amplitudenwert zugewiesen wird und einer zweiten Frequenz des Audiofrequenzbereichssignals ein zweiter Amplitudenwert zugewiesen wird und wobei die Einrichtung zum Ermitteln ferner ausgebildet ist, die erste Frequenz als Frequenzschätzwert des in dem Audiosignal aufgetretenen Tones zu ermitteln, wenn der erste Amplitudenwert größer als der zweite Amplitudenwert ist. Eine derart ausgebildete Ausführungsform der vorliegenden Erfindung ermöglicht ein sehr einfaches Erkennen einer in einem Audiosignal auftretenden tonalen Kompo- nente aufgrund eines im Spektralbereich auftretenden „Peaks" bei einer Frequenz. Gemäß einer weiteren Ausführungsform der vorliegenden Erfindung kann die Einrichtung zum Ermitteln ferner ausgebildet sein, um die erste Frequenz als Frequenzschätzwert zu ermitteln, wenn der erste Amplitudenwert größer als ein vordefinierter Schwellwert ist oder ein Quotient aus dem ersten und zweiten Amplitudenwert größer als der vordefinierte Schwellwert ist. Dies bietet den Vorteil, einer eindeutig und sicheren Entscheidung über das vorliegen einer tonalen Komponenten bei der Frequenz mit dem größeren Amp- litudenwert.
Ferner kann die Einrichtung zum Berechnen ausgebildet sein, um aus einem Segment des Audiosignals eine differenzierte Version des Segmentes des Audiosignals zu berechnen, die differenzierte Version des Audiosignals in den Frequenzbereich umzusetzen, um ein differenziertes Audiofrequenzbereichssignal zu erhalten und ein Berechnen der im Vergleich zu dem Frequenzschätzwert exakteren Tonfrequenz auf der Basis des Audiofrequenzbereichssignals, des differenzierten Audiofrequenzbereichssignals und des Frequenzschätzwertes durchzuführen. Ein solche Vorgehen ermöglichst durch numerisch einfach durchzuführende Rechenschritte das Bestimmen einer im Vergleich zu dem Frequenzschätzwert deutlich exakteren Tonfrequenz.
In einer weiteren Ausführungsform können die Einrichtung zum Ermitteln und die Einrichtung zum Berechnen ausgebildet sein, um das Umsetzen des Segmentes des Audiosignals in den Frequenzbereich auf eine gleiche Weise wie das Umsetzen der differenzierten Version des Segmentes des Audiosignals in den Frequenzbereich durchzuführen. Dies bietet den Vorteil, dass eine numerisch effiziente Implementierung einer Umsetzungsvorschrift eines Zeitbereichssignals in ein Frequenzbereichssignal weiterverwendet werden kann und dass stören- de Effekte wie beispielsweise Fensterungseffekte bei einer Fourier-basierten Transformation durch eine gleiche Wirkung auf das Audiofrequenzbereichssignal und das differenzierte Audiofrequenzbereichssignal und die nachfolgende Verarbei- tung der beiden Signale im wesentlichen kompensiert werden können.
Ferner kann die Einrichtung zum Ermitteln ausgebildet sein, um aus dem Audiosignal eine Mehrzahl von Audiosignalteilsegmenten zu ermitteln und für jedes Audioteilsignalsegment einen Frequenzschätzwert des in dem Audioteilsignalsegmentes auftretenden Tones zu ermitteln, wobei die Einrichtung zum Berechnen ausgebildet ist, um für jedes Audiosignal- teilsegment eine im Vergleich zu dem Frequenzschätzwert exaktere Tonfrequenz des in dem Audiosignalteilsegment auftretenden Tones zu berechnen und wobei ferner die Einrichtung zum Vergleichen ausgebildet ist, um das Bestimmen des Frequenzrasters auf der Basis der Mehrzahl der berechneten exakteren Tonfrequenzen zu bestimmen. Dies bietet den Vorteil, dass die bestimmte Tonfrequenz nicht nur von einem kurzen (ein Transformationsfenster langen) Zeitabschnittes abhängt, sonder die Tonfrequenz über mehrere Zeitabschnitte „gemittelt" berechnet werden kann. Die ergibt eine höhere Zuverlässigkeit der erhaltenen Tonfrequenz.
In einer weiteren Ausführungsform der vorliegenden Erfindung kann die Einrichtung zum Berechnen ausgebildet sein, um eine erste Klasse von Tonfrequenzen, eine zweite Klasse von Tonfrequenzen und eine dritte Klasse von Tonfrequenzen zu definieren, wobei die Tonfrequenzen der ersten Klasse in einer ersten spektralen Spanne mit einer Rasterfrequenz des ersten Frequenzrasters liegen, die Tonfrequenzen der zweiten Klasse in einer zweiten spektralen Spanne mit einer Rasterfrequenz des zweiten Frequenzrasters liegen und die Tonfrequenzen der dritten Klasse in einer dritten spektralen Spanne mit einer Rasterfrequenz des dritten Frequenzrasters liegen, wobei sich die spektralen Spannen der ersten, zweiten und dritten Klasse nicht überschneiden, wobei die Einrichtung ferner ausgebildet ist, um eine Häufigkeit eines Auftretens von Tonfrequenzen in jeder der ersten, zweiten oder dritten Klasse zu ermitteln und wobei die Einrichtung zum Vergleichen ausgebildet ist, um dasjenige Fre- quenzraster zu bestimmen, das eine Rasterfrequenz in der Klasse aufweist, in der die meisten Tonfrequenzen aufgetreten sind.
Ferner kann die Einrichtung zum Ermitteln ausgebildet sein, um aus dem Audiosignal 10 Audiosignalteilsegmente zu ermitteln. Dies bietet den Vorteil, dass bereits bei einer Anzahl von 10 Audiosignalteilsegmenten eine Klassifikation möglich ist, die zu einer ausreichenden, d.h. hinreichend hohen Wahrscheinlichkeit einer zutreffenden Klassifikation des korrekten Frequenzrasters führt.
In einem weiteren Ausführungsbeispiel kann ein zu jedem Frequenzraster ein das Frequenzraster eindeutig definieren- der Koeffizientensatz zugeordnet sein, wobei die Vorrichtung ferner folgende Merkmale aufweist:
eine Einrichtung zum Auswählen des dem bestimmten Frequenzraster zugeordneten Koeffizientensatzes; und
eine Einrichtung zum Umsetzen des Audiosignals in den Frequenzbereich unter Verwendung des ausgewählten Koeffizientensatzes.
Dies bietet den Vorteil, dass für verschiedenen Frequenzraster bereits Koeffizientensätze für eine Umsetzungsvorschrift vorab berechnet werden können, was numerisch aufwendig ist. Diese Koeffizientensätze lassen sich dann durch die Bestimmung des dem Audiosignal zugrundeliegenden Fre- quenzrasters auf eine einfache Art und Weise auswählen, um die Umsetzung des Audiosignals in den Frequenzbereich durchzuführe .
In einer weiteren Ausführungsform kann die Einrichtung zum Ermitteln ausgebildet sein, um das Umsetzen des Segmentes des Audiosignals unter Verwendung eines ersten Umsetzungsalgorithmus auszuführen und bei der die Einrichtung zum Umsetzen des Audiosignals in den Frequenzbereich ausgebildet ist, um das Umsetzen unter Verwendung eines zweiten Umsetzungsalgorithmus auszuführen, wobei das Ausführen des ersten Umsetzungsalgorithmus einen geringeren numerischen Aufwand erfordert, als das Ausführen des zweiten Umsetzungsal- gorithmus. Dies bietet den Vorteil, dass das Ermitteln des Frequenzschätzwertes und das Bestimmen der Tonfrequenz mit Hilfe eines numerisch einfacheren Algorithmus durchgeführt werden kann, als das Verfahren zum Umsetzen des Audiosignals in den Frequenzbereich. Dies führt letztendlich dazu, das bestimmen des Frequenzrasters und des das Frequenzraster definierenden Koeffizientensatzes durch ein numerisch einfacheres Verfahren durchzuführen, als das nachfolgende Umsetzen des Audiosignals in den Frequenzbereich.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend anhand der beiliegenden Zeichnungen näher erläutert. Es zeigt:
Fig. 1 ein Blockschaltbild eines Ausführungsbeispiels der erfindungsgemäßen Vorrichtung zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters;
Fig. 2A eine Darstellung, wie auf effiziente Weise der Fre- bis 2C quenzschätzwert ermittelt werden kann;
Fig. 3 eine Darstellung der Lage von Mittenfrequenzen für drei verschiedene Koeffizientensätze einer Constant Q Transformation; und
Fig. 4 ein Ablaufdiagramm eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters.
In der nachfolgenden Beschreibung werden für gleiche oder gleich wirkende Elemente gleiche oder ähnliche Bezugszei- chen verwendet, wobei auf eine wiederholte Beschreibung dieser Bezugszeichen verzichtet wird.
Fig. 1 zeigt ein Blockschaltbild eines Ausführungsbeispiels der erfindungsgemäßen Vorrichtung 100 zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters. Die Vorrichtung 100 weist eine Einrichtung 102 zum Ermitteln eines Frequenzschätzwertes eines in dem Audiosignal auftretenden Tones, eine Einrichtung 104 zum Berechnen einer im Vergleich zum Frequenzschätzwert exakteren Tonfrequenz des in dem Audiosignal auftretenden Tons und eine Einrichtung 106 zum Vergleichen der Tonfrequenz mit einer Mehrzahl von Frequenzrastern auf. Die Einrichtung 102 zum Ermitteln hat einen Eingang zum Empfangen eines Audiosignals 108 und ei- nen ersten Ausgang 110 zum Ausgeben des ermittelten Frequenzschätzwertes und einen zweiten Ausgang 111 zum Ausgeben des Audiosignals (d.h. das am Eingang 108 anliegende Audiosignal wird am zweiten Ausgang 111 der Einrichtung zum Ermitteln wieder ausgegeben) . Die Einrichtung 104 zum Be- rechnen hat einen Eingang 112 zum Empfangen des von der Einrichtung 102 zum Ermitteln ausgegebenen Schätzwertes und einen zweiten Eingang 113 zum Empfangen des von der Einrichtung 102 zum Ermitteln ausgegebenen Audiosignal. Ferner hat die Einrichtung 104 zum Berechnen einen Ausgang 114 zum Ausgeben der berechneten Tonfrequenz fp. Die Einrichtung 106 zum Vergleichen der Tonfrequenz fp mit einer Mehrzahl von Frequenzrastern hat einen Eingang 116 zum Empfangen der von der Einrichtung 104 zum Berechnen berechneten Tonfrequenz fp und einen Ausgang 118 zum Ausgeben des von der Einrichtung 106 zum Vergleichen bestimmten Frequenzrasters.
Nachfolgend wird auch die Funktionsweise der in Fig. 1 dargestellten Vorrichtung 100 zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters näher eingegan- gen. Zunächst wird ein Audiosignal oder ein Audiosignalsegment über den Eingang 108 der Einrichtung 102 zum Ermitteln eines Frequenzschätzwertes eines in dem Audiosignal auftretenden Tones zugeführt. In der Einrichtung 102 zum Ermit- teln erfolgt dann beispielsweise unter Verwendung einer Fourier-Transformation oder ähnlichem (beispielsweise einer Wavelet Transformation) eine Umsetzung des (vorzugsweise im Zeitbereich) vorliegenden Audiosignals in den Frequenzbe- reich. Hierbei werden die in dem Audiosignal auftretenden Frequenzen auf einer Frequenzskala oder Frequenzachse durch die Transformation meist aus Gründen der Einfachheit in einer linearen Skalierung abgebildet. Durch dieses Abbilden in der linearen Skalierung treten meist Ungenauigkeiten bei der Verwendung eines Audiosignals als Eingangssignal auf, da die Töne des Audiosignals meist in einem nicht-linear skalierten Frequenzraster in diesem Audiosignal enthalten sind. Es ist jedoch anzumerken, dass durch die Verwendung von hinlänglich bekannten und damit gut erforschten und op- timierten Zeit-Frequenzbereichstransformationen wie der Fourier-Transformation eine derartige Umsetzung des Audiosignals vom Zeitbereich in den Frequenzbereich numerisch sehr effektiv durchgeführt werden kann. Durch die Einrichtung 102 zum Ermitteln wird somit aus dem Audiosignal zu- nächst ein Frequenzschätzwert eines in dem Audiosignal auftretenden Tones ermittelt, der die ungefähre Lage eines in dem Audiosignal auftretenden Tones auf der Frequenzachse wiedergibt. Dieser ermittelte Frequenzschätzwert wird dann über den Ausgang 110 der Einrichtung 102 zum Ermitteln an die Einrichtung 104 zum Berechnen über deren Eingang 112 übermittelt. Weiterhin wird auch das Audiosignal selbst von der Einrichtung 102 zum Ermitteln an die Einrichtung 104 zum Berechnen weitergegeben. In der Einrichtung 104 zum Berechnen einer im Vergleich zum Frequenzschätzwert exakteren Tonfrequenz des in dem Audiosignal auftretenden Tones kann dann die Tonfrequenz auf der Basis eines Algorithmus berechnet werden, wie er beispielsweise in dem Artikel von M. Desainte-Catherine und S. Marchand: "High-Precision Fourier Analysis of Sounds Using Signal Derivatives", veröffent- licht in: Journal of Acoustic Engineering Society, 48(7), July/August 2000 vorgeschlagen wurde. Ein derartiger Ansatz ermittelt aus dem Frequenzschätzwert und dem Audiosignal auf eine nachfolgend noch näher beschriebene Weise die (im Vergleich zum Frequenzschätzwert exaktere) Tonfrequenz fp des in dem Audiosignal auftretenden Tones, die über den Ausgang 114 der Einrichtung 104 zum Berechnen ausgegeben wird. Die Tonfrequenz fp, die nun am Ausgang 114 der Ein- richtung 104 zum Berechnen anliegt, wird der Einrichtung 106 zum Vergleichen über deren Eingang 116 zugeführt, wobei die Einrichtung 106 zum Vergleichen nun beispielsweise unter Verwendung von mehreren bereitgestellten Frequenzrastern dasjenige Frequenzraster bestimmt, das am besten mit der exakteren Tonfrequenz übereinstimmt. Dieses Bestimmen desjenigen Frequenzrasters, das mit der exakteren Tonfrequenz am besten übereinstimmt, kann beispielsweise dadurch erfolgen, dass einzelne Rasterfrequenzen der verschiedenen Frequenzraster mit der Tonfrequenz fp verglichen werden (beispielsweise in Form einer Subtraktion eines Rasterfrequenzwertes von einem Wert der Tonfrequenz fp) , wobei dann dasjenige Frequenzraster ausgewählt wird, das eine Rasterfrequenz aufweist, die den geringsten spektralen Abstand zu der Tonfrequenz fp hat. Würde das Vergleichen in Form einer Subtraktion der Rasterfrequenz von der Tonfrequenz fp durchgeführt, kann beispielsweise dasjenige Frequenzraster gewählt werden, dessen Rasterfrequenz bei der Subtraktion mit der Tonfrequenz fp einen Wert annimmt, der näher am Wert 0 liegt als alle anderen Werte, die bei einer ver- gleichbaren Subtraktion von einer Rasterfrequenz mit der Tonfrequenz fp erhalten werden. Die auf diese Weise bestimmte Rasterfrequenz kann dann am Ausgang 118 der Einrichtung 106 zum Vergleichen ausgegeben werden.
Fig. 2 zeigt eine Möglichkeit, einen Frequenzschätzwert eines in dem Audiosignal auftretenden Tones zu ermitteln. Hierzu ist in den Figuren 2A bis 2C jeweils ein Diagramm dargestellt, auf dessen Abszisse die Frequenz und auf dessen Ordinate eine Amplitude des Audiosignalsegmentes bei der entsprechenden Frequenz aufgetragen ist. Die Darstellung entspricht hierbei einem Ergebnis, wie es durch die Zeit-Frequenzbereichsumsetzung in der Einrichtung 102 zum Ermitteln resultiert; d.h. insbesondere ist die Frequenz- achse oder Abszisse des vorzugsweise durch die Verwendung der Fourier-Transformation (beispielsweise einer Short-Time Fast Fourier-Transformation STFT = Kurzzeit-Fourier- Transformation) verwendeten Frequenzrasters linear ska- liert. Tritt nun ein Frequenzverlauf ein, wie er in Fig. 2A dargestellt ist, kann deutlich erkannt werden, dass bei der Frequenz fi eine tonale Komponente vorhanden ist, was sich durch den deutlichen „peak" (oder Spitzenwert) im Amplitudenspektrum zeigt. Demgegenüber ist bei einem Amplituden- spektrum wie er in Fig. 2B gezeigt ist, eine eindeutige Aussage bezüglich einer tonalen Komponente bei der Frequenz fi nicht möglich, da der Amplitudenverlauf linksseitig der Frequenz fi niedrigere Werte als bei der Frequenz fi und rechtsseitig von der Frequenz fi höhere Amplitudenwerte als bei der Frequenz fi hat. In einem derartigen Fall wäre dann beispielsweise eine tonale Komponente bei der Frequenz f2 anzunehmen, da diese einen (wenn auch nicht so eindeutig ausgeprägten) „peak" im Amplitudenspektrum aufweist. Demgegenüber ist in Fig. 2C dargestellt, dass bei einem "Ein- bruch" des Amplitudenspektrums bei der Frequenz fi keine tonale Komponente zu erwarten ist, da die Amplitude bei der Frequenz fi niedriger als bei benachbarten Frequenzwerten ist. Eine derartige Suche nach tonalen Komponenten in einem Audiosignal oder in einem Audiosignalsegment wird auch als „peak picking" (= Spitzenwert-Suche) bezeichnet. Um eine eindeutigere Entscheidung über das Vorliegen einer tonalen Komponente treffen zu können, lassen sich auch noch zusätzliche Kriterien zur Bestimmung einsetzen, ob eine tonale Komponente vorliegt oder nicht. Dies kann beispielsweise eine Quotientenbedingung sein, derart, dass ein Amplitudenwert beispielsweise der Amplitudenwert bei der Frequenz fi durch einen weiteren Amplitudenwert bei einer anderen Frequenz geteilt und somit ein Quotient gebildet wird. Nachfolgend kann dieser Quotient beispielsweise mit einem vor- bestimmten Schwellwert verglichen werden und bei einem Ü- berschreiten des Quotienten über den vorbestimmten Schwellwert auf das Vorliegen einer tonalen Komponente geschlossen werden. Andererseits kann bei einem Unterschreiten des Quo- tienten unter den vorbestimmten Schwellwert darauf geschlossen werden, dass keine tonale Komponente bei der Frequenz fi vorliegt. In diesem Fall lassen sich auch Amplitudenspektrumsverläufe wie in Fig. 2B dargestellt, besser auswerten. Alternativ kann aber auch direkt der Amplitudenwert bei der Frequenz fx einer Schwellwert-basierten Untersuchung unterzogen werden, wobei dann das zuvor gesagte nicht mehr für den Quotienten sondern direkt für den Amplitudenwert bei der Frequenz fi gilt. Entsprechend ist dann eventuell auch ein veränderter Entscheidungsschwellwert anzusetzen.
Um das Ermitteln eines Frequenzschätzwertes optimal auszugestalten, kann als weitere Option bei der Suche nach ög- liehen Tonanfängen in dem Audiosignal eine Mehrzahl von (beispielsweise aufeinander folgenden) Audiosignalsegmenten untersucht werden, wobei dann die Segmente einzeln vom Zeitbereich in den Frequenzbereich umgesetzt werden und in einer Matrixstruktur das Amplitudenspektrum, d.h. die Zu- Ordnung von Amplitudenwerten zu Frequenzen über den Ze.itbe- reich ermittelt werden kann. In diesem Ausführungsbeispiel können dann die Zeilen der Matrix in Frequenzen des durch die Zeitbereichs-Frequenzbereichstransformation vorgegebenen Frequenzen entsprechen, wobei die Spalten den einzelnen Audiosegmenten entsprechen.
In den einzelnen Elementen der Matrix werden dann die entsprechenden Amplitudenwerte in den entsprechenden Frequenzen eingetragen, wobei die Spalte ein zeitliche Audiosig- nalsegment kennzeichnet, in dem der Amplitudenwert bei der entsprechenden Frequenz aufgetreten ist. Um eine Verbesserung der Detektion einer tonalen Komponente (unter Zuhilfenahme des vorstehend beschriebenen „peak picking") kann weiterhin in der Matrix mit dem transformierten Signal eine Glättung mit einem Tiefpass (beispielsweise in Zeitrichtung über mehrere Spalten der Matrix) erfolgen und ferner optional eine Suche nach kontinuierlichen Anstiegsketten durchgeführt werden, was dann beispielsweise einem Mindestlän- genkriterium für das Auftreten einer tonalen Komponente in dem Audiosignal entspricht. Beispielsweise kann ferner das Auftreten einer tonalen Komponente dann erkannt werden, wenn eine zeitliche Dauer eines Auftretens einer tonalen Komponente über einem zeitlichen Mindestlängenschwellwert für den entsprechenden Ton liegt.
In bezug auf die Funktionsweise der Einrichtung 104 zum Berechnen der exakteren Tonfrequenz lässt sich anmerken, dass diese beispielsweise analog zu der vorstehend genannten Schrift von M. Desainte-Catherine möglich ist. Hierbei wird unter Verwendung der Fourier-Transformation des Audiosignalsegmentes oder des Audiosignals, einer Fourier- Transformation des abgeleiteten (d.h. differenzierten) Au- diosignalsegmentes oder des abgeleiteten Audiosignals jeweils an der Stelle des Frequenzschätzwertes verwendet. Durch das Ableiten des Audiosignals oder des Audiosignalsegmentes (das in zeitlicher Darstellung vorliegt) kann somit eine Phaseninformation aus dem Audiosignalsegment oder dem Audiosignal berücksichtigt werden und somit eine präzisere Tonfrequenz fp als der Frequenzschätzwert für den in dem Audiosignal auftretenden Ton ermittelt werden. Diese Präzisierung ist dann durch ein Dividieren des Fourier- transformierten abgeleiteten Audiosignalsegmentes durch die Fourier-Transformierte des originalen Audiosignalsegmentes jeweils an der Stelle des Frequenzschätzwertes möglich. Hierbei ist weiterhin ein Faktor von l/2π zu berücksichtigen. Eine exaktere Tonfrequenz ergibt sich dann daraus, dass durch die Division der Fourier-Transformierten der ab- geleiteten Version des Audiosignals durch die Fourier- Transformierte des ursprünglichen Audiosignals jeweils an der Stelle des Frequenzschätzwertes der sich bei der Fourier-Transformation auswirkende Fenster-Effekt bei der Wahl des der Fourier-Transformation zugrunde liegenden Filter- fenster kompensiert wird. Hierdurch lässt sich somit aus dem zuvor durch einfache Fourier-Transformation ermittelten Frequenzschätzwert des in dem Audiosignal auftretenden Tones eine deutlich exaktere Tonfrequenz fp des in dem Audio- signal auftretenden Tones ermitteln. Ein derartiges Vorgehen ermöglicht sogar die Reduzierung der für die Fourier- Transformation notwendigen Anzahl von Stützwerten von beispielsweise 1024 Punkten auf 256 Punkte, wobei durch das vorstehend genannte Dividieren und somit das Berechnen der exakteren Tonfrequenz fp trotzdem eine Erhöhung der Präzision bei der Bestimmung der Tonfrequenz fp möglich ist. Die von M. Desainte-Catherine vorgeschlagene Vorgehensweise ermöglicht somit (ohne das Verwenden einer hohen Überabtas- tung) das präzise Bestimmen von exakten Tonfrequenzen fp unter Verwendung der Ableitung des Audiosignals, was sich numerisch deutlich aufwandsreduzierend gegenüber der hohen Überabtastung mit beispielsweise dem zwei- oder dreifachen Überabtastfaktor der maximal detektierbaren Frequenz aus dem Audiosignal auswirkt.
Wie vorstehend bereits dargelegt wurde, lässt sich die im Vergleich zum Frequenzschätzwert exaktere Tonfrequenz fp nun zum Bestimmen eines Frequenzrasters aus einer Mehrzahl von Frequenzrastern verwenden. Eine solche Mehrzahl von Frequenzrastern ist beispielsweise durch die Frequenzraster mit den Frequenzen f_, f, f+ in Fig. 3 dargestellt. Hierbei kennzeichnet das Frequenzraster mit den Frequenzen f die spektrale Lage der exakten Halbtonfrequenzen der westlichen Notenskala. Beispielsweise wird durch die in Fig. 3 dargestellt Frequenz fi der Kammerton a' gekennzeichnet, der eine Frequenz von 440 Herz aufweist. Die Rasterfrequenz f0 kennzeichnet dann einen Halbton der Notenskala, der eine niedrigere Frequenz als der Kammerton a1 aufweist. Demge- genüber ist das in Fig. 3 dargestellte Frequenzraster mit den Rasterfrequenzen f_ gegenüber dem Frequenzraster mit den Rasterfrequenzen f spektral leicht versetzt. Die Rasterfrequenzen f_ weisen dabei gegenüber den Rasterfrequenzen f eine geringfügig niedrigere Frequenz auf, die bei- spielsweise einem Drittel Halbtonschritt entspricht (d.h. die Rasterfrequenzen f_ sind um -33 cent gegenüber den Rasterfrequenzen f verschoben) . Dies bedeutet dann, dass beispielsweise die Frequenz fι_ eine Frequenz von 431,6 Hz, die Rasterfrequenz f0- einen Wert von 407,0 Hz und die Rasterfrequenz von f2_ einen Wert von 457,3 Hz aufweist. Demgegenüber weist das Frequenzraster mit den Rasterfrequenzen f+ einen positiven spektralen Versatz gegenüber dem Fre- quenzraster mit den Rasterfrequenzen f auf, beispielsweise ebenfalls um einen Drittel Halbtonschritt, d.h. um +33 cent. Die entsprechenden Frequenzen lassen sich somit wie folgt angeben: fx+ = 448,6 Hz, f0+ = 423,4 Hz und f2+ = 475,2 Hz. Dies bedeutet, dass die drei Frequenzraster in einem vorbestimmten Zusammenhang stehen, nämlich dass das Frequenzraster mit den Rasterfrequenzen f_ um -33 cent gegenüber dem Frequenzraster mit den Rasterfrequenzen f der exakten Halbtonfrequenz (d.h. die Rasterfrequenz liegt bei 0 cent) verschoben ist, während das Frequenzraster mit den Rasterfrequenzen f+ um +33 cent gegenüber dem Frequenzraster mit den Rasterfrequenzen f verschoben ist. Wird nun als exakte Tonfrequenz die Frequenz fp ermittelt, kann zunächst eine Aussage getroffen werden, dass die exakte Tonfrequenz eine in dem Audiosignal oder dem Audiosignalsegment auftre- tenden Tones nicht mit der normierten Halbtonfrequenz eines Halbtones der Notenskala übereinstimmt. Vielmehr liegt die exaktere Tonfrequenz geringfügig über der Frequenz des Kammertons a' von 440 Herz. Um eines der drei in Fig. 3 dargestellten Frequenzraster auszuwählen, kann nun die exakte Tonfrequenz fp mit den Rasterfrequenzen der entsprechenden Frequenzraster verglichen werden. Hierbei wird dann festgestellt, dass die Rasterfrequenzen fι_, fi und f1+ diejenigen Rasterfrequenzen sind, die bei jedem Frequenzraster am näh- esten an der exakten Tonfrequenz fp liegen. Wird nun die Tonfrequenz fp mit jedem der drei Rasterfrequenzen fι_, fi und fι+ verglichen, lässt sich ferner bestimmen, dass die Rasterfrequenz fi des Frequenzrasters mit den Rasterfrequenzen f am nähesten an der exakten Tonfrequenz fp liegt. Hierauf kann dann die Rasterfrequenz mit den Rasterfrequen- zen f als dasjenige Frequenzraster bestimmt werden, das am besten mit der exakten Tonfrequenz fp übereinstimmt. Um eine bessere Auflösung, d.h. eine höhere Granularität der bestimmbaren Frequenzraster zu erreichen, können auch mehr als drei Frequenzraster verwendet werden, die auch keinen symmetrischen Abstand von + 33 cent zueinander zu haben brauchen. Es zeigt sich jedoch, dass eine für eine Bestimmung von Harmonien oder Akkorden notwendige Ermittlung von in einem Audiosignal aufgetretenen Tönen bzw. Halbtönen durch die in Fig. 3 dargestellten drei Frequenzraster ausreichend genau möglich ist, wodurch sich unter Berücksichtigung von nur drei Frequenzrastern ein numerischer Aufwand zur Bestimmung der in dem Audiosignal auftretenden Halbtöne optimieren lässt.
Weiterhin lässt sich anmerken, dass die in Fig. 3 darge- stellte Rasterfrequenzen der drei Frequenzraster beispielsweise als Mittenfrequenzen bei einer Constant Q Transform (CQT) erreichbar sind, die eine nicht-lineare Frequenzskalierung auf der Frequenzachse aufweist. Um durch eine solche CQT zur Ermittlung von in dem Audiosignal auftretenden Halbtönen einsetzen zu können, ist es somit notwendig, zuerst die CQT sozusagen zu "eichen", um das Frequenzraster festzulegen, das die Mittenfrequenzen der der CQT zugrunde liegenden nicht-linearen Zeit-Frequenzbereichstransformation definiert. Hierbei ist zu berücksichtigen, dass im Vorfeld bereits für jedes Frequenzraster ein eigener Koeffizientensatz der CQT zu ermitteln ist. Dieser dem Frequenzraster entsprechende Koeffizientensatz ermöglicht dann bei Anwendung der CQT eine Auflösung des Audiosignals in diejenigen Rasterfrequenzen, die das dem Koeffizientensatz entsprechende Frequenzraster bilden. In bezug auf Fig. 3 lässt sich beispielsweise durch einen ersten Koeffizientensatz eine spektrale Auflösung des Audiosignals in die Mittenfrequenzen f0-, fi-, f2-, usw. durchführen, während sich für einen zweiten Koeffizientensatz durch die CQT eine spektrale Auflösung des Audiosignals in die Mittenfrequenzen fo, fi, f2, ... durchführen lässt. Durch einen dritten Koeffizientensatz lässt sich dann analog eine spektrale Auflösung des Audiosignals in die Frequenzen fo+, fι+, f2+, etc. durchführen. Hierbei bleibt die Berechnungsvorschrift der CQT identisch; lediglich ein unterschiedlicher Koeffizientensatz wird bei der Ausführung der CQT verwendet. Diese unterschiedliche Koeffizientensatz kann bei- spielsweise die Länge von Filterfenstern N[k] für die CQT oder ein minimaler Initialisierungsfrequenzwert fmιn für die Anordnung der Rasterfrequenzen auf der Frequenzachse sein.
Gegenüber einer numerisch aufwendigen Eichung der CQT bei- spielsweise unter Verwendung der CQT selbst, kann somit durch den vorliegenden Ansatz unter Verwendung einer numerisch einfach zu realisierenden Ermittlung eines Frequenzschätzwertes, einer nachfolgenden Bestimmung einer exakteren Tonfrequenz auf der Basis des Frequenzschätzwertes und des Audiosignals und der hier anschließenden "Eichung", d.h. der Auswahl eines geeigneten Koeffizientensatzes für die CQT, eine deutliche Reduktion des numerischen Aufwandes für eine derartige Eichung realisiert werden, wobei durch das beschriebene Vorgehen zugleich die Tonfrequenz präzise bestimmbar ist und die Initialisierung oder „Eichung" der CQT schneller durchführbar ist, als bei anderen Initiali- sierungsverfarhen. Diese deutliche numerische Vereinfachung resultiert insbesondere daraus, dass beim Ermitteln des Frequenzschätzwertes eine Fourier-basierte Transformation (beispielsweise eine FFT bzw. eine STFT) verwendet werden kann, die numerisch besonders effizient durchführbar sind, während durch eine CQT eine Abbildung der Frequenzen des Audiosignals in einer nicht-linearen Darstellung möglich ist, dies jedoch nur unter Inkaufnahme eines hohen numeri- sehen Aufwandes erfolgen kann.
Als weiterer Aspekt lässt sich anführen, dass die Berechnungen der exakteren Tonfrequenz fp sich noch weiter optimieren lässt. Insbesondere bei der Verwendung einer FFT o- der einer STFT mit einem kurzen Zeitfenster von beispielsweise 256 Abtastwerten kann möglicherweise eine eindeutige Bestimmung der exakten Tonfrequenz des in dem Audiosignal enthaltenen Tones nicht 100%-ig geschlossen werden, da die zeitliche Dauer des für die Transformation verwendeten Audiosignalsegmentes zu kurz ist. Dieses Problem kann beispielsweise durch eine statistische Absicherung des Auftretens der berechneten exakteren Tonfrequenz fp abgemildert werden. Hierfür werden in beispielsweise 10 aufeinanderfolgende Segmenten des Audiosignals jeweils ein Frequenzschätzwert und hieraus in Verbindung mit dem entsprechenden Audiosignalsegment eine Tonfrequenz fp für jedes Audiosignalsegment bestimmt. Anschließend werden beispielsweise drei Frequenzklassen gebildet, wobei jede Frequenzklasse eine der in Fig. 3 dargestellten Rasterfrequenzen fι_, fx oder fi+ umfasst und jede dieser drei Rasterfrequenzen in einer anderen Klasse, d.h. in einem der Klasse entsprechenden spektralen Abschnitt auf der Frequenzachse, entspricht. Die ermittelten exakteren Tonfrequenzen fp werden nun derart klassifiziert, dass eine Häufigkeit des Auftretens von Tonfrequenzen fp in jeder Klasse gezählt wird. Anschließend wird dasjenige Frequenzraster ausgewählt, dessen Rasterfrequenz in der Klasse liegt, in der auch am Häufigsten die aus den 10 Audiosignalsegmenten berechneten Tonfrequenzen fp aufgetreten ist. Durch ein derartiges Bilden eines sogenannten Pitch-Histogrammes lässt sich somit eine Verbesserung der Bestimmung der Rasterfrequenzen (und damit auch eine präzisere Auswahl der dem Frequenzraster entsprechen- den Koeffizientensatz) durchführen, ohne auf die numerische Effizienz der Verwendung eines zeitlich kurzen Filterfensters für die Bestimmung eines Frequenzschätzwertes verzichten zu müssen.
Fig. 4 zeigt ein Ablaufdiagramm eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens 400 zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters. Hierbei umfasst das in Fig. 4 dargestellt Verfahren in einem ersten Schritt ein Ermitteln 402 eines Frequenzschätzwertes eines in dem Audiosignal auftretenden Tons. Dieses Ermitteln 402 kann dabei, wie vorstehend ausgeführt wurde, unter Verwendung eines numerisch effizient durchzuführenden Zeit- Frequenzbereichsumsetzungsverfahren wie beispielsweise ei- ner FFT bzw. einer STFT durchgeführt werden. Als Ergebnis kann durch das vorstehend ebenfalls näher spezifizierte Verfahren des „peak pickings" ein Frequenzschätzwert ermittelt werden. Dieser Frequenzschätzwert wird in einem nach- folgenden Schritt des Berechnens 404 einer im Vergleich zum Frequenzschätzwert exakteren Tonfrequenz des in dem Audiosignal aufgetretenen Tones weiterverwendet und hieraus beispielsweise durch das vorstehend beschriebene Verfahren von M. Desainte-Catherine eine Tonfrequenz fp berechnet. In ei- nem anschließenden Schritt erfolgt ein Vergleichen 406 der berechneten Tonfrequenz fp mit einer Mehrzahl von unterschiedlichen Frequenzraster, um dasjenige Frequenzraster zu bestimmen, das am besten mit der exakteren Tonfrequenz ü- bereinstimmt .
Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Bestimmen eines einem Audiosignal zugrundeliegenden Frequenzrasters in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digi- talen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das entsprechende Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Co pu- terprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computerprogrammprodukt auf einem Rechner abläuft. Mit anderen Worten ausgedrückt, kann die Erfindung somit als ein Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computerprogramm auf einem Computer abläuft.
Zusammenfassend lässt sich somit sagen, dass zur Bestimmung von Halbtönen in einem Audiosignal eine möglichst genaue Abbildung der Halbtöne im Frequenzbereich notwendig ist. Hierbei sollte vor einer Transformation des Audiosignals in den Frequenzbereich eine Abschätzung für die "Fehlanpas- sung" des dem Audiosignal zugrunde liegenden Frequenzrasters vorab durchgeführt werden, um sicher zu stellen, dass die tonalen Komponenten möglichst gut zu den Mittenfrequenzen der durch die Spektralumsetzung des Audiosignals von dem Zeitbereich in den Frequenzbereich übereinstimmen. Zunächst kann eine Erkennung von auftretenden tonalen Komponenten durch das vorstehend näher erläuterte Verfahren- des „peak pickings" aus einem STFT-A plitudenspektrum erfolgen, woraus sich ein Frequenzschätzwert für einen in dem Audio- signal auftretenden Ton ermitteln lässt. Dieser Frequenzschätzwert kann dann verwendet werden, um eine zu dem Frequenzschätzwert entsprechende exakte Frequenz fp zu berechnen, wobei dieses Berechnen der exakten Frequenz unter Verwendung eines transformierten abgeleiteten (d.h. differen- zierten) Signals erfolgen kann, wie dies beispielsweise in dem von M. Desainte-Catherine vorgeschlagenen Verfahren möglich ist. Für jeden dieser exakten Tonfrequenz-Werte kann dann ein "Verstimmungsfaktor" bestimmt werden und ein Histogramm für 10 aufeinander folgende Zeitrahmen (oder Zeitsegmente) des Audiosignalsegmentes erstellt werden. Hierbei wird in etwa durch die 10 Rahmen der Audiosignalsegmente eine Zeitspanne von 1,4 Sek. abgedeckt, wobei- ein in dem Audiosignal auftretender Ton innerhalb dieser Zeitspanne mit hoher Wahrscheinlichkeit erkennbar ist. Aus dem Histogramm kann dann ein Maximum erkannt werden, das anzeigt, welches von beispielsweise drei Koeffizientensätzen für eine nahfolgenden Transformation mit beispielsweise dem CQT-Verfahren zu verwenden ist. Hierbei ist beispielsweise ein erster Koeffizientensatz derart ausgestaltet, dass er auf eine Mittenfrequenz von exakt 440 Herz gestimmt ist (d.h. seine Stimmung ist auf eine exakte Frequenz von 440 Hz ±0 cent) , ein zweiter Koeffizientensatz ist beispielsweise 33 cent niedriger gestimmt und ein dritter Koeffizientensatz ist derart gestimmt, dass mit diesem dritten Koeffizientensatz Rasterfrequenzen realisierbar sind, die 33 cent über den Rasterfrequenzen des ersten Koeffizientensatzes liegen.

Claims

Patentansprüche
Vorrichtung (100) zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters (f) mit folgenden Merkmalen:
einer Einrichtung (102) zum Ermitteln eines Frequenzschätzwertes eines in dem Audiosignal auftretenden Tones;
einer Einrichtung (104) zum Berechnen einer im Vergleich zum Frequenzschätzwert exakteren Tonfrequenz (fp) eines in dem Audiosignal auftretenden Tons unter Verwendung des Frequenzschätzwertes und des Audiosig- nals; und
einer Einrichtung (106) zum Vergleichen der Tonfrequenz (fp) mit einer Mehrzahl von unterschiedlichen Frequenzrastern (f_, f, f+) , wobei jedes Frequenzras- ter (f_, f, f+) einer anderen Stimmung zugeordnet ist, wobei die Einrichtung (106) zum Vergleichen ausgebildet ist, um das Frequenzraster (f) zu bestimmen, das mit der Tonfrequenz (fp) am besten übereinstimmt.
Vorrichtung (100) zum Bestimmen, bei der das Frequenzraster eine Anzahl von Rasterfrequenzen (f0, fi, f2) umfasst, die in einer nicht-linearen Skalierung auf der Frequenzachse angeordnet sind, wobei ein spektraler Abstand zwischen einer ersten Rasterfrequenz und einer zur ersten Rasterfrequenz benachbarten zweiten Rasterfrequenz in einem vorbestimmten Toleranzbereich einem Halbtonabstand zwischen zwei in einem Bereich um die erste Rasterfrequenz benachbarten Halbtöne einer Notenskala entspricht, und wobei die Einrichtung (106) zum Vergleichen ausgebildet ist, um einen spektralen Abstand zwischen einer Rasterfrequenz (fi-, fi, fι+) und der Tonfrequenz (fp) zu ermitteln.
3. Vorrichtung (100) zum Bestimmen gemäß Anspruch 2, bei der drei voneinander unterscheidbare Frequenzraster (f_, f, f+) bereitgestellt sind, wobei die Rasterfrequenzen eines ersten Frequenzrasters Halbtonfrequenzen einer Notenskala entsprechen, die Rasterfrequenzen des zweiten Frequenzrasters um einen Drittel Halbtonabstand reduzierten Halbtonfrequenzen der Notenskala entsprechen und die Rasterfrequenzen des dritten Frequenzrasters um einen dritten Halbtonabstand erhöhten Halbtonfrequenzen der Notenskala entsprechen, und wobei die Einrichtung (106) zum Vergleichen ausgebildet ist, um diejenige Rasterfrequenz des ersten, zweiten oder dritten Frequenzrasters zu ermitteln, das eine Rasterfrequenz aufweist, die einen geringeren spektra- len Abstand zur Tonfrequenz (fp) aufweist als eine Rasterfrequenz eines anderen des ersten, zweiten oder dritten Frequenzrasters.
4. Vorrichtung (100) gemäß einem der Ansprüche 1 bis 3, bei der die Einrichtung (102) zum Ermitteln ausgebildet ist, um eine Umsetzung eines Segmentes des Audiosignals in den Frequenzbereich durchzuführen, um ein Audiofrequenzbereichssignal zu erhalten, wobei einer ersten Frequenz des Audiofrequenzbereichssignals ein erster Amplitudenwert zugewiesen wird und einer zweiten Frequenz des Audiofrequenzbereichssignals ein zweiter Amplitudenwert zugewiesen wird und wobei die Einrichtung zum Ermitteln ferner ausgebildet ist, die erste Frequenz (fi) als Frequenzschätzwert des in dem Audiosignal aufgetretenen Tones zu ermitteln, wenn der erste Amplitudenwert größer als der zweite Amplitudenwert ist.
5. Vorrichtung (100) zum Bestimmen gemäß Anspruch 4, bei der die Einrichtung (102) zum Ermitteln ferner ausgebildet ist, um die erste Frequenz ( f ) als Frequenzschätzwert zu ermitteln, wenn der erste Amplitudenwert größer als ein vordefinierter Schwellwert ist oder ein Quotient aus dem ersten und zweiten Amplitudenwert größer als der vordefinierte Schwellwert ist.
6. Vorrichtung (100) zum Bestimmen gemäß einem der An- sprüche 4 bis 5, bei der die Einrichtung (104) zum Berechnen ausgebildet ist, um aus einem Segment des Audiosignals eine differenzierte Version des Segmentes des Audiosignals zu berechnen, die differenzierte Version des Audiosignals in den Frequenzbereich umzuset- zen, um ein differenziertes Audiofrequenzbereichssignal zu erhalten und ein Berechnen der im Vergleich zu dem Frequenzschätzwert exakteren Tonfrequenz (fp) auf der Basis des Audiofrequenzbereichssignals, des differenzierten Audiofrequenzbereichssignals und des Fre- quenzschätzwertes durchzuführen.
7. Vorrichtung (100) zum Bestimmen gemäß Anspruch 6, bei der die Einrichtung (102) zum Ermitteln und die Einrichtung (104) zum Berechnen ausgebildet sind, um das Umsetzen des Segmentes des Audiosignals in den Frequenzbereich auf eine gleiche Weise durchzuführen wie das Umsetzen der differenzierten Version des Segmentes des Audiosignals in den Frequenzbereich.
8. Vorrichtung (100) zum Bestimmen gemäß einem der Ansprüche 1 bis 7, bei der die Einrichtung (102) zum Ermitteln ausgebildet ist, um aus dem Audiosignal eine Mehrzahl von Audiosignalteilsegmenten zu ermitteln und für jedes Audioteilsignalsegment einen Frequenzschätz- wert des in dem Audioteilsignalsegmentes auftretenden Tones zu ermitteln, wobei die Einrichtung (104) zum Berechnen ausgebildet ist, um für jedes Audiosignalteilsegment eine im Vergleich zu dem Frequenzschätzwert exaktere Tonfrequenz (fp) des in dem Audiosignal- teilsegment auftretenden Tones zu berechnen und wobei ferner die Einrichtung (106) zum Vergleichen ausgebildet ist, um das Bestimmen des Frequenzrasters auf der Basis der Mehrzahl der berechneten exakteren Tonfrequenzen (fp) zu bestimmen.
9. Vorrichtung (100) zum Bestimmen gemäß Anspruch 3 und 8, bei der die Einrichtung (104) zum Berechnen ausgebildet ist, um eine erste Klasse von Tonfrequenzen, eine zweite Klasse von Tonfrequenzen und eine dritte Klasse von Tonfrequenzen zu definieren, wobei die Tonfrequenzen der ersten Klasse in einer ersten spektra- len Spanne mit einer Rasterfrequenz des ersten Frequenzrasters liegen, die Tonfrequenzen der zweiten Klasse in einer zweiten spektralen Spanne mit einer Rasterfrequenz des zweiten Frequenzrasters liegen und die Tonfrequenzen der dritten Klasse in einer dritten spektralen Spanne mit einer Rasterfrequenz des dritten Frequenzrasters liegen, wobei sich die spektralen Spannen der ersten, zweiten und dritten Klasse nicht überschneiden, wobei die Einrichtung (104) ferner ausgebildet ist, um eine Häufigkeit eines Auftretens von Tonfrequenzen (fp) in jeder der ersten, zweiten oder dritten Klasse zu ermitteln und wobei die Einrichtung (106) zum Vergleichen ausgebildet ist, um dasjenige Frequenzraster zu bestimmen, das eine Rasterfrequenz in der Klasse aufweist, in der die meisten Tonfrequen- zen (fp) aufgetreten sind.
10. Vorrichtung (100) zum Bestimmen gemäß Anspruch 8 oder 9, bei der die Einrichtung (102) zürn Ermitteln ausgebildet ist, um aus dem Audiosignal 10 Audiosignalteil- segmente zu ermitteln.
11. Vorrichtung (100) zum Bestimmen gemäß einem der Ansprüche 1 bis 10, bei der zu jedem Frequenzraster ein das Frequenzraster eindeutig definierender Koeffizien- tensatz zugeordnet ist, wobei die Vorrichtung (100) ferner folgende Merkmale aufweist: eine Einrichtung zum Auswählen des dem bestimmten Frequenzraster zugeordneten Koeffizientensatzes; und eine Einrichtung zum Umsetzen des Audiosignals in den Frequenzbereich unter Verwendung des ausgewählten Koeffizientensatzes .
12. Vorrichtung (100) zum Bestimmen gemäß den Ansprüchen 4 und 11, bei der die Einrichtung (102) zum Ermitteln ausgebildet ist, um das Umsetzen des Segmentes des Audiosignals unter Verwendung eines ersten Umsetzungsalgorithmus auszuführen und bei der die Einrichtung zum Umsetzen des Audiosignals in den Frequenzbereich ausgebildet ist, um das Umsetzen unter Verwendung eines zweiten Umsetzungsalgorithmus auszuführen, wobei das Ausführen des ersten Umsetzungsalgorithmus einen geringeren numerischen Aufwand erfordert, als das Ausführen des zweiten Umsetzungsalgorithmus.
13. Verfahren (400) zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters (f) mit folgenden Merkmalen:
Ermitteln (402) eines Frequenzschätzwertes eines in dem Audiosignal auftretenden Tones;
Berechnen (404) einer im Vergleich zum Frequenzschätzwert exakteren Tonfrequenz (fp) eines in dem Audiosignal auftretenden Tons unter Verwendung des Frequenz- Schätzwertes und des Audiosignals; und
Vergleichen (406) der Tonfrequenz (fp) mit einer Mehrzahl von unterschiedlichen Frequenzrastern (f_, f, f+) , wobei jedes Frequenzraster (f_, f, f+) einer ande- ren Stimmung zugeordnet ist, um durch das Vergleichen (406) das Frequenzraster (f) zu bestimmen, das mit der Tonfrequenz (fp) am besten übereinstimmt.
4. Computer-Programm mit Programmcode zur Durchführung des Verfahrens gemäß Anspruch 13, wenn das Computer- Programm auf einem Computer abläuft.
PCT/EP2005/004679 2004-06-14 2005-04-29 Vorrichtung und verfahren zum bestimmen eines einem audiosignal zugrunde liegenden frequenzrasters WO2005122137A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102004028719.8 2004-06-14
DE200410028719 DE102004028719A1 (de) 2004-06-14 2004-06-14 Vorrichtung und Verfahren zum Bestimmen eines einem Audiosignal zugrunde liegenden Frequenzrasters

Publications (1)

Publication Number Publication Date
WO2005122137A1 true WO2005122137A1 (de) 2005-12-22

Family

ID=34965190

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2005/004679 WO2005122137A1 (de) 2004-06-14 2005-04-29 Vorrichtung und verfahren zum bestimmen eines einem audiosignal zugrunde liegenden frequenzrasters

Country Status (2)

Country Link
DE (1) DE102004028719A1 (de)
WO (1) WO2005122137A1 (de)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4354418A (en) * 1980-08-25 1982-10-19 Nuvatec, Inc. Automatic note analyzer
DE3725820C1 (de) * 1987-08-04 1988-05-26 Mohrlok, Werner, 7218 Trossingen, De
JPH02173799A (ja) * 1988-12-27 1990-07-05 Kawai Musical Instr Mfg Co Ltd 音高変更装置
JP4771323B2 (ja) * 2001-05-17 2011-09-14 新世代株式会社 音階認識方法、音階認識装置、及び、記録媒体

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BROWN J C: "CALCULATION OF A CONSTANT Q SPECTRAL TRANSFORM", JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, AMERICAN INSTITUTE OF PHYSICS. NEW YORK, US, vol. 89, no. 1, January 1991 (1991-01-01), pages 425 - 434, XP000178912, ISSN: 0001-4966 *
DESAINTE-CHATHERINE M ET AL: "HIGH-PRECISION FOURIER ANALYSIS OF SOUNDS USING SIGNAL DERIVATIVES", JOURNAL OF THE AUDIO ENGINEERING SOCIETY, AUDIO ENGINEERING SOCIETY. NEW YORK, US, vol. 48, no. 7/8, 1 July 2000 (2000-07-01), pages 654 - 667, XP001001994, ISSN: 0004-7554 *
PATRICIO DE LA CUADRA, AARON MASTER, CRAIG SAPP: "Efficient Pitch Detection Techniques for Interactive Music", ICMC, INTERNATIONAL COMPUTER MUSIC CONFERENCE, 2001, XP002346435 *
WEILUN LAO, EK TSOON TAN, ALVIN H. KAM: "Computationally Inexpensive and Effective Scheme for Automatic Transcription of Polyphonic Music", IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME0), 30 June 2004 (2004-06-30), Taipei, Taiwan, XP002343723 *
YONGWEI ZHU, MOHAN S. KANKANHALLI, SENG GAO: "Music Key Detection for Musical Audio", PROCEEDINGS OF THE 11TH INTERNATIONAL MULTIMEDIA MODELLING CONVERENCE (MMM'05), 14 January 2005 (2005-01-14), Melbourne, Australia, XP002343722 *

Also Published As

Publication number Publication date
DE102004028719A1 (de) 2006-01-05

Similar Documents

Publication Publication Date Title
DE3306730C2 (de)
DE69607223T2 (de) Verfahren zur Tonhöhenerkennung, insbesondere für Zupf- oder Perkussionsinstrumente
EP0624866B1 (de) Frequenzanalyseverfahren
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE60103086T2 (de) Verbesserung von quellcodierungssystemen durch adaptive transposition
DE2659096C2 (de)
EP1797552A2 (de) Verfahren und vorrichtung zur extraktion einer einem audiosignal zu grunde liegenden melodie
DE69700087T2 (de) Gerät und Verfahren zur Signalanalyse
DE69901894T2 (de) Verfahren und vorrichtung zur objektiven qualitätsmessung von audiosignalen
DE60221927T2 (de) Vorrichtung und Programm zur Schallcodierung
WO2006039993A1 (de) Verfahren und vorrichtung zur glättung eines melodieliniensegments
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
WO2005122135A1 (de) Vorrichtung und verfahren zum umsetzen eines informationssignals in eine spektraldarstellung mit variabler auflösung
WO2006039992A1 (de) Extraktion einer einem audiosignal zu grunde liegenden melodie
DE10157454B4 (de) Verfahren und Vorrichtung zum Erzeugen einer Kennung für ein Audiosignal, Verfahren und Vorrichtung zum Aufbauen einer Instrumentendatenbank und Verfahren und Vorrichtung zum Bestimmen der Art eines Instruments
DE69020736T2 (de) Wellenanalyse.
DE102004028693B4 (de) Vorrichtung und Verfahren zum Bestimmen eines Akkordtyps, der einem Testsignal zugrunde liegt
DE102005032982B4 (de) Verfahren und Vorrichtung zur Analog-Digital-Wandlung eines Eingangssignals
DE4218623C2 (de) Sprachsynthesizer
DE102012025016B3 (de) Verfahren zur Ermittlung wenigstens zweier Einzelsignale aus wenigstens zwei Ausgangssignalen
DE60110541T2 (de) Verfahren zur Spracherkennung mit geräuschabhängiger Normalisierung der Varianz
DE102005012977A1 (de) Verfahren und System zur Rauschmessung mit den kombinierbaren Unterverfahren Messen, Identifizieren und Beseitigen von sinusförmigen Störsignalen in einem Rauschsignal
EP1758096A1 (de) Verfahren und Vorrichtung zur Mustererkennung in akustischen Aufnahmen
WO2005122137A1 (de) Vorrichtung und verfahren zum bestimmen eines einem audiosignal zugrunde liegenden frequenzrasters
EP0689667B1 (de) Verfahren zum auswerten von schall

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

122 Ep: pct application non-entry in european phase