Vorrichtung und Verfahren zum Bestimmen einer Tonart eines Audiosignals mit Musikinformationen
Beschreibung
Die vorliegende Erfindung bezieht sich auf das technische Gebiet der Tonarterkennung eines Musiksignals und insbesondere bezieht sich die vorliegende Erfindung auf eine Vorrichtung und ein Verfahren einer Tonartbestimmung eines Musiksignals, das eine verbesserte zeitliche Auflösung des Musiksignals bietet.
In den letzten Jahren hat sich, bedingt durch die starke Aufsplitterung des Musikgeschmacks, eine Vielzahl von unterschiedlichen Musikrichtungen und -Stilen ergeben. Zu diesen unter- schiedlichen Musikstilen und -richtungen wurde in der letzten Zeit eine sehr große und mittlerweile teils unüberschaubare Menge von neuen Musikstücken durch die verschiedensten Interpreten erstellt, so dass nunmehr eine Person, die nicht 100 prozentig auf den aktuellsten musikalisch Stand ist, teilweise erhebliche Schwierigkeiten hat, den Überblick über die verschiedensten Stücke bzw. die verschiedensten Musikrichtungen und -Stile zu behalten. Um dieses Problem etwas zu entschärfen, werden Systeme und Verfahren entwickelt, um eine gewisse Klassifizierung der Musikstücke anhand von vorgegebenen Kriterien durchführen zu können, um einer solchen nicht 100 prozentig aktuellsten Stand befindlichen Person, eine "vorgefilterte" Menge von Musikstücken zur Auswahl zu stellen, die beispielsweise einem bestimmten musikalischen Geschmack der Person nahe kommt. Für eine Klassifikation von derartigen Musikstücken, die dem musikalischen Geschmack der Person entsprechen, kann beispielsweise das Kriterium der Tonart eines Musikstücks verwendet werden, was insbesondere für die klassische Musik eine gute Hilfestellung für eine Auswahl der verschiedenen Musikrichtungen und -Stile ist.
Problematisch bei der Bestimmung der Tonart eines Musikstücks, das in der Form eines Audiosignals mit Musikinformationen vor-
liegt, ist in diesem Zusammenhang allerdings zu nennen, dass die wenigsten Musikstücke durchgehend nur eine einzige Tonart aufweisen. Vielmehr treten in einzelnen Segmenten des Musikstücks verschiedene Tonarten auf, so dass innerhalb des Musik- Stücks, das heißt, innerhalb des Audiosignals mit den Musikinformationen, Abschnitte auftreten, denen eine unterschiedliche Tonart zugrunde liegt. Dies wiederum stellt bei der Ermittlung der Tonart des gesamten Musikstücks ein Problem dar. Dieses Problem besteht insbesondere darin, die Tonart eines Musik- Stücks meist durch eine Transformation des üblicherweise in Zeitbereichsdarstellung vorliegenden Audiosignals in den Frequenzbereich erfolgt, wobei eine sehr "scharfe" spektrale Auflösung nur dann erreicht wird, wenn ein möglichst langes zeitliches Audiosignal verwendet wird. Tritt innerhalb des trans- formierten Audiosignals lediglich eine Tonart auf, wäre eine Tonartbestimmung durch ein solches Verfahren nicht problematisch. Da, wie zuvor ausgeführt, in den meisten Musikstücken jedoch Tonartwechsel auftreten, kann bei einer Transformation eines Audiosignals oder eines Segments des Audiosignals, das einen Tonartwechsel umfasst, meist keine eindeutige Entscheidung getroffen werden, da durch mehrere, in dem Audiosignalsegment auftretende Tonarten, eine eindeutige Zuordnung des untersuchten Audiosignalsegments zu einer einzigen Tonart erschwert oder gar unmöglich wird. In diesem Fall treten dann meist Feh- 1er bei der Tonarterkennung auf, die dann meist zu einer deutlichen Behinderung der Einsetzbarkeit eines derartigen Ansatzes beiträgt.
Um diesem Problem Rechnung zu tragen, kann versucht werden, die vom Zeitbereich in den Frequenzbereich zu transformierenden Audiosignalsegmente aus dem Audiosignal sehr kurz zu gestalten, so dass möglichst ein Wechsel der Tonart innerhalb eines Audiosegments vermieden wird. Ein derartiger Ansatz weist allerdings den Nachteil auf, dass durch zeitlich sehr kurze Audiosignal- segmente nur eine "unscharfe" spektrale Auflösung der in dem Audiosignalsegment enthaltenden Frequenzanteile möglich ist,
wodurch wiederum die Zuordnung einer Tonart zu dem Audiosignal erschwert wird.
Eine Ermittlung der Tonart des Audiosignalsegments kann in die- sem Zusammenhang beispielsweise durch das von David Temperley in dessen Buch „The cognition of basical musical structues", The MIT Press, 2001, Seiten 173 bis 187 vorgeschlagene Verfahren erfolgen, in welchem eine zeitliche Auftrittsdauer von Tönen in einer Oktave bestimmt und mit verschiedenen Tonart- Referenzvektoren korreliert werden, um aufgrund eines maximalen Korrelationskoeffizienten die dem Tonart-Referenzvektor entsprechende Tonart als Tonart des Audiosignalsegments zu bestimmen.
Die Problematik bei der Bestimmung einer möglichst "scharfen" Frequenzauflösung und zugleich einem Vermeiden von Tonartwechseln innerhalb der zeitlichen Dauer des zu untersuchenden Audiosignalsegments besteht somit darin, eine Zeitdauer zu finden, die für alle zu untersuchenden Musikstücken gute Ergebnis- se für die Tonartbestimmung liefert. Ist die Zeitdauer des zu untersuchenden Signalsegments allerdings zu kurz, sind die Resultate, wie oben dargestellt, erstens aufgrund der unscharfen Frequenzauflösung unzuverlässig und zweitens kann durch eine kurze zeitliche Dauer keine präzise statistische Auswertung ü- ber die Auftrittsdauer von einzelnen Tönen einer Oktave innerhalb des auszuwertenden Audiosignalsegments erfolgen, was wiederum die Tonartbestimmung auf der Basis einer kurzen zeitlichen Dauer des Audiosignalsegments behindert. Sind jedoch andererseits die zeitlichen Dauern der Audiosignalsegmente zu lan- ge, kann ein Tonartwechsel, der innerhalb des Audiosignalsegments erfolgt, nicht detektiert und damit für die Bestimmung einer Tonart des gesamten Musikstücks nicht berücksichtigt werden.
Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, eine Vorrichtung und ein Verfahren zum Bestimmen einer Tonart eines Audiosignals mit Musikinformationen zu schaffen, das in
Bezug auf ein zeitliches Auflösungsverhalten verbesserte Cha- rakteristika aufweist.
Diese Aufgabe wird durch eine Vorrichtung gemäß Anspruch 1 so- wie ein Verfahren gemäß Anspruch 13 gelöst.
Die vorliegende Erfindung schafft eine Vorrichtung zum Bestimmen einer Tonart eines Audiosignals mit Musikinformationen, die folgende Merkmale aufweist:
eine Einrichtung zum Definieren eines ersten Audiosignalsegments und eines zweiten Audiosignalsegments, wobei sich das erste Audiosignalsegment und das zweite Audiosignalsegment ü- berlappen und unterschiedliche Zeitdauern haben;
eine Einrichtung zum Abschätzen einer Tonart für jedes Audiosignalsegment, um einen ersten Tonartschätzwert für das erste Audiosignalsegment und einen zweiten Tonartschätzwert für das zweite Audiosignalsegment zu erhalten; und
eine Einrichtung zum Auswerten der Tonartschätzwerte, um auf der Basis des ersten Tonartschätzwerts und des zweiten Tonartschätzwerts die Tonart des Audiosignals zu bestimmen.
Ferner schafft die vorliegende Erfindung ein Verfahren zum Bestimmen einer Tonart eines Audiosignals mit Musikinformationen, das folgende Schritte aufweist:
Definieren eines ersten Audiosignalsegments und eines zweiten Audiosignalsegments, wobei sich das erste Audiosignalsegment und das zweite Audiosignalsegment überlappen und unterschiedliche Zeitdauern haben;
Abschätzen einer Tonart für jedes Audiosignalsegment, um einen ersten Tonartschätzwert für das erste Audiosignalsegment und einen zweiten Tonartschätzwert für das zweite Audiosignalsegment zu erhalten; und
Auswerten der Tonartschätzwerte, um auf der Basis des ersten Tonartschätzwerts und des zweiten Tonartschätzwerts die Tonart des Audiosignals zu bestimmen.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass durch das Definieren von mehreren Audiosignalsegmenten, die sich überlappen und unterschiedliche Zeitdauern haben, ein verbessertes zeitliches Auflösungsverhalten und damit einhergehend eine verbesserte Charakteristik einer Bestimmung einer Tonart eines Audiosignals möglich ist. Insbesondere dadurch, dass sich die Audiosignalsegmente überlappen, ist ein Signalanteil des Audiosignals somit in zwei verschiedenen Audiosignalsegmenten enthalten und wird somit bei der Bestimmung des Tonartschätz- werts für beide Audiosignalsegmente berücksichtigt. Außerdem wird durch die unterschiedlichen Zeitdauern der einzelnen Audiosignalsegmente ein unterschiedliches Auflösungsverhalten sowie eine unterschiedliche statistische Auswertung möglich, was zu einer Verbesserung der spektralen "Schärfe" und somit zu ei- ner Verbesserung der Tonarterkennung für länger andauernde Audiosignalsegmente mit gleichbleibender Tonart führt. Dem gegenüber können durch das Abschätzen einer Tonart für das kürzere Audiosignalsegment gegenüber dem längeren Audiosignalsegment möglicherweise auftretende Tonartwechsel in dem längeren Audio- signalsegment erkannt werden. Werden nun für die einzelnen Audiosignalsegmente Tonartschätzwerte ermittelt, kann durch das Auswerten der einzelnen Tonartschätzwerte einerseits ein Rück- schluss auf die Tonart des gesamten Audiosignals mit den Musikinformationen gezogen werden und andererseits auch das zeitli- ehe Auftreten eines Tonartwechsels innerhalb des Audiosignals mit den Musikinformationen erkannt werden. Dieses Erkennen des Tonartwechsels kann insbesondere durch das Auswerten des Tonartschätzwerts für das kürzere Audiosignalsegment im Vergleich mit dem Tonartschätzwert für das längere Audiosignalsegment er- folgen.
Die vorliegende Erfindung bietet den Vorteil, eine verbesserte zeitliche Auflösung bei der Bestimmung der Tonart eines Audiosignals zu ermöglichen und dadurch eine verbesserte Charakteristik einer Vorrichtung zum Bestimmen einer Tonart eines Au- diosignals zu schaffen. Insbesondere durch das Definieren des ersten Audiosignalsegments und des zweiten Audiosignalsegments, wobei sich das erste und zweite Audiosignalsegment überlappen und unterschiedliche Zeitdauern haben, lässt sich nun eine verbesserte Auswertung der Tonart eines Musiksignals durchführen, derart, dass gegenüber dem Stand der Technik Tonartwechsel innerhalb des Audiosignals durch die Auswertung des kürzeren Audiosignalsegments im Vergleich zum längeren Audiosignalsegment erkennbar werden. Ferner lässt sich auch durch die Auswertung der Tonartschätzwerte für jedes Audiosignalsegment ein Rück- schluss für die Tonart des Audiosignals mit den Musikinformationen ziehen. Hierzu kann beispielsweise eine Häufigkeitsverteilung oder Statistik der auftretenden Ausprägungen der Tonartschätzwerte (beispielsweise in Form von Zahlenwerten, die Tonarten repräsentieren) ermittelt werden und diejenige Tonart, die der am häufigsten auftretenden Ausprägungen eines Tonartschätzwertes entspricht, als Tonart des Audiosignals bestimmt werden.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung wer- den nachfolgend anhand der beiliegenden Zeichnungen näher erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild eines Ausführungsbeispiels einer erfindungsgemäßen Vorrichtung zum Bestimmen einer Tonart eines Audiosignals;
Fig. 2A eine Matrixdarstellung, wie sie durch die Einrichtung zum Abschätzen einer Tonart gemäß einem weiteren Ausführungsbeispiel erstellt wird;
Fig. 2B eine vergrößerte Darstellung des Zeilenanfang der in Fig. 2A dargestellten ersten Matrixzeile; und
Fig. 3 eine Kreisdiagramm-Darstellung der unter Verwendung von Ausführungsbeispielen der vorliegenden Erfindung erhaltenen Ergebnisse.
In der nachfolgenden Beschreibung werden für gleiche oder gleich wirkende Elemente gleiche oder ähnlich Bezugszeichen verwendet, wobei auf eine wiederholte Beschreibung dieser Elemente verzichtet wird.
Fig. 1 zeigt ein Blockschaltbild eines Ausführungsbeispiels der erfindungsgemäßen Vorrichtung 100 zum Bestimmen einer Tonart eines Audiosignals. Die Vorrichtung 100 zum Bestimmen einer Tonart eines Audiosignals weist eine Einrichtung 102 zum Defi- nieren eines ersten Audiosignalssegments und eines zweiten Audiosignalsegments, eine Einrichtung 104 zum Abschätzen einer Tonart, um Tonartschätzwerte für jedes Audiosignalsegment zu erhalten und eine Einrichtung 106 zum Auswerten der Tonartschätzwerte, um die Tonart des Audiosignals zu bestimmen. Die Einrichtung 102 zum Definieren eines ersten Audiosignalsegments und eines zweiten Audiosignalsegments umfasst einen Eingang zum Empfangen eines Audiosignals 108 und einen Ausgang zum Ausgeben der definierten Audiosignalsegmente 110. Ferner umfasst die Einrichtung 104 zum Abschätzen einen Eingang zum Empfangen der von der Einrichtung 102 zum Definieren ausgegebenen Audiosignalsegmente 110 sowie einen Ausgang zum Ausgeben der erhaltenen Tonartschätzwerte 112. Die Einrichtung 106 zum Auswerten umfasst einen Eingang zum Empfangen der von der Einrichtung 104 zum Abschätzen ausgegebenen Tonartschätzwerte 112 und einen Ausgang zum Ausgeben der bestimmten Tonart 114 des Audiosignals 108.
Die Funktionsweise der in Fig. 1 als Blockschaltbild dargestellten Vorrichtung 100 zum Bestimmen einer Tonart lässt sich wie folgt beschreiben: Zuerst wird ein Audiosignal 108 der Einrichtung 102 zum Definieren eines ersten Audiosignalsegments und eines zweiten Audiosignalsegments zugeführt. Die Einrich-
tung 102 zum Definieren bildet dann aus dem Audiosignal ein erstes Audiosignalsegment und ein zweites Audiosignalsegment, wobei sich das erste Audiosignalsegment und das zweite Audiosignalsegment überlappen und unterschiedliche Zeitdauern haben. Hierbei wird durch die Einrichtung 102 zum Definieren ein variabler Zeitrahmen gewählt und beispielsweise zum Definieren des ersten Audiosignalsegments unter Verwendung des Zeitrahmens die Informationen in dem Audiosignal praktisch "herausgestanzt", die innerhalb des Zeitrahmens liegen. Der Zeitrahmen ist dabei durch einen Startzeitpunkt und einen dem Startzeitpunkt zeitlich nachgelagerten Endzeitpunkt definiert. Anschließend wird durch die Einrichtung 102 der Zeitrahmen derart verändert, dass der Startzeitpunkt gleich bleibt, jedoch der Endzeitpunkt auf einen zeitlich dem ersten Endzeitpunkt nachgelagerten zweiten Endzeitpunkt gesetzt wird, so dass der neu erstellte (zweite) Zeitrahmen eine größere zeitliche Länge aufweist, als der zum Erstellen des ersten Audiosignalssegments verwendete Zeitrahmen. Unter Verwendung des neuen, zweiten Zeitrahmens wird nun aus dem Audiosignal wieder praktisch ein Segment "herausge- stanzt", wobei nun die Informationen, die im ersten Audiosignalsegment enthalten sind, auch im zweiten Audiosignalsegment enthalten sind. Zusätzlich weist jedoch das zweite Audiosignalsegment Informationen auf, die im Audiosignal in der Zeitdauer zwischen dem ersten Endzeitpunkt und dem zweiten Endzeitpunkt angeordnet sind. Auf diese Weise werden zwei Audiosignalsegmente erstellt, die sich zeitlich überlappen, jedoch unterschiedliche Zeitdauern haben. Weiterhin kann die Einrichtung 102 ausgebildet sein, um weitere Audiosignalsegmente zu definieren, beispielsweise derart, dass für ein drittes Audiosig- nalsegment der Startzeitpunkt des (dritten) Zeitrahmens mit dem ersten und zweiten Startzeitpunkt identisch ist und der dritte Endzeitpunkt auf einen Zeitpunkt gelegt wird, der zeitlich nach dem zweiten Endzeitpunkt angeordnet ist. Hierdurch würde dann der Zeitrahmen für das dritte Audiosignalsegment wieder größer als der zweite Zeitrahmen, wobei durch die identischen Startzeitpunkte wieder die Information in dem zweiten Audiosignalsegment auch vollständig in dem dritten Audiosignalsegment ent-
halten ist, das dritte Audiosignalsegment jedoch zusätzlich die Informationen des Audiosignals umfasst, die zwischen dem zweiten Endzeitpunkt und dem dritten Endzeitpunkt liegt. Alternativ kann die Einrichtung 102 zum Definieren auch ausgebildet sein, um den Startzeitpunkt auf einen zeitlich nachgelagerten (zweiten) Startzeitpunkt zu legen. In diesem Fall lässt sich somit praktisch ein "Weiterschieben" des Zeitrahmens ausführen, indem dann beispielsweise wiederum nach der vorstehend beschriebenen Methode die Zeitrahmen für die Bildung von Audiosignalsegmenten entsprechend erweitert bzw. verlängert wird.
Die auf diese Weise durch die Einrichtung 102 zum Definieren erhaltenen Audiosignalsegmente 110 werden dann der Einrichtung 104 zum Abschätzen einer Tonart zugeführt, wobei die Einrich- tung 104 zum Abschätzen für jedes Audiosignalsegment je einen Tonartschätzwert bestimmt. Diese Bestimmung des Tonartschätzwertes kann beispielsweise auf die eingangs dargelegte Weise nach David Temperley erfolgen. Diese Tonartschätzwerte können entweder Nominalwerte sein, die bereits eine Tonart charakteri- sieren (beispielsweise B-Dur, D#-moll, F#-moll etc.) sein. Alternativ kann auch jeder Tonart ein Zahlenwert zugeordnet werden, wobei dann der Tonartschätzwert diesem Zahlenwert entspricht. In einer besonderen Ausführungsform kann auch eine Matrixstruktur der Tonartschätzwerte unter Berücksichtung der Start- und Endzeitpunkte erfolgen, wie er unter Bezugnahme auf die Fig. 2A und 2B nachfolgend näher beschrieben ist.
Die Einrichtung 104 zum Abschätzen kann dann die Tonartschätzwerte 112 entweder direkt oder alternativ in Form der Matrix an die Einrichtung 106 zum Auswerten der Tonartschätzwerte weitergegeben werden. Die Einrichtung 106 zum Auswerten der Tonartschätzwerte kann auf dann ausgebildet sein, um die Tonart 114 des Audiosignals 108 zu bestimmen. Dieses Bestimmen der Tonart 114 des Audiosignals 108 kann beispielsweise durch eine Auswer- tung der Häufigkeit des Auftretens von Ausprägungen der Tonartschätzwerte in Form der vorstehend genannten Zahlenwerte für jede Tonart erfolgen, wobei dann diejenige Tonart als Tonart
114 des Audiosignals 108 bestimmt wird, die am häufigsten auftritt, bzw. deren entsprechender Zahlenwert am häufigsten in den Audiosignalsegmenten auftritt. Alternativ kann aber auch eine andere Auswertung der einzelnen Tonartschätzwerte als die Häufigkeitsverteilungsauswertung erfolgen.
Weiterhin kann die Einrichtung 106 zum Auswerten der Tonartschätzwerte auch ausgebildet sein, um Tonartwechsel aus den Tonartschätzwerten für die einzelnen Audiosignalsegmente zu er- kennen. Diese Tonartwechsel können dann insbesondere gut erkannt werden, wenn die Tonartschätzwerte in der vorstehend bezeichneten Matrixform der Einrichtung 106 zum Auswerten übergeben werden, da hierdurch besonders einfach durch eine Differenzbildung (bei Tonartschätzwerten in Zahlendarstellung) mög- lieh ist und somit auf einfache Art und Weise erkannt werden kann, wo eine Änderung der Tonartschätzwerte in den Elementen der Matrix auftritt. Diese Änderung der Tonartschätzwerte kann dann beispielsweise dadurch bestimmt werden, dass ein Referenzelement der Matrix einen Referenztonartschätzwert hat und ein zum Referenzelement in der Matrix benachbart angeordnetes Bezugselement einen Bezugselementtonartschätzwert hat, der sich vom Referenztonartschätzwert unterscheidet. Bei der Ausbildung der Tonartschätzwerte in Zahlenform lässt sich dann weiterhin eine Optimierung ermitteln, derart, dass ein Tonartwechsel nur dann erkannt wird, wenn eine Differenz zwischen dem Referenztonartschätzwert und dem Bezugstonartschätzwert größer als ein vordefinierter Schwellwert ist. Dies ermöglicht eine präzisere Aussage über das tatsächliche Vorliegen eines Tonartwechsels, wobei dann möglicherweise Fehlklassifizierungen vermieden wer- den können, bei denen in einzelnen Elementen der Matrix (beispielsweise Zeilen oder Spalten der Matrix) kurzzeitig unterschiedlich Tonartschätzwerte auftreten. In diesem Zusammenhang kann alternativ auch als Kriterium verwendet werden, dass in einer Zeile mehrere gleiche Tonartschätzwerte in aufeinander- folgenden Matrix-Elementen der Zeile auftreten sollten, um eindeutig einen Tonartwechsel in dem Audiosignal zu ermitteln. Ein solches Kriterium entspricht dabei praktisch einer erfordern-
- li ¬
ehen zeitlichen Mindestlänge, über die eine Tonart in dem Audiosignal auftreten sollte, um erkannt zu werden.
Fig. 2A zeigt eine Matrix mit einer Diagonalstruktur, wobei die obere Diagonalmatrix mit Werten gefüllt ist. Die Zeilen der Matrix entsprechen hierbei Audiosignalsegmenten mit einem identischen Startzeitpunkt tstart (beispielsweise in Sekunden) und die Spalten der Matrix 200 entsprechen Audiosignalsegmenten mit identischen Endzeitpunkten ten<j (beispielsweise ebenfalls in Se- künden) . Die Diagonalstruktur der Matrix 200 ergibt sich dann daraus, dass für einen Startzeitpunkt eine Folge von Audiosignalsegmenten ausgewählt wird, wobei der Endzeitpunkt der Audiosignalsegmente bei gleichem Startzeitpunkt immer weiter (zeitlich) nach hinten verschoben wird. Hierdurch wird eine Auswer- tung des Audiosignals unter Berücksichtigung der Start- und Endzeitpunkte tstart und tend möglich, wie sie in Fig. 2B dargestellt ist. Bei einer Länge des ersten Audiosignalsegments ASSI von 2s (d.h. zwischen den Zeitpunkten 0s und 2s) und einer Länge des zweiten Audiosignals ASS2 von 4 Sekunden (d.h. von 0s bis 4s) ist somit der Signalgehalt des Audiosignals im Bereich von 0s bis 2s auch im zweiten Audiosignalsegment ASS2 enthalten. Dies wird durch die Schraffur von links unten nach rechts oben des ersten Audiosignalsegments im Vergleich zur Schraffur von links oben nach rechts unten des zweiten Audiosignalseg- ments ASS2 in Fig. 2B deutlich. Weiterhin könnte beispielsweise durch die Einrichtung zum Definieren ein zusätzliches Signalsegment ASS2a definiert werden, das Signalanteile des Audiosignals vom Startzeitpunkt tstart =0s bis zum Endzeitpunkt tend=6s umfasst, so wie es in Fig. 2B durch die gepunktete Schraffur dargestellt ist. Hierbei umfasst wiederum das zusätzliche Audiosignalsegment ASS2a die Information der ersten und zweiten Audiosignalsegmente ASSI und ASS2 zwischen den Zeitpunkten 0s und 4s.
In einer weiteren Ausführungsform kann die Einrichtung zum Definieren ein drittes Audiosignalsegment ASS3 definieren, das Informationen des Audiosignals von Startzeitpunkt tstart =2s bis
zum Endzeitpunkt tend =4s umfasst. Hieran anschließend kann durch die Einrichtung zum Definieren ein viertes Audiosignalsegment ASS4 definiert werden, das Informationen des Audiosignals im Zeitbereich zwischen dem Startzeitpunkt ts art =2s und dem End- Zeitpunkt tend =6s umfasst und somit die Information des Audiosignals aus dem dritten Audiosignalsegment ASS3 beinhaltet.
Durch einen derartigen Aufbau und den zeitlichen Versatz der einzelnen Audiosignalsegmente kann somit die in Fig. 2A darge- stellte Matrix erstellt werden, bei der die obere Diagonalmatrix gefüllt wird. Dieses Füllen kann beispielsweise dadurch erfolgen, dass für jedes Audiosignalsegment ein Tonartschätzwert ermittelt und dieser Wert in das Element eingetragen wird, der einen nicht von vorausgehenden Audiosignalsegmenten überlappen- den Zeitbereich entspricht. Unter Bezugnahme auf die Fig. 2B kann dann beispielsweise der Tonartschätzwert des ersten Audiosignalsegments in das Element der Matrix eingetragen werden, das die Zeitspanne von 0 bis 2 Sekunden umfasst. Hierbei ist es unerheblich, ob der Tonartschätzwert flächig (d.h. als Fläche bzw. Flächenschraffür) oder als einzelner Zahlenwert in das Matrix-Element eingetragen wird; es ist lediglich die Zuordnung eines Tonartschätzwerts zu dem Intervall zwischen 0 Sekunden als Startzeitpunkt und 2 Sekunden als Endzeitpunkt des ersten Audiosignalsegments ASSI relevant. Ferner kann der Audio- Signalschätzwert für das zweite Audiosignalsegment ASS2 in dasjenige Element der Matrix eingetragen werden, das in der ersten Zeile zwischen den Zeitpunkten 2 Sekunden und 4 Sekunden liegt, obwohl das zweite Audiosignalsegment ASS2 Informationen umfasst, die im Bereich von 0 bis 2 Sekunden liegen. Hierdurch kann sichergestellt werden, dass die Information von vorhergehenden Audiosignalsegmenten (in diesem Fall dem ersten Audiosignalsegment ASSI) nicht verloren geht und zugleich die Information des zweiten Audiosignalsegments ASS2 angemessen in der Matrixdarstellung aufgenommen werden kann. Analoges gilt auch für das zusätzliche Audiosignalsegment ASS2a, das dritte Audiosignalsegment ASS3 und des vierte Audiosignalsegment ASS4 und so weiter.
Eine solche Eintragung der unterschiedlichen Tonartschätzwerte für die einzelnen Audiosignalsegmente kann dann in einer vollständigen Darstellung der in Fig. 2A dargestellten oberen Drei- ecksmatrix entnommen werden. Hierbei ist ersichtlich, dass im Bereich von etwa 20 bis 40 Sekunden ein Tonartwechsel stattfindet, was durch den im Vergleich zu den umliegenden Tonartschätzwerten helleren Farbwert gekennzeichnet ist. Hierbei wird auch ersichtlich, dass aufgrund des durchgehenden hellen Be- reichs von der Diagonale der Matrix bis zum oberen Rand ein Tonartwechsel erkennbar ist, und insbesondere dieser Tonartwechsel durch scharfe Kanten in der Matrix, wie beispielsweise der Kante 202, eindeutig ist. Diese scharfen Kanten zeichnen sich dann insbesondere dadurch aus, dass in übereinanderliegen- den Zeilen zu gleichen Endzeitpunkten tend ein Wechsel des Tonartschätzwertes zu den nachfolgenden Tonartschätzwerten in jeder Zeile auftritt.
Weiterhin lässt sich beispielsweise aus dem rechten oberen Ele- ment der Matrix 204 ein Erstschätzwert für die Tonart des Audiosignals bestimmen, indem die Anteile des kompletten Audiosignals berücksichtigt sind. Das Bereitstellen eines solchen Erstschätzwerts für die Tonart des Audiosignals bietet den Vorteil, bereits eine schnelle Grobklassifikation über die zu er- wartende Tonart des Musikstücks bereitstellen zu können, ohne numerische aufwändig den Rest der Matrix (das heißt, die darunter liegenden Zeilen unter dem rechten oberen Element 204) berechnen oder bestimmen zu müssen. Alternativ kann auch der erste Grobschätzwert für die Tonart des Audiosignals auch aus dem zeitlich längsten Audiosignalsegment ermittelt werden, da dieses die für eine Auswertung der Tonartbestimmung höchste Informationsmenge der in dem Audiosignal enthaltenen Tonarten enthält. Diese längste Audiosignalsegment kann ein einer einfachsten Form auch das zweite Audiosignalsegment ASS2 sein, da die- ses zeitlich länger als das erste Audiosignalsegment ist.
In nachfolgenden Schritten kann dann jedoch die restliche Matrix aufgebaut werden und beispielsweise durch das vorstehend näher erläuterte Verfahren unter Verwendung einer Häufigkeitsauswertung die Tonart des Audiosignals präziser bestimmt wer- den, wobei dann zugleich einzelne Zeitsegmente in Bezug auf einen Tonartwechsel untersucht werden können.
Weiterhin zeigt sich im Bereich von 50 bis 90 Sekunden ein weiterer Tonartwechsel in der in Fig. 2A dargestellten Matrix 200. Dieser weitere Tonartwechsel zeigt jedoch keine derart "scharfen" Kanten wie die Kante 200, was mehrere Ursachen haben kann. Einerseits könnte beispielsweise ein Übergang zwischen den Tonarten gleitend sein (beispielsweise in der Form eines glissan- dos) und somit eine eindeutige oder abrupte Bestimmung eines Tonartwechsels unmöglich sein. Weiterhin könnte auch die Berücksichtigung der Zeitsegmente für die ersten 50 Sekunden des Audiosignals eine Rolle bei der Ermittlung des Tonartschätzwertes für die Audiosignalsegmente im Bereich um 70 Sekunden spielen, derart, dass eine scharfe Kante nicht mehr präzise ausge- bildet werden kann, sondern vielmehr die den Tonartwechsel kennzeichnende Kante "Ausfransungen" aufweist. Weiterhin können auch Fehlklassifikationen auftreten, die beispielsweise durch lokale Disharmonien oder zeitlich zu kurze Zeitfenster bei glissandos ausgelöst werden können und somit eine eindeutige Tonarterkennung bzw. die Berechnung eines eindeutigen Tonartschätzwerts erschweren bzw. verhindern.
Weiterhin kann eine Information über die zweithäufigst auftretende Ausprägung eines Tonartschätzwerts zur Bestimmung der Tonart des Audiosignals verwendet werden. Hierbei ist insbesondere eine Paralleltonart zu einer Tonart zu berücksichtigen, wobei die Paralleltonart dadurch charakterisiert ist, dass diese die gleichen Töne in einer Oktave (wie die Grund-) Tonart aufweist. Beispielsweise wären in diesem Zusammenhang die Ton- arten C-Dur und A-moll als Grund-Tonart und Paralleltonart zu nennen, da in beiden Tonarten die gleichen Töne in der Oktave
vorkommen, jedoch mit einer anderen Anordnung der Halbtonab- stände.
Durch die Verwendung des zweithäufigsten Auftretens eines Ton- artschätzwerts in Verbindung mit der Berücksichtigung mit der Paralleltonart für die Bestimmung der Tonart des Audiosignals ist es somit möglich, eine Verbesserung bzw. statistisch größere Absicherung des erfindungsgemäßen Ansatzes zur Bestimmung einer Tonart eines Audiosignals zu ermöglichen. Insbesondere dann, wenn eine Grundtonart und eine Paralleltonart denjenigen Tonartschätzwerten entsprechen, die am häufigsten und am zweithäufigsten in der Matrix vorkommen, lässt sich mit einer deutlich höheren Sicherheit das Vorliegen entweder der (Grund) - Tonart oder der Paralleltonart im Audiosignal feststellen, als dies lediglich durch die Berücksichtigung des am häufigsten vorkommenden Tonartschätzwerts in der Matrix möglich wäre.
Um eine weitere Verbesserung der Auswertung zu erreichen, kann ferner eine zeitliche Minimallänge eines Audiosignalsegments von beispielsweise 2 Sekunden festgelegt werden. Hierdurch ist sichergestellt, dass beispielsweise bei dem Vorliegen des Audiosignals in zeitlich aufeinanderfolgenden Signalwerten eine Zeit-Frequenzbereichstransformation möglich ist, die eine zur Tonarterkennung ausreichende spektrale "Schärfe" aufweist, und somit eine klare und eindeutige Trennung der einzelnen Töne in einer Oktave ermöglicht.
Zusammenfassend zu den Figuren 2A und 2B ist zu sagen, dass in diesem Ausführungsbeispiel eine Matrix aufgebaut wird, die An- nahmen der Tonart über verschieden lange Zeitintervalle umfasst. Hierzu kann eine minimale Zeitfensterlänge (bzw. Zeitrahmenlänge) von beispielsweise 2 Sekunden definiert werden. Nachfolgend werden alle zusammenhängenden Bereiche untersucht, die von einem Startwert tstart bis zu einem Endwert ten reichen, wobei für die verschiedenen Bereiche zunächst die Endzeitpunkte tend unterschiedlich sind und hieran anschließend ein neuer Startzeitpunkt tstart gewählt wird und wiederum Zeitfenster mit
unterschiedlichen Endzeitpunkten tend mit dem neuen Startzeitpunkt tstart gewählt werden. Hierdurch werden benachbarte Zeitfenster oder Zeitrahmen generiert, die eine minimale Länge aufweisen und wobei sich die Zeitrahmen der gleichen Startzeit- punkte einander überlappen, jedoch mindestens in einem Zeitintervall von 2 Sekunden neue Informationen aus dem Audiosignal enthalten, die in vorhergehenden Segmenten noch nicht enthalten sind. Dies bedeutet somit, dass der erste Wert (Tonartschätzwert) für Noten der ersten 2 Sekunden, dann für die ersten vier Sekunden usw. geschätzt wird. Dieses Schätzen kann, wie vorstehend erläutert wurde, unter Verwendung von Tonartprofilen und einer Korrelation mit diesen Referenz-Tonartprofilen erfolgen, wobei dann die Ergebnisse aus der Korrelation, insbesondere der Tonartschätzwert der für das entsprechende Audiosignalsegment geschätzten Tonart in die einzelnen Elemente der ersten Zeile der Matrix beschrieben werden. Im nächsten Schritt wird der Startzeitpunkt ein Intervall von 2 Sekunden weiter (das heißt nach hinten) verschoben. In anderen Worten ausgedrückt wird die erste Berechnung dann das Zeitfenster zwischen zwei Sekunden und vier Sekunden, nachfolgend das Zeitfenster zwischen 2 und 6 Sekunden usw. betreffen. Die Ergebnisse für diese Abschätzung der Tonartschätzwerte wird dann in die zweite Zeile der sich ergebenden Matrix eingefügt. Die sich hierdurch ergebene obere Diagonalmatrix wird dann beispielsweise unter Verwendung einer Auswertung der Häufigkeitsverteilung der einzelnen Tonartschätzwerte untersucht und diese Tonartschätzwerte bzw. die Statistik oder Häufigkeitsverteilung der Tonartschätzwerte für das durch das Audiosignal mit den Musikinformationen gekennzeichnete Musikstück in einer Textdatei gespeichert.
Die mit dem vorliegenden Ansatz ermittelten Ergebnisse für die Bestimmung einer Tonart eines Audiosignals mit Musikinformationen ist in Fig. 3 dargestellt. Zur Ermittlung der in Fig.3 dargestellten Ergebnisse wurden 12 Präludien und 12 Fugen von Jo- hann Sebastian Bach's „the well-tempered clavier II" untersucht, wobei gezeigt werden konnte, dass in 52,8% der Untersuchungen die richtige Tonart mit dem erfindungsgemäßen Ansatz
erkannt werden konnte. In 29,17% der Fälle wurde die Paralleltonart erkannt, wogegen in 10, 42% die korrekte Tonart an zweiter Stelle in der Häufigkeitsverteilung aufgetreten ist. Lediglich in 8,33% wurde die falsche Tonart erkannt. Dies zeigt die hohe Leistungsfähigkeit des erfindungsgemäßen Ansatzes bei der Bestimmung einer Tonart eines Audiosignals mit Musikinformationen.
Abhängig von den Gegebenheiten kann das erfindungsgemäße Ver- fahren Bestimmen einer Tonart eines Audiosignals mit Musikinformationen in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das entsprechende Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computerpro- grammprodukt auf einem Rechner abläuft. Mit anderen Worten ausgedrückt, kann die Erfindung somit als ein Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computerprogramm auf einem Computer abläuft.
Zusammenfassend kann gesagt werden, dass im erfindungsgemäßen Ansatz ein Musikstück für verschiedene Zeitfenster untersucht wird. Die Länge der Fenster ergeben sich beispielsweise aus einem Vielfachen einer Mindestlänge von beispielsweise 250 Frames (= 250 Zeitrahmen) . Zunächst wird ein Startpunkt auf 0 und ein Endpunkt auf 250 Zeitrahmen gesetzt. Für dieses Zeitfenster wird gezählt, welcher Halbton in wie vielen Zellen gesetzt ist. Die Ergebnisse werden beispielsweise in einem 12-zeiligen Vektor geschrieben. Dieser wird dann beispielsweise mit den Tonartprofilen korreliert und die Ergebnissegespeichert. Der (12- zeilige) Vektor wird dann verschoben, sowie das aus dem zweiten Element das erste wird, aus dem ersten Element das zwölfte, usw.. Dieser Vektor und alle weiteren Umstellungen werden eben-
falls mit den Tonartprofilen korreliert. Eine Aussage darüber, welche Tonart für das betrachtete Zeitfenster angenommen werden kann, ergibt sich daraus, auf welchen Vektor und welches Tonartprofil das höchste Korrelationsergebnis erzielt wurde. Wird beispielsweise für das zweite Profil und den dritten Vektor das höchste Ergebnis gefunden, handelt es sich um D-moll.
Anschließend wird der Endpunkt beispielsweise um weitere 250 Zeitrahmen (zeitlich) nach hinten verschoben und für dieses Zeitfenster eine weitere Annahme gemacht. Dies wird wiederholt, bis der Endpunkt am Ende des Stücks angelangt ist. Dann wird der Startpunkt um 250 Zeitrahmen (zeitlich) nach hinten weitergesetzt und der Endpunkt beispielsweise auf 250 Zeitrahmen nach dem Startpunkt gesetzt, usw. . So werden für alle Zeitintervalle, die eine vielfache Länge von 250 Zeitrahmen besitzen, Annahmen für die Tonart gemacht. Alle diese Annahmen werden beispielsweise in eine Matrix als Zahlenwert (1 bis 24) eingetragen, wobei jeder Zahlenwert eine der Dur- oder moll-Tonarten der 12 Halbtonschritte einer Oktave entspricht. Anschließend werden die Annahmen für jede Tonart gezählt und die Ergebnisse in Prozent in eine Textdatei ausgegeben. Unter Berücksichtung dieser Textdatei kann nun entweder direkt eine Tonart des gesamten Musikstücks ermittelt werden oder aber ein Wechsel einer Tonart innerhalb des Musikstücks bestimmt werden. Alternativ kann auch die Bestimmung der Tonart des Musikstücks und ein Zeitpunkt von Tonartwechsel bzw. die Tonarten zwischen denen gewechselt wird, durch die Auswertung der Matrix bestimmt werden.