WO2010045665A1

WO2010045665A1 - Verfahren zur erkennung von notenmustern in musikstücken

Info

Publication number: WO2010045665A1
Application number: PCT/AT2009/000401
Authority: WO
Inventors: Stefan M. Oertl; Brigitte Rafael
Original assignee: Oertl Stefan M; Brigitte Rafael
Priority date: 2008-10-22
Filing date: 2009-10-15
Publication date: 2010-04-29
Also published as: US20110259179A1; EP2351017A1; US8283548B2; EP2351017B1; EP2180463A1

Abstract

Verfahren zur Erkennung ähnlich wiederkehrender Muster von Noten in einem Musikstück, das auf parallele Kanäle (ch) verteilte Notensequenzen (q) enthält, mit den Schritten: a) wiederholtes Segmentieren jedes Kanals (ch) und, für jede Segmentierungsart, Bestimmen zueinander ähnlicher Segmente (S) und Speichern derselben in Listen (L) von Kandidatenmustern (m) mit ihren jeweiligen Instanzen (i); b) Berechnen eines Eigenähnlichkeitswerts (E) für jede Liste (L); c) Berechnen von Koinzidenzwerten (K) für jede Liste (L) jedes Kanals (ch) gegenüber den Listen aller anderen Kanäle; und d) Verknüpfen der Eigenähnlichkeits- und Koinzidenzwerte (E, K) jeder Liste (L) zu einem Gesamtwert (G) pro Liste und Verwenden der Musterkandidaten (m) der Listen (L) mit dem höchsten Gesamtwert (G) in jedem Kanal (ch) als erkannte Notenmuster des Kanals.

Description

Verfahren zur Erkennung von Notenmustern in Musikstücken

Die vorliegende Erfindung betrifft ein Verfahren zur Erkennung ähnlich wiederkehrender Muster von Noten in einem Mu- sikstück, das auf parallele Kanäle verteilte Notensequenzen enthält.

Die Erkennung von wiederkehrenden Notenmustern in Musikstücken, z.B. von Loops, Riffs, Phrasen, Motiven, Themen, Strophen, Refrains, Überleitungen, Sätzen usw., ist in den letzten Jahren zu einem umfassenden Forschungsgebiet mit konkreten und vielversprechenden technischen Anwendungen geworden. Als einige Anwendungsbeispiele seien die automatisierte Analyse musikalischer Strukturen von Musikstücken in computerunterstützten Re- cordingstudio-, Audioworkstation- und Musikproduktionsumgebun- gen genannt, welche sich für Archivierungs- und Sortierungszwecke sowie zur Resynthese bestehender Notenmuster zu Neukompositionen auf eine verläßliche Mustererkennung stützen müssen. Eine weitere konkrete technische Anwendung ist die Analyse und Indexierung großer Musikdatenbanken, z.B. von Musikarchiven oder Online-Musikshops, nach identifizierbaren Notenmustern für das neue Gebiet des „music Information retrieval" (MIR) , beispielsweise um unscharfe Benutzerabfragen („fuzzy queries") automatisiert verarbeiten zu können, Stichwort „query by hum- ming" . Für die Mustererkennung in einkanaligen Musikstücken wurden in der Vergangenheit bereits verschiedenste Verfahren vorgeschlagen, welche auch Konzepte aus anderen Bereichen der Mustererkennung übernehmen, wie „string matching"-Techniken aus dem Bereich der DNA-Sequenzanalyse, siehe z.B. in Kilian Jür- gen, Hoos Holger H. : "MusicBLAST - Gapped Sequence Alignment for MIR", International Conference on Music Information Retrieval (ISMIR), 2004. „String matching"-Verfahren beruhen häufig auf dem Einsatz von „Dynamic Programming"-Algorithmen zur Ausrichtung und zum Ähnlichkeitsvergleich von Notensubsequen- zen, vgl. z.B. Hu Ning, Dannenberg Roger B., Lewis Ann L.: "A Probabilistic Model of Melodie Similarity", Proceedings of the ICMC, 2002. Speziell zur Erkennung ident wiederkehrender Notenmuster für Musikanalyse- und MIR-Zwecke wird in Hsu Jia-Lien, Liu Chih-Chin, Chen Arbee L. P.: "Discovering Nontrivial Repeating Patterns in Musical Data", IEEE Transactions On Multimedia, Vol. 3, No. 3, 2001, der Einsatz einer Korrelationsmatrix vorgeschlagen, welche nicht-triviale, d.h. sich nicht gegenseitig enthaltende, in einem Kanal ident wiederkehrende Muster auffinden läßt.

Alle bislang bekannten Verfahren haben die Eigenschaft, daß sie jeden Kanal eines mehrkanaligen Musikstücks jeweils gesondert analysieren. Die Erfinder des vorliegenden Verfahrens haben erkannt, daß darin ein wesentlicher Nachteil der bekannten Verfahren liegt, weil damit Strukturinformationen, die gerade in der musikalischen Parallelität der Kanäle, d.h. ihrem rhythmischen, melodischen und polyphonen Kontext, enthalten sind, gänzlich unberücksichtigt bleiben, was sich in der wenig zufriedenstellenden Erkennungsrate und -qualität der bekannten Verfahren niederschlägt.

Es besteht daher ein ungebrochener Bedarf nach einem ver- besserten Mustererkennungsverfahren für mehrkanalige Musikstük- ke. Die Erfindung setzt sich zum Ziel, ein solches Verfahren zu schaffen.

Dieses Ziel wird mit einem Verfahren der einleitend genannten Art erreicht, das sich durch die folgenden Schritte auszeichnet: a) wiederholtes Segmentieren jedes Kanals unter Variierung von Segmentlänge und -beginn und, für jede Segmentierungsart, Bestimmen zueinander ähnlicher Segmente und Speichern derselben in Listen von Kandidatenmustern mit ihren jeweiligen Instanzen, und zwar jeweils einer Liste pro Segmentierungsart und Kanal; b) Berechnen eines Eigenähnlichkeitswerts für jede Liste, welcher auf den Ähnlichkeiten der Instanzen jedes Kandidatenmusters einer Liste untereinander basiert; c) Berechnen von Koinzidenzwerten für jede Liste jedes Kanals gegenüber den Listen aller anderen Kanäle, welcher jeweils auf den Überlappungen von Instanzen eines Kandidatenmusters der einen Liste mit Instanzen eines Kandidatenmuster der anderen Liste basiert, wenn sich diese zumindest zweimal überlappen; und d) Verknüpfen der Eigenähnlichkeits- und Koinzidenzwerte jeder Liste zu einem Gesamtwert pro Liste und Verwenden der Mu- sterkandidaten der Listen mit dem höchsten Gesamtwert in jedem Kanal als erkannte Notenmuster des Kanals.

Das Verfahren der Erfindung berücksichtigt damit erstmals und in signifikanter Weise die parallelen Strukturinformationen eines mehrkanaligen Musikstücks, die in den zeitlichen Koinzi- denzen potentieller Muster („Kandidatenmuster") verschiedener Kanälen verborgen sein können, und verknüpft diese mit einer Bewertung der Robustheit aufgefundener Kandidatenmuster aufgrund der Eigenähnlichkeiten ihrer Instanzen, ihrer sogenannten „Fitness". Im Ergebnis wird damit ein wesentlich verläßliche- res, aussagekräftigeres und treffenderes Mustererkennungsergebnis erzielt als mit allen bisher bekannten Verfahren.

An dieser Stelle sei erwähnt, daß der hier verwendete Begriff „Kanal" für ein mehrkanaliges Musikstück in seiner allgemeinsten Form aufzufassen ist, d.h. sowohl im Sinne einer ein- zigen (monophonen) Stimme eines mehrstimmigen (polyphonen) Satzes, im Sinne einer (gegebenenfalls auch polyphonen) Instrumentenstimme, wie eines Baß-, Trompeten-, Streicher-, Schlagzeug-, Klavierparts usw., als auch im Sinne eines technischen Kanals wie eines Midi-Channels, welcher sowohl monophone als auch po- lyphone Stimmen, Parts oder deren Kombinationen enthalten kann, z.B. ein Drumpattern, eine Akkordfolge, einen Streichersatz usw.

Eine besonders vorteilhafte Ausführungsform der Erfindung zeichnet sich dadurch aus, daß in Schritt a) zusätzlich folgen- der Schritt ausgeführt wird: al) Detektieren der in einem Kanal ident wiederkehrenden Muster, daraus Auswählen der den Kanal bestabdeckenden Muster und Speichern derselben in einer weiteren Liste von Kandidatenmustern mit ihren jeweiligen Instanzen pro Kanal. Dadurch kann der Erkennungsgrad noch weiter gesteigert werden. Die kanalbezogene Mustererkennung wird damit auf zwei gleichwertige Grundlagen gestellt, einmal eine Identerkennung und einmal eine Ähnlichkeitserkennung, für welche Varianten un- terschiedliche Verfahren eingesetzt werden können. Durch Einbeziehung der Erkennungsergebnisse beider Varianten in ein und denselben Listensatz von Kandidatenmustern ergibt sich eine implizite Verknüpfung der beiden Verfahren in der anschließenden Listenbewertung mittels der Eigenähnlichkeits- und Koinzidenzwerte, weil die Ergebnisse der beiden Verfahren dort in Konkurrenz stehen. Das Verfahren der Erfindung wird damit „selbstad- aptiv" für unterschiedliche Arten von Eingangssignalen, welche auf verschiedene Arten von Erkennungsverfahren unterschiedlich ansprechen.

Bevorzugt wird in Schritt al) das Detektieren ident wiederkehrender Muster mittels des Korrelationsmatrix-Verfahrens durchgeführt, wie es an sich aus Hsu Jia-Lien et al. (aaO) bekannt ist. Besonders bevorzugt erfolgt in Schritt al) das Aus- wählen der bestabdeckenden Muster durch iteratives Auswählen des jeweils häufigsten und/oder längsten Musters aus den detek- tierten Mustern.

Gemäß einem weiteren bevorzugten Merkmal der Erfindung wird in Schritt a) die Segmentlänge in Vielfachen der Taktein- heit des Musikstücks variiert, was die Variationsmöglichkeiten auf ein geeignetes Maß begrenzt und Rechenzeit spart. Besonders günstig ist es, wenn die Segmentlänge vom Zweifachen der durchschnittlichen Notendauer des Musikstücks bis zur halben Länge des Musikstücks variiert wird. Gemäß einer weiteren vorteilhaften Ausführungsform der Erfindung erfolgt in Schritt a) das Bestimmen zueinander ähnlicher Segmente durch gegenseitiges Ausrichten der Noten zweier Segmente, Bestimmen eines Übereinstimmungsgrades der beiden Segmente und Erkennen auf Ähnlichkeit, wenn der Über- einstimmungsgrad einen vorgegebenen Schwellwert übersteigt. Diese Maßnahmen sind mit vertretbarem Rechenleistungsaufwand rasch implementierbar.

Insbesondere erfolgt dabei das Ausrichten der Noten bevorzugt mittels des „Dynamic Programming"-Verfahrens, wie es aus Kilian Jürgen et al. (aaO) oder Hu Ning et al. (aaO, mit weiteren Nachweisen) an sich bekannt ist.

Gemäß einer bevorzugten Ausführungsform des Verfahrens erfolgt das Berechnen des Eigenähnlichkeitswerts in Schritt b) dadurch, daß für jedes Kandidatenmuster der Liste eine Ähnlichkeitsmatrix seiner Instanzen aufgestellt wird, deren Werte zum Eigenähnlichkeitswert der Liste verknüpft werden, bevorzugt unter Gewichtung durch die Kanalabdeckung der Kandidatenmuster der Liste. Es hat sich gezeigt, daß diese Ausführungsform zu einer raschen und stabilen Implementierung führt.

Zur weiteren Verbesserung des Erkennungsergebnisses können optional am Ende von Schritt b) jene Listen eines Kanals, deren Eigenähnlichkeitswert einen vorgegebenen Schwellwert nicht er- reicht, gelöscht werden. Bevorzugt ist dieser vorgegebene Schwellwert adaptiv, insbesondere ein Prozentsatz des höchsten Eigenähnlichkeitswerts aller Listen des Kanals, besonders bevorzugt mindestens 70%. In einer praktisch besonders geeigneten Ausführungsform beträgt der Schwellwert etwa 85%. Eine weitere vorteilhafte Variante des Verfahrens der Erfindung besteht darin, daß in Schritt c) für ein bestimmtes Kandidatenmuster einer Liste nur die Überlappungen zu jenen Instanzen der anderen Liste berücksichtigt werden, mit welchen die zeitlängsten Überlappungen vorliegen. In praktischen Versu- chen hat sich gezeigt, daß dies zu einer zufriedenstellenden Erkennungsrate führt und das Verfahren in diesem Schritt vereinfacht .

Gemäß einer weiteren bevorzugten Variante der Erfindung wird vorgesehen, daß bei dem Verknüpfen von Schritt e) für jede Liste jedes Kanals nur jene Koinzidenzwerte zu den Listen der anderen Kanäle berücksichtigt werden, die dort den jeweils höchsten Wert darstellen, was die Erkennungsrate noch weiter verbessert .

Aus demselben Grund wird bevorzugt vorgesehen, daß bei dem Verknüpfen von Schritt e) die für eine Liste berücksichtigten Koinzidenzwerte jeweils aufsummiert und die aufsummierten Koinzidenzwerte besonders bevorzugt mit dem Eigenähnlichkeitswert der Liste zum genannten Gesamtwert multipliziert werden.

Die Erfindung wird nachstehend anhand von bevorzugten Aus- führungsbeispielen unter Bezugnahme auf die begleitenden Zeichnungen näher erläutert, in denen zeigen: die Fig. 1 und 2 ein beispielhaftes mehrkanaliges Musikstück als Eingangssignal des vorliegenden Verfahrens in Musiknotation (Fig. 1) und Notensequenzschreibweise (Fig. 2);

Fig. 3 ein globales Flußdiagramm des erfindungsgemäßen Verfahrens;

Fig. 4 ein Beispiel einer Korrelationsmatrix für den Schritt al) des Verfahrens;

Fig. 5 das Ergebnis der Detektionsphase von Schritt al);

Fig. 6 ein Flußdiagramm für die Auswahlphase für die best- abdeckenden Muster in Schritt al) ;

Fig. 7 das Ergebnis von Schritt al) in Form einer ersten Liste von Kandidatenmustern und ihren Instanzen für einen Kanal;

Fig. 8 die Bedeutung der Liste von Fig. 7 in Bezug auf die Kanalabdeckung;

Fig. 9 verschiedene Segmentierungsarten eines Kanals für die Ähnlichkeitsbestimmung in Schritt a) des Verfahrens;

Fig. 10 ein Beispiel eines „Dynamic Programming"- Algorithmus zur Ausrichtung zweier Segmente; Fig. 11 das Ergebnis der Ausrichtung von Fig. 11 für den Ähnlichkeitsvergleich zweier Segmente;

Fig. 12 ähnliche und transitiv-ähnliche Segmente eines Kanals, welche die Instanzen eines erkannten Kandidatenmusters darstellen; Fig. 13 das Ergebnis von Schritt a) in Form einer weiteren Liste von Kandidatenmustern und ihren Instanzen für einen Kanal und eine bestimmte Segmentierungsart dieses Kanals;

Fig. 14 das gesamte Ergebnis des Schrittes a) , dargestellt als Satz von mehreren Listen für einen Kanal; Fig. 15 die Bedeutung der Listen von Fig. 14 in Form verschiedener möglicher Abdeckungen eines Kanals mit jeweils den Kandidatenmustern seiner Listen;

Fig. 16 eine Ähnlichkeitsmatrix für die Instanzen eines Kandidatenmusters einer Liste als Grundlage für die Berechnung des Eigenähnlichkeitswerts einer Liste gemäß Schritt b) ;

Fig. 17 einen Überlappungsvergleich zwischen den Musterinstanzen zweier Listen als Grundlage für die Berechnung der Koinzidenzwerte einer Liste gemäß Schritt c) ; Fig. 18 die Verknüpfung der Eigenähnlichkeits- und Koinzidenzwerte und die Berechnung des Gesamtwerts einer Liste gemäß Schritt d) ; und die Fig. 19 und 20 das Ergebnis der Anwendung des Verfah- rens auf das Eingangssignal der Fig. 1 und 2 in Form der möglichen (Fig. 19) und der besten (Fig. 20) Kanalabdeckungen, welch letztere die in den Kanälen erkannten Notenmuster darstellen.

Fig. 1 zeigt einen Ausschnitt aus einem Musikstück, das auf parallele Kanäle chi, Ch₂ und ch₃ (allgemein ch_p) verteilte Notensequenzen qi, q₂ und q₃ (allgemein q_p) enthält, die in Fig. 2 schematisch dargestellt sind. Die Kanäle ch_p sind beispielsweise gesonderte MIDI-Kanäle für die verschiedenen Instrumente oder Stimmen des Musikstücks, auch wenn dies nicht zwingend ist, wie eingangs erläutert. Der Einfachheit halber werden bei den vorliegenden Beispielen in den Notensequenzen q_p nur die Tonhöhen und Auftrittszeitpunkte der einzelnen Noten berücksichtigt, nicht jedoch weitere Notenparameter wie z.B. Notendauer, Lautstärke, Anschlagsgeschwindigkeit, Hüllkurve, Klang, Tonartenkontext usw. Es versteht sich jedoch, daß alle im Folgenden beschriebenen Vergleiche von einzelnen Noten bzw. Notenmustern sich ebensogut auch auf solche Parameter erstrecken können, falls gewünscht, d.h. in diesen Vergleichen dementsprechend auch mehrstufige oder mehrdimensionale Identitäts- oder Ähnlichkeitsver- gleiche zwischen mehreren Parametern durchgeführt werden können .

Darüber hinaus werden in den vorliegenden Beispielen der Einfachheit halber auch nur monophone Notensequenzen in jedem Kanal betrachtet. Es versteht sich jedoch, daß das hier vorge- stellte Verfahren ebensogut für polyphone Notensequenzen in den Kanälen geeignet ist, wozu dementsprechend erweiterte Identitäts- bzw. Ähnlichkeitsvergleiche, z.B. Akkordvergleiche und Tonarten-Kontextvergleiche usw., angestellt werden können.

Wie somit für den Fachmann ersichtlich, ist das hier vor- gestellte Verfahren in einfacher Weise auf multiple Notenpara- metervergleiche und polyphone Notensequenzen skalierbar.

Fig. 3 zeigt den globalen Ablauf des Verfahrens anhand seiner grundlegenden fünf Schritte al), a) , b) , c) und d) , wel- che im Anschluß im Detail erörtert werden. Diese fünf globalen Schritte sind: al) Detektieren der in einem Kanal ident wiederkehrenden Muster, daraus Auswählen der den Kanal bestabdeckenden Muster und Speichern derselben in einer Liste von Kandidatenmustern mit ihren jeweiligen Instanzen pro Kanal. a) wiederholtes Segmentieren jedes Kanals unter Variierung von Segmentlänge und -beginn und, für jede Segmentierungsart, Bestimmen zueinander ähnlicher Segmente und Speichern derselben in weiteren Listen von Kandidatenmustern mit ihren jeweiligen Instanzen, und zwar jeweils einer Liste pro Segmentierungsart und Kanal; b) Berechnen eines Eigenähnlichkeitswerts für jede Liste, welcher auf den Ähnlichkeiten der Instanzen jedes Kandi- datenmusters einer Liste untereinander basiert; c) Berechnen von Koinzidenzwerten für jede Liste jedes Kanals gegenüber den Listen aller anderen Kanäle, welcher jeweils auf den Überlappungen von Instanzen eines Kandidatenmusters der einen Liste mit Instanzen eines Kandidatenmuster der anderen Liste basiert, wenn sich diese zumindest zweimal überlappen; und d) Verknüpfen der Eigenähnlichkeits- und Koinzidenzwerte jeder Liste zu einem Gesamtwert pro Liste und Verwenden der Musterkandidaten der Listen mit dem höchsten Gesamtwert in jedem Kanal als erkannte Notenmuster des Kanals.

Die dargestellte Abfolge der Schritte al) - a) - b) - c) - d) ist nur insoweit zwingend, als manche Schritte das Ergebnis anderer voraussetzen; ansonsten ist die Abfolge beliebig. Beispielsweise könnte die Abfolge der Schritte al) und a) ver- tauscht werden, oder die Abfolge der Schritte b) und c) , usw.

In einer vereinfachten Ausführungsform des Verfahrens kann optional auf Schritt al) verzichtet werden, mit entsprechend eingeschränktem Anwendungsspektrum des Verfahrens, wie eingangs erörtert . Die Schritte al) bis d) werden nun im einzelnen ausführlich beschrieben.

al) Musterdetektion mittels Korrelationsmatrix In Schritt al) wird zum Detektieren der in einem Kanal ch_p ident wiederkehrenden Notenmuster (identen „Loops") zunächst für jeden Kanal ch_p eine Korrelationsmatrix gemäß Hsu Jia-Lien et al. (aaO) aufgestellt. Fig. 4 zeigt ein Beispiel einer solchen Korrelationsmatrix: Die erste Zeile und die erste Spalte enthält jeweils die gesamte Notensequenz eines Kanals, in welcher Muster zu detektieren sind; und nur ein Dreieck der Matrix ist relevant. Der erste Eintrag „1" in einer Zeile bedeutet, daß eine Note in der Sequenz bereits das zweite Mal auftritt; ein Eintrag „2" bedeutet, daß das aus dieser und der vorhergehenden Note bestehende Muster der Länge 2 („2er-Loop") das zweite Mal auftritt; der Eintrag „3", daß das aus dieser, der vorhergehenden und der vorvorhergehenden Noten bestehende Mu- ster der Länge 3 („3er-Loop") das zweite Mal in dieser Zeile auftritt, usw. Für Details des Korrelationsmatrix-Verfahrens sei auf Hsu Jia-Lien et al. (aaO) verwiesen.

Durch statistische Auswertung der Einträge in der Korrelationsmatrix Fig. 4 läßt sich für jeden Kanal eine vorläufige Liste gemäß Fig. 5 erstellen, in welcher als ident wiederkehrend gefundene Notenmuster m_lr m_π, mm, m_IV, usw. mit den Positionen ihres Auftretens bzw. Vorkommens in der Notensequenz q_p, d.h. ihren sog. „Instanzen", sowie ihrer Länge und Häufigkeit aufgeführt sind. Aus der vorläufigen Liste von Fig. 5 werden nun mit Hilfe des in Fig. 6 skizzierten Suchverfahrens jene Notenmuster als „Kandidatenmuster" für die weitere Verarbeitung herausgesucht, welche den Kanal ch_p möglichst weitgehend und auch überlappungsfrei abdecken. Dazu wird gemäß Fig. 6 in einer Schleife die vorläufige Liste Fig. 5 abgearbeitet und jeweils (i) das „beste" Muster m_τ, m_τi usw. gesucht, (ii) dieses als Kandidatenmuster πiia, m_2a usw. in einer ersten Liste Li (Fig. 7) mitsamt seinen Instanzen abgespeichert, und (iii) alle mit diesem Kandidatenmuster überlappende Muster werden aus der vorläufigen Liste Fig. 5 gelöscht.

Das in Schritt (i) „beste" Muster ist dabei jeweils das in der vorläufigen Liste Fig. 5 häufigste und/oder längste Muster In₁, In₁₁ usw. Besonders bevorzugt wird folgendes Kriterium für das „beste" Muster eingesetzt:

Es wird das häufigste Muster ausgewählt , außer es gibt ein längeres Kandidatenmuster, das mehr als 75% des Kanals abdeckt und mindestens 2/3 so oft auftritt.

Als Ergebnis von Schritt al) ergibt sich somit pro Kanal ch_p eine erste Liste Li von Kandidatenmustern itii_a, itii_b (allgemein ItIi_x) , welche den Kanal ch_p bzw. dessen Notensequenz q_p überlappungsfrei und möglichst weitgehend, d.h. möglichst lückenfrei abdecken, siehe Fig. 8.

a) Musterdetektion mittels Segmentähnlichkeitsvergleich

In Schritt a) wird ein zweiter Ansatz verfolgt. Jeder Kanal ch_p (bzw. seine Notensequenz q_p) wird wiederholt und jeweils auf verschiedene Arten segmentiert, und zwar unter Vari- ierung von Segmentlänge und -beginn. Fig. 9 zeigt fünf beispielhafte Segmentierungsarten I - V, wobei die Segmentlänge in Vielfachen der Takteinheit des Musikstücks, d.h. der Dauer eines Taktschlags (beat) des Musikstücks, variiert wird; z.B. bei einem 4/4-Takt ist die Takteinheit eine Viertelnote. Die gezeigten Segmentierungsarten I und II beruhen auf einer Segmentierung in Segmenten mit einer Länge von zwei Taktschlägen, wobei in der Segmentierung II der Segmentbeginn um einen Taktschlag versetzt wurde.

Die Segmentierungsarten III - V basieren auf einer Seg- mentlänge von drei Taktschlägen und einem sukzessivem Versatz des Segmentbeginns um jeweils einen Taktschlag.

Es versteht sich, daß dieses Konzept entsprechend auf beliebige Segmentierungslängen, -beginne und auch beliebig feine Quantisierungseinheiten (beats) der Notensequenzen erweitert werden kann.

Bevorzugt wird dabei die Segmentlänge vom Zweifachen der durchschnittlichen Notendauer des Musikstücks bis maximal zur halben Länge des gesamten Musikstücks variiert, da die maximale Länge eines Notenmusters höchstens die halbe Länge des Musikstücks sein kann. Falls gewünscht, könnte zur Verkürzung das Verfahren auch früher abgebrochen werden, d.h. die Segmentlänge beispielsweise nur bis zu einer vorgegebenen Anzahl von Takten variiert werden.

Für jede mögliche Segmentierungsart I, II, III usw. wird nun die Ähnlichkeit der Segmente Si, S₂ usw. untereinander ermittelt, und zwar bevorzugt mit Hilfe des in der Technik bekannten „Dynamic Programming"-Verfahrens . Zur Erläuterung dieses Verfahrens sei hier nur kurz auf Fig. 10 verwiesen, in welcher Notensequenzen aus zwei beispielhaften Segmenten S₃ und S_t einander in einer Matrix gegenübergestellt werden. Gemäß den Regeln des „Dynamic Programming"- Algorithmus werden nun Gewichtungen für das Fortschreiten von Zelle zu Zelle vergeben, z.B. in dem vorliegenden Beispiel die „Dynamic Programming"-Gewichtungen {0, 0, 0, 1} als {„Strafe für Insert", „Strafe für Delete", „Strafe für Replace", „Punkte für Match"}. Für Details des „Dynamic Programming"-Verfahrens sei hier auf Kilian Jürgen et al. (aaO) und Hu Ning et al. (aaO) verwiesen, welche auch weitere Literaturnachweise dazu enthalten.

Mit Hilfe des „Dynamic Programming"-Ausrichtverfahrens von Fig. 10 können selbst nicht-idente, d.h. bloß ähnliche und sogar ungleich lange Notensequenzen in den Segmenten zueinander ausgerichtet werden. Fig. 11 zeigt das erhaltene Ausrichtergebnis .

Die Ähnlichkeit der Segmente S₃ und S_t wird anschließend mit Hilfe eines entsprechend gewählten Punktebewertungsschemas zwischen 0% (unähnlich) und 100% (ident) bewertet, beispiels- weise anhand der Anzahl identer Noten, der Anzahl von Lücken, des Tonhöhenabstandes abweichender Noten usw. Zwei Segmente S₃, S_t werden anschließend als „ähnlich" erkannt, wenn ihr derart bestimmter Ähnlichkeitswert über einem vorgegebenen Schwellwert liegt, bevorzugt über 50%. Auf diese Weise werden nun alle Segmente S₃ mit allen anderen Segmenten S_t einer Segmentierungsart I, II usw. eines Kanals ch_p verglichen. Dies führt beispielsweise für die Segmentierungsart II des Kanals ch_p zu dem Erkennen einer Ähnlichkeit zwischen den Segmenten Si, S₃ und Se, wie in Fig. 12 gezeigt: Die Segmente Si und S₃ sind hier zu 50% ähnlich, die Segmente S₃ und Se zu 60% ähnlich, und die Segmente Si und Se „transitivähnlich" zu 40%. Alle zueinander ähnlichen oder auch nur transitivähnlichen Segmente werden nun wieder als Instanzen i_x eines Kandidatenmusters aufgefaßt, das sich aus der Notensequenz eines (z.B. des ersten) dieser Segmente ergibt. Die auf diese Weise für eine Segmentierungsart eines Kanals aufgefundenen Kandidatenmuster werden in Form einer weiteren Liste L₂ von Kandidatenmustern m_2a, m_2b usw. mit ihren jeweiligen Instanzen ii, i₂ usw. gespeichert, siehe Fig. 13.

Alle Listen L₂, L₃ usw. für alle möglichen Sequentierung- sarten I, II usw. eines Kanals ch_p, zusammen mit der zuvor er- örterten ersten Liste Li aus Schritt al), ergeben einen Satz von Listen L_n für jeden Kanal ch_p, siehe Fig. 14, welcher verschiedene mögliche Abdeckungen des Kanals ch_p mit Kandidatenmustern repräsentiert, siehe Fig. 15.

Die Listen L_n werden nun in den folgenden Schritten b) , c) und d) bewertet.

b) Berechnung der Eigenähnlichkeitswerte

Zunächst wird in Schritt b) für jede Liste L_n ein Eigen- ähnlichkeitswert E_n auf Grundlage von Ähnlichskeitsmatrizen für alle Kandidatenmuster m_na, m_nb usw. (allgemein m_nx) der Liste L_n berechnet. Fig. 16 zeigt eine beispielhafte Ähnlichkeitsmatrix für die Instanzen i_lf i₂, i₃ und i₄ eines Kandidatenmusters m_n der Liste L_n: Die Zellen der Matrix geben den Ähnlichkeitsgrad, beispielsweise wie nach dem „Dynamic Programming"-Schritt von

Schritt a) ermittelt, wieder; z.B. beträgt hier die Ähnlichkeit zwischen Instanz ii und Instanz i₃ 80%.

Aus allen Werten der Ähnlichkeitsmatrix Fig. 16 wird nun ein Eigenähnlichkeitswert E_nx für das Kandidatenmuster m_nx er- mittelt, beispielsweise durch Aufsummieren in der Form:

E_m = ^ Ähnlichkeit zwischen i_k und i, k, l Alternativ kann auch ein Bewertungsschema eingesetzt werden, welches die Werte in den Zellen der Ähnlichkeitsmatrix statistisch aus- bzw. bewertet, bevorzugt in der Form: - wenn mindestens eine Zelle pro Zeile den Eintrag „1" hat, dann wird E_nx um 2 inkrementiert d.h.

Enx • ⁼ E_nx + z ; wenn nicht, dann wird E_nx nur um den Durchschnittswert aller Zellen dieser Zeile inkrementiert, d.h. E_nx := E_nx + Zeilendurchschnitt.

Der Eigenähnlichkeitswert E_nx des Kandidatenmusters m_nx wird auch als „Loopfitness" des Kandidatenmusters m_nx bezeichnet .

Der Eigenähnlichkeitswert E_n der Liste L_n ergibt sich an- schließend als Summe der Eigenähnlichkeitswerte E_nx aller Kandidatenmuster m_nx der Liste L_n, multipliziert mit der Kanalabdeckung P, welche alle Instanzen aller Kandidatenmuster m_nx der Liste L_n erreichen, d.h:

E„=∑E_nx*P_n.

X

Unter der Kanalabdeckung P_n einer Liste L_n eines Kanals ch_p wird entweder die zeitliche Abdeckung des Kanals verstanden, als Summe der Zeitdauern t_nxi aller Instanzen i aller Kandidatenmuster m_nx des Kanals, bezogen auf die Gesamtdauer T_p des Kanals ch_p; oder

- die notenmäßige Abdeckung des Kanals, als Summe der Notenanzahlen n_nxi in allen Instanzen i aller Kandidatenmuster m_nx des Kanals, bezogen auf die Gesamtanzahl N_p von Noten des Kanals ch_p; oder bevorzugt sowohl die zeitliche als auch die notenmäßige Abdek- kung in gewichteter Form, beispielsweise gleich gewichtet, d.h. :

P = . + .*^■>

N_r In einem optionalen Schritt können nach der Bestimmung der Eigenähnlichkeitswerte E_n der Listen L_n, beispielsweise unmittelbar im Anschluß an Schritt b) , für einen bestimmten Kanal ch_p all jene Listen L_n des Kanals ch_p gelöscht werden, deren Eigenähnlichkeitswerte E_n einen vorgegebenen Schwellwert nicht erreichen. Der Schwellwert kann bevorzugt adaptiv bzw. dynamisch vorgegeben werden, beispielsweise als Prozentsatz des höchsten Eigenähnlichkeitswerts E_n aller Listen L_n des Kanals chp, z.B. als mindestens 70% oder besonders bevorzugt als etwa 85% des höchsten Eigenähnlichkeitswerts E_n aller Listen L_n des Kanals ch_p.

c) Berechnung der Koinzidenzwerte

In Schritt c) werden für jede Liste L_n Koinzidenzwerte berechnet, und zwar zwischen jeder Liste L_n jedes Kanals ch_p und jeder Liste L_n jedes anderen Kanals ch_p- , wie in den Fig. 17 und 18 skizziert. Fig. 18 zeigt - stellvertretend für alle diese Koinzidenzwertberechnungen - die erste Liste L₂₁ des Kanals ch₂, welche jeweils mit allen anderen Listen (jedoch nicht mit den Listen des eigenen Kanals ch₂) verglichen wird, um jeweils Koinzidenzwerte K21-12, K21-31 usw. , allgemein K_pn-_P'n' (mit p' Φ p) , zu be- rechnen, aus denen dann ein Gesamt-Koinzidenzwert K_pn für jede Liste L_pn ermittelt wird, wie weiter unten noch beschrieben.

Gemäß Fig. 17 wird ein Koinzidenzwert aus den zeitlichen Überlappungen u der Instanzen I₁ zweier miteinander zu vergleichenden Listen - in Fig. 17 der Einfachheit halber nur als L_x und L₂ bezeichnet - berechnet: Der Koinzidenzwert K_pn-_P'n- ist die Summe aller Zeitdauern t_x all jener Instanzüberlappungen u, welche wie nachstehend berücksichtigt werden, bezogen auf die Zeitdauer T des gesamten betrachteten Kanals ch_p.

Dabei werden nur solche Überlappungen u von Instanzen I₁ eines Kandidatenmusters m_ix der Liste Li mit Instanzen I₁ der Kandidatenmuster m_2x der anderen Liste L₂ berücksichtigt, welche zumindest zweimal auftreten, und auch dann nur jene Überlappungen u, welche die - kandidatenmusterbezogen - längsten Überlap- pungszeiten t_x erzeugen. In dem Beispiel von Fig. 17 bedeutet dies: Das Kandidatenmuster m_lb (d.h. seine drei Instanzen ii, ±₂, i-₃) überlappt sich dreimal mit Instanzen ein und desselben Kandidatenmusters der zweiten Liste L_2/ und zwar mit den drei Instanzen i_lf i₂ und i₅ des Kandidatenmusters m_2a zu den Überlappungszeiten ti, t₂ und ts; und nur diese Überlappungszeiten werden für das Kandidatenmuster mi_b berücksichtigt.

Unberücksichtigt bleiben alle weiteren Überlappungen des Kandidatenmusters mχ_b mit Instanzen anderer Kandidatenmuster, z.B. den Instanzen ±χ und i₄ von m_2b, weil diese Überlappungen kürzer sind als die vorgenannten. Auch die nochmalige Überlappung der Instanz i₂ von πii_b mit der Instanz i₃ von πi_2a wird nicht gezählt, sondern nur jeweils eine einzige Doppelüberlappung pro Instanz der ersten Liste Li, und zwar die zeitlängste. Ebenso bleiben nochmalige Überlappungen v der Instanzen i_x und 2.₂ des Kandidatenmusters πii_a mit den Instanzen ii und i₂ des Kandidatenmusters m_2b unberücksichtigt, weil bereits die Überlappungen u der Instanzen i₃ und i₄ von m_la mit den Instanzen ii und i_u von m_2a berücksichtigt wurden. Der Koinzidenzwert K_pn-_P'n' kann optional für exakt in ihrem Beginn oder Ende zusammenfallende Instanzen - im gezeigten Beispiel von Fig. 17 die zusammenfallenden Beginne der ersten Instanzen ii der Kandidatenmuster iτii_b und m_2a sowie das Zusammenfallen der Enden der dritten Instanzen i₃ von m_la und m_2a bzw. der Beginne der vierten Instanzen i₄ von mχ_a und m_2a - für jeden Zusammenfall besonders erhöht, z.B. um einen vorgegebenen „Bonuswert" inkrementiert werden.

Zurückkommend auf die allgemeine Bezeichnungsweise von Fig. 18 ergeben sich damit beispielsweise für die Liste L_pn des Kanals ch_p die folgenden Koinzidenzwerte K_pn-_P'n' gegenüber den Listen aller anderen Kanäle:

^K _Pn-_P^=^γ- mit T_p = T_p-. P

d) Verknüpfung der Eigenähnlichkeits- und Koinzidenzwerte Die für jede Liste L_pn ermittelten Eigenähnlichkeitswerte Ep_n und Koinzidenzwerte K_pn-_P'n< werden zu einem Gesamtwert G_pn der Liste L_pn verknüpft, beispielsweise durch Aufsummieren, Multiplizieren oder andere mathematische Operationen. Bevorzugt wird die folgende Verknüpfung angewandt: Wie in Fig. 18 veranschaulicht, werden für eine Liste, beispielsweise die erste Liste L₂₁ des zweiten Kanals ch₂, nur jene Koinzidenzwerte K2i-_P'n' gegenüber den Listen Lp-_n. der anderen Kanäle ch_p< berücksichtigt, welche dort in jedem Kanal jeweils den höchsten Wert haben. In dem gezeigten Beispiel sind das der Koinzidenzwert K21-12 zur zweiten Liste Li₂ des ersten Kanals chi und der Koinzidenzwert K₂₁-₃₁ zur ersten Liste L_3i des dritten Kanals

Ch₃.

Diese kanalmaximalen Koinzidenzwerte werden zu einem Ge- samt-Koinzidenzwert K_pn für die Liste L_pn aufsummiert, d.h.:

Der Gesamt-Koinzidenzwert K_pn der Liste L_pn wird anschlie- ßend mit dem Eigenähnlichkeitswert E_pn der Liste L_pn multipliziert, um einen Gesamtwert G_pn für die Liste L_pn zu ergeben:

pn pn pn

Anschließend wird in jedem Kanal ch_p jeweils jene Liste L_p gesucht, welche den höchsten Gesamtwert G_p

hat. In dem in Fig. 19 gezeigten Beispiel, welches auf den Eingangssequenzen der Fig. 1 und 2 beruht, sind das die Liste L_i2 als Ergebnisliste Li des ersten Kanals chi, die Liste L₂i als Ergebnisliste L₂ des zweiten Kanals ch₂ und die Liste L₃₃ als Ergebnisliste L₃ des dritten Kanals ch₃. Die Kandidatenmuster m_px der Listen L_p stellen damit die für jeden Kanal ch_p - und zwar unter Berücksichtigung seiner Strukturbeziehungen zu allen anderen Kanälen - jeweils bester- kannten, ähnlich wiederkehrenden Notenmuster des Kanals dar, wie in Fig. 20 gezeigt.

Die Erfindung ist nicht auf die dargestellten Ausführungsformen beschränkt, sondern umfaßt alle Varianten und Modifika- tionen, die in den Rahmen der angeschlossenen Ansprüche fallen.

Claims

Patentansprüche :

1. Verfahren zur Erkennung ähnlich wiederkehrender Muster von Noten in einem Musikstück, das auf parallele Kanäle (ch) verteilte Notensequenzen (q) enthält, mit den Schritten: a) wiederholtes Segmentieren jedes Kanals (ch) unter Variierung von Segment länge und -beginn und, für jede Segmentierungsart, Bestimmen zueinander ähnlicher Segmente (S) und Speichern derselben in Listen (L) von Kandidatenmustern (m) mit ih- ren jeweiligen Instanzen (i) , und zwar jeweils einer Liste pro Segmentierungsart und Kanal; b) Berechnen eines Eigenähnlichkeitswerts (E) für jede Liste (L) , welcher auf den Ähnlichkeiten der Instanzen (i) jedes Kandidatenmusters (m) einer Liste untereinander basiert; c) Berechnen von Koinzidenzwerten (K) für jede Liste (L) jedes Kanals (ch) gegenüber den Listen aller anderen Kanäle, welcher jeweils auf den Überlappungen (u) von Instanzen (i) eines Kandidatenmusters (m) der einen Liste (L) mit Instanzen (i) eines Kandidatenmuster (m) der anderen Liste (L) basiert, wenn sich diese zumindest zweimal überlappen; und d) Verknüpfen der Eigenähnlichkeits- und Koinzidenzwerte (E, K) jeder Liste (L) zu einem Gesamtwert (G) pro Liste und Verwenden der Musterkandidaten (m) der Listen (L) mit dem höchsten Gesamtwert (G) in jedem Kanal (ch) als erkannte Notenmu- ster des Kanals.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß in Schritt a) zusätzlich folgender Schritt ausgeführt wird: al) Detektieren der in einem Kanal (ch) ident wiederkehrenden Muster (m) , daraus Auswählen der den Kanal bestabdecken- den Muster und Speichern derselben in einer weiteren Liste (L) von Kandidatenmustern (m) mit ihren jeweiligen Instanzen (i) pro Kanal.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß in Schritt al) das Detektieren ident wiederkehrender Muster (m) mittels des an sich bekannten Korrelationsmatrix-Verfahrens durchgeführt wird.

4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß in Schritt al) das Auswählen der bestabdeckenden Muster (m) durch iteratives Auswählen des jeweils häufigsten und/oder längsten Musters aus den detektierten Mustern erfolgt.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß in Schritt a) die Segmentlänge in Vielfachen der Takteinheit des Musikstücks variiert wird.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Segmentlänge vom Zweifachen der durchschnittlichen No- tendauer des Musikstücks bis zur halben Länge des Musikstücks variiert wird.

7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß in Schritt a) das Bestimmen zueinander ähnlicher Segmente (S) durch gegenseitiges Ausrichten der Noten zweier Segmente, Bestimmen eines Übereinstimmungsgrades der beiden Segmente und Erkennen auf Ähnlichkeit, wenn der Übereinstimmungsgrad einen vorgegebenen Schwellwert übersteigt, erfolgt.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß das Ausrichten der Noten mittels des an sich bekannten „Dynamic Programming"-Verfahrens erfolgt.

9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß in Schritt b) für jedes Kandidatenmuster (m) der Liste (L) eine Ähnlichkeitsmatrix seiner Instanzen (i) aufgestellt wird, deren Werte zum Eigenähnlichkeitswert (E) der Liste (L) verknüpft werden, bevorzugt unter Gewichtung durch die Kanalabdeckung (P) der Kandidatenmuster (m) der Liste (L) .

10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß am Ende von Schritt b) jene Listen (L) ei- nes Kanals (ch) , deren Eigenähnlichkeitswert (E) einen vorgegebenen Schwellwert nicht erreicht, gelöscht werden.

11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß der vorgegebene Schwellwert ein Prozentsatz des höchsten Eigenähnlichkeitswerts (E) aller Listen (L) des Kanals (ch) ist, bevorzugt mindestens 70%, besonders bevorzugt etwa 85%.

12. Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, daß in Schritt c) für ein bestimmtes Kandidatenmuster einer Liste (L) nur die Überlappungen (u) zu jenen Instanzen (i) der anderen Liste (L) berücksichtigt werden, mit welchen die zeitlängsten Überlappungen vorliegen.

13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, daß bei dem Verknüpfen von Schritt e) für jede Liste (L) jedes Kanals (ch) nur jene Koinzidenzwerte (K) zu den Listen (L) der anderen Kanäle (ch) berücksichtigt werden, die dort den jeweils höchsten Wert darstellen.

14. Verfahren nach einem der Ansprüche 1 bis 13, dadurch gekennzeichnet, daß bei dem Verknüpfen von Schritt e) die für eine Liste (L) berücksichtigten Koinzidenzwerte (K) jeweils aufsummiert werden.

15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, daß bei dem Verknüpfen von Schritt e) die aufsummierten Koinzidenzwerte (K) mit dem Eigenähnlichkeitswert (E) der Liste (L) zum genannten Gesamtwert (G) multipliziert werden.