WO2017207348A1 - Karaoke-system und verfahren zum betreiben eines karaoke-systems - Google Patents

Karaoke-system und verfahren zum betreiben eines karaoke-systems Download PDF

Info

Publication number
WO2017207348A1
WO2017207348A1 PCT/EP2017/062398 EP2017062398W WO2017207348A1 WO 2017207348 A1 WO2017207348 A1 WO 2017207348A1 EP 2017062398 W EP2017062398 W EP 2017062398W WO 2017207348 A1 WO2017207348 A1 WO 2017207348A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio stream
stream
text
reference melody
karaoke system
Prior art date
Application number
PCT/EP2017/062398
Other languages
English (en)
French (fr)
Inventor
Sascha Grollmisch
Estefanía CANO CERÓN
Steffen HOLLY
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Publication of WO2017207348A1 publication Critical patent/WO2017207348A1/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/365Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems the accompaniment information being stored on a host computer and transmitted to a reproducing terminal by means of a network, e.g. public telephone lines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/091Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings

Abstract

Vorgeschlagen wird ein Karaoke-System mit: einer Datenschnittstelle zum Empfangen eines Mediendatenstreams, welcher einen Audiostream mit einer Gesangsstimme enthält, aus einem Weitverkehrsnetz; einem Puffer zum Zwischenspeichern des empfangenen Audiostreams; einem Referenzmelodiebereitsteller zum Ermitteln einer digital notierten Referenzmelodie, welche mit dem Audiostream korrespondiert; einer Synchronisierstufe zum Synchronisieren des zuvor zwischengespeicherten Audiostreams und der Referenzmelodie, um so einen synchronisierten Audiostream bereitzustellen; einer Wiedergabeeinrichtung zum Wiedergeben des synchronisierten Audiostreams als Schallsignal; einer Aufnahmeeinrichtung zum Aufnehmen und Digitalisieren wenigstens eines Nutzergesanges; und einer Bewertungsstufe zum Erstellen einer Bewertung des wenigstens einen Nutzergesangs anhand eines Vergleichs des wenigstens einen digitalisierten Nutzergesangs mit der synchronisierten Referenzmelodie, wobei die Bewertung durch die Wiedereingabeeinrichtung als Bewertungsausgabe ausgebbar ist.

Description

Karaoke-System und Verfahren zum Betreiben eines Karaoke-Systems
Beschreibung Bei bekannten Karaoke-Systemen wird eine auf einem Nutzerendgerät lokal vorhandene Mediendatei, welche beispielsweise auf einer Festplatte oder einem anderen Datenträger gespeichert ist, über eine Wiedergabeeinrichtung wiedergegeben. Die Mediendatei enthält oder verlinkt dabei lokal gespeicherte Audiodaten und in vielen Fällen auch lokal gespeicherte Videodaten. Die Mediendatei ist dabei in der Regel speziell für Karaoke-Anwendungen aufbereitet. So enthält oder verlinkt die Mediendatei typischerweise auch lokal gespeicherte Textdaten, welche gleichzeitig mit den Audiodaten und, falls vorhanden, den Videodaten wiedergegeben werden können. Dem Nutzer des Karaoke-Systems wird so das Mitsingen synchron zur wiedergegebenen Me- diendatei erleichtert.
Bei einer aus der Praxis bekannten Karaoke-Anwendung, welche auf dem Markt unter dem Namen„SingStar" für die Sony PlayStation angeboten wird, ist darüber hinaus eine Funktionalität vorgesehen, welche eine Bewertung des Gesangs des Nutzers ermöglicht. Dabei wird dieser Nutzergesang mit einer Referenzmelodie verglichen, welche ebenfalls in der Mediendatei enthalten oder durch Sie verlinkt und lokal gespeichert ist. Die Bewertung kann dann als Bewertungsausgabe ausgegeben werden, so dass beispielsweise Gesangswettbewerbe mit mehreren Teilnehmern ausgetragen werden kön- nen.
Aufgabe der vorliegenden Erfindung ist es, ein verbessertes Karaoke-System und ein verbessertes Verfahren zum Betreiben eines Karaoke-Systems bereitzustellen.
Die Aufgabe wird gelöst durch ein Karaoke-System mit: einer Datenschnittstelle zum Empfangen eines Mediendatenstreams, welcher einen Audiostream mit einer Gesangsstimme enthält, aus einem Weitver- kehrsnetz; einem Puffer zum Zwischenspeichern des empfangenen Audiostreams; einem Referenzmelodiebereitsteüer zum Ermitteln einer digital notierten Referenzmelodie, welche mit dem Audiostream korrespondiert; einer Synchronisierstufe zum Synchronisieren des zuvor zwischengespeicherten Audiostreams und der Referenzmelodie, um so einen synchronisierten Audiostream bereitzustellen; einer Wiedergabeeinrichtung zum Wiedergeben des synchronisierten Audiostreams als Schallsignal; einer Aufnahmeeinrichtung zum Aufnehmen und Digitalisieren wenigstens eines Nutzergesanges, umso einen digitalisierten Nutzergesang bereitzustel- len; und einer Bewertungsstufe zum Erstellen einer Bewertung des wenigstens einen Nutzergesangs anhand eines Vergleichs des wenigstens einen digitalisierten Nutzergesangs mit der synchronisierten Referenzmelodie, wobei die Bewer- tung durch die Wiedereingabeeinrichtung als Bewertungsausgabe ausgebbar ist.
Allgemein wird unter einem Mediendatenstream eine über ein Netzwerk übertragbare und bereits während der Übertragung wiedergebbare Medien- datei verstanden, welche Mediendaten enthält. Ein Mediendatenstream muss also nicht vollständig lokal gespeichert werden, bevor mit der Wiedergabe der medialen Inhalte begonnen werden kann. Unter einem Audiostream wird dabei ein solcher Stream verstanden, der Audiodaten enthält, welche dafür vorgesehen sind, als Schallsignal wiedergegeben zu werden.
Bei dem Weitverkehrsnetz kann es sich prinzipiell um jedes Weitverkehrsdatennetz handeln, welches die erforderliche Bandbreite zur Übertragung des Mediendatenstreams aufweist. Insbesondere kann es sich um das Internet handeln. Ein Puffer ist ein derartiger Speicher, der es ermöglicht zumindest Teile des Mediendatenstreams einschließlich des Audiostreams vorübergehend zu speichern, so dass die gespeicherten Teile des Mediendatenstreams zu einer späteren Zeit wieder ausgelesen werden können, wobei gespeicherten Teile des Mediendatenstreams nach dem Auslesen in aller Regel nicht erneut ausgelesen werden können.
Unter einem Referenzmelodiebereitsteller wird ein solcher Hardware und/oder Software enthaltender Funktionsblock verstanden, welcher zum internen Bestimmen oder externen Beschaffen einer digital notierten Referenzmelodie, weiche mit dem Audiostream korrespondiert, ausgebildet ist. Typischerweise korrespondiert die Referenzmelodie mit einer Gesangsstimme im Audiostream. Grundsätzlich ist es aber auch möglich, dass die Referenzmelodie mit einer Instrumentenstimme korrespondiert, nämlich dann, wenn von dem Nutzer erwartet wird, mit dem Nutzergesang ein Instrument nachzuahmen.
Der Begriff Synchronisierstufe bezieht sich auf einen Hardware und/oder Software enthaltenden Funktionsblock, der dazu ausgebildet ist, die Refe- renzmelodie und den zuvor zwischen gespeicherten Audiostream zeitlich abzugleichen, so dass ein synchronisierter Audiostream bereitstellbar ist, der in einer festen zeitlicher Beziehung zur Referenzmelodie steht.
Beispielsweise kann die Synchronisierstufe zur Überwachung und Steuerung des Puffers und/oder des Referenzmelodiebereitstellers ausgebildet sein. So kann die Synchronisierstufe überwachen, ob ein Audiostream zwischengespeichert wird. Hierauf kann die Synchronisierstufe den Referenzmelodiebereitsteller dazu veranlassen, die Referenzmelodie zu ermitteln. Stellt die Synchronisierstufe dann fest, dass die Referenzmelodie zur Verfügung steht, so kann die Synchronisierstufe den Referenzmelodiebereitsteller so ansteuern dass dieser die Referenzmelodie zur weiteren Verarbeitung weiterleitet, wobei zeitgleich der Puffer derart angesteuert wird, dass der zuvor gespeicherte Audiostream wieder ausgelesen wird, umso den synchronisierten Audiostream zu erzeugen und für die weitere Verarbeitung weiterzuleiten. Durch dieses Zusammenwirken des Puffers, des Referenzmelodiebereitstellers und der Synchronisierstufe kann also gewährleistet werden, dass der Referenz- melodiebereitsteller genügend Zeit zum Ermitteln der Referenzmelodie erhält, und dass die Referenzmelodie und der synchronisierte Audiostream synchron weiterverarbeitet werden können. Die Wiedergabeeinrichtung kann einen oder mehrere Lautsprecher sowie die zum Ansteuern des oder der Lautsprecher erforderlichen Baugruppen umfassen, so dass der synchronisierte Audiostream in ein hörbares Schallsignal umgewandelt werden kann. Festzustellen ist hier, dass das Schaltsignal mit der Referenzmelodie synchronisiert ist, da es ja auf dem synchronisierte Au- diostream beruht.
Die Aufnahmeeinrichtung kann einen oder mehrere Kanäle umfassen, wobei jeder Kanal dazu ausgebildet ist, um einen Nutzergesang aufzunehmen und zu digitalisieren. Jeder Kanal kann hierzu ein Mikrofon mit nachgeschalteten Analog-Digital-Wandler umfassen. Mehrkanalige Aufnahmeeinrichtungen ermöglichen es, gleichzeitig mehrere digitalisierte Nutzergesänge bereitzustellen, so dass parallel ablaufende Gesangswettbewerbe möglich sind. Der eine oder mehrere digitalisierte Nutzergesang steht dabei in einer bekannten zeitlichen Beziehung zur Referenzmelodie, da er ja durch den Nutzer auf der Basis des Schallsignals erzeugt wird.
Die Bewertungsstufe, welche Hardware und/oder Software aufweisen kann, kann nun den oder die digitalisierten Nutzergesänge mit der Referenzmelodie vergleichen und so für den oder die digitalisierten Nutzergesänge eine Bewertung erstellen. Hierzu kann je digitalisiertem Nutzergesang in kurzen zeitlichen Abständen, welche beispielsweise im Bereich zwischen 1 ms und 100 ms liegen können, die Frequenz und/oder die Lautstärke des jeweiligen digitale Nutzergesangs mit der Referenzmelodie verglichen werden. Je nach Grad der Übereinstimmung kann dann für jeden Vergleich eine Vergabe von Punkten erfolgen, wobei die Punkte von mehreren Vergleichen zusammen- gefasst werden können, umso eine Gesamtpunktzahl zu erhalten, welche als Bewertung mit der Qualität des jeweiligen Nutzergesangs korrespondiert. Diese Bewertung kann dann mittels der Wiedergabeeinrichtung als Bewertungsausgabe ausgegeben werden, so dass der oder die Nutzer die Bewer- tung erfassen können. Die Bewertungsausgabe kann dabei beispielsweise optisch oder akustisch erfolgen. Das erfindungsgemäße Karaoke-System ermöglicht es dem Nutzer, die von öffentlichen zugänglichen Musikstreamingdiensten, wie beispielsweise Spo- tify, angebotenen Mediendatenstreams für Karaoke zu nutzen. Damit erhält er Zugriff auf eine wesentlich höhere Anzahl von Musikstücken und auch auf aktuellere Musikstücke als dies bei den gängigen Karaoke-Systemen der Fall ist, welche nur mit vom Anbieter des jeweiligen Karaoke-Systems vorbereiteten und gelieferten Musikdateien funktionstüchtig sind. Die Verwendung von Mediendatenstreams macht die lokale Speicherung der Mediendateien ent- behrlich, so dass das erfindungsgemäße Karaoke-System weniger Speicher benötigt, als herkömmliche Karaoke-Systeme. Zudem ergibt sich für den Nutzer ein Zeitvorteil im Vergleich zu solchen Karaoke-Systemen, bei denen Mediendateien aus einem Weitverkehrsnetz zuerst herunter geladen werden müssen, bevor sie verwendet werden können, da beim erfindungsgemäße Karaoke-System der Karaoke-Betrieb schon nach einer Pufferzeit aufgenommen werden kann, welche im Allgemeinen deutlich unter der Zeit liegt, welche zum Herunterladen einer kompletten Mediendatei erforderlich ist.
Gemäß einer vorteilhaften Weiterbildung der Erfindung enthält der mittels der Datenschnittstelle empfangbare Mediendatenstream zusätzlich einen mit dem Audiostream korrespondierenden Videostream, wobei der Puffer zum Zwischenspeichern des empfangenen Videostreams ausgebildet ist, wobei die Synchronisierstufe zum Synchronisieren des zwischengespeicherten Videostreams mit der Referenzmelodie ausgebildet ist, um so einen synchroni- sierten Videostream bereitzustellen, und wobei die Wiedergabeeinrichtung zum Wiedergeben des synchronisierten Videostreams als Videodarstellung ausgebildet ist.
Unter einem Videostream wird dabei ein solcher Stream verstanden, der Vi- deodaten enthält, welche dafür vorgesehen sind, als Videodarstellung, also einer Darstellung von bewegten Bildern, wiedergegeben zu werden. Die Videodarstellung kann beispielsweise auf einem Display der Wiedergabeeinrichtung erfolgen. Die zusätzliche Wiedergabe der Videodarsteliung kann den Nutzer bei seinem Nutzergesang unterstützen, wenn die synchronisierte Vi- deodarstellung Bilder zeigt, welche in Zusammenhang mit dem Schallsignal stehen. Dies kann dann der Fall sein, wenn etwa Musiker gezeigt werden, die das dem Schallsignal zu Grunde liegende Musikstück aufführen.
Gemäß einer zweckmäßigen Weiterbildung der Erfindung umfasst das Kara- oke-System einen Textbereitsteller, welcher zum Ermitteln eines mit dem Audiostream korrespondierenden Gesangstextes ausgebildet ist, wobei die Synchronisierstufe zum Synchronisieren der Referenzmelodie und des Gesangstextes ausgebildet ist, und wobei die Wiedergabeeinrichtung zum Wiedergeben des synchronisierten Gesangstextes als Textdarstellung ausgebil- det ist.
Unter einer Textdarstellung wird dabei eine alphanumerische Darstellung des Gesangstextes verstanden. Die Darstellung des Gesangstextes als Textdarstellung dient der Unterstützung des Nutzers bei seinem Nutzergesang. Grundsätzlich kann aber auf die Textdarstellung auch verzichtet werden, wenn dem Nutzer der Gesangstext anderweitig bekannt ist.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Textbereitsteller zum Ermitteln des Gesangstextes mittels einer Analyse des Audiostreams ausgebildet.
Hierbei kann beispielsweise eine automatische Spracherkennungssoftware zu Einsatz kommen. Das Karaoke-System ist so unabhängig von externen Textquellen.
Nach einer vorteilhaften Weiterbildung der Erfindung enthält der mittels der Datenschnittstelle empfangbare Mediendatenstream zusätzlich einen mit dem Audiostream korrespondierenden Metadatenstream, wobei der Textbereitsteller zum Extrahieren des Gesangstextes aus dem Metadatenstream ausgebildet ist.
Unter einem Metadatenstream wird grundsätzlich ein Stream verstanden, der Metadaten, also ergänzende Angaben, zu einem originären Datenstream, insbesondere zu einem Audiostream oder einem Videostream, enthält. Im Falle eines Audiostreams können beispielsweise ein Titel oder ein Interpret eines im Audiostream enthaltenen Musikstücks als Metadaten in dem Meta- datenstream übertragen werden. Ebenso kann in einem Metadatenstream auch der zum Audiostream gehörige Gesangstext enthalten sein. Liegen nun derartige Metadaten vor, so können diese durch die Weiterbildung der Erfindung in einfacher Weise in eine Textdarstellung umgewandelt werden.
Nach einer zweckmäßigen Weiterbildung der Erfindung ist der Textbereitsteller zum Auslesen des Gesangstextes aus einer Textdatenbank mittels einer Datenbankabfrage ausgebildet.
Bei der Textdatenbank kann es sich sowohl um eine lokale Datenbank als auch um eine abgesetzte Datenbank handeln, auf welche über das Weitverkehrsnetzwerk zugegriffen werden kann. Beispielsweise steht im Internet eine öffentlich zugängliche Textdatenbank des Anbieters Musixmatch bereit. Zur Formulierung der Datenbankabfrage können beispielsweise Metadaten aus einem mit dem Audiostream korrespondierenden Metadatenstream verwendet werden. Ebenso können so genannte Fingerprints des Audiostreams, also charakteristische Eigenschaften des Audiostreams, zur Formulierung der Datenbankabfrage hinzugezogen werden.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Referenzme- lodiebereitsteller zum Ermitteln der Referenzmelodie mittels einer Analyse des Audiostreams ausgebildet.
Zum Ermitteln der Referenzmelodie mittels einer Analyse eines Audiostreams kann beispielsweise eine in Referenz [1] beschriebene Methode herangezogen werden. Das erfindungsgemäße Karaoke-System wird hierdurch unabhängig von vorab existierenden Referenzmelodien.
Nach einer vorteilhaften Weiterbildung der Erfindung enthält der mittels der Datenschnittstelle empfangbare Mediendatenstream zusätzlich einen mit dem Audiostream korrespondierenden Metadatenstream, wobei der Refe- renzmelodiebereitsteller zum Extrahieren der Referenzmelodie aus dem Metadatenstream ausgebildet ist.
Ebenso kann in einem Metadatenstream auch die zum Audiostream gehörige Referenzmelodie enthalten sein. Liegen nun derartige Metadaten vor, so können diese durch die Weiterbildung der Erfindung in einfacher Weise in eine Referenzmelodie umgewandelt werden.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Referenzme- lodiebereitsteller zum Ermitteln der Referenzmelodie mittels einer Abfrage einer Referenzmelodiedatenbank ausgebildet.
Bei der Referenzmelodiedatenbank kann es sich sowohl um eine lokale Datenbank als auch um eine abgesetzte Datenbank handeln, auf weiche über das Weitverkehrsnetzwerk zugegriffen werden kann. Zur Formulierung der Abfrage können beispielsweise Metadaten aus einem mit dem Audiostream korrespondierenden Metadatenstream verwendet werden. Ebenso können so genannte Fingerprints des Audiostreams, also charakteristische Eigenschaften des Audiostreams, zur Formulierung der Abfrage hinzugezogen werden.
Zur Synchronisierung der aus der Referenzmelodiedatenbank abgefragten Referenzmelodie mit dem Audiostream kann eine in Referenz [2] beschriebene Methode verwendet werden Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Referenzme- lodiebereitsteller zur Ermittlung wenigstens eines Gesa ngszeitra umes ausgebildet, während dessen die Gesangsstimme im Audiostream aktiv ist, wobei der Referenzmelodiebereitsteller die Referenzmelodie ausschließlich für den wenigstens einen Gesangszeitraum ermittelt.
Hierdurch kann der Rechenaufwand verringert werden, insbesondere wenn die Referenzmelodie mittels einer Analyse des Audiostreams ermittelt wird.
Nach einer vorteilhaften Weiterbildung der Erfindung ist der Referenzmelo- diebereitsteller zum Ermitteln des wenigstens einen Gesangszeitraumes mittels einer Analyse des Audiostreams ausgebildet.
Hierzu kann eine automatische Gesang/Instrumentenklassifikation herangezogen werden, wie beispielsweise in Referenz [3] beschrieben ist. Gemäß einer zweckmäßigen Weiterbildung der Erfindung enthält der mittels der Datenschnittstelle empfangbare Mediendatenstream zusätzlich einen mit dem Audiostream korrespondierenden Metadatenstream, wobei der Refe- renzmelodiebereitsteller zum Extrahieren des wenigstens einen Gesangszeit- raumes aus dem Metadatenstream ausgebildet ist.
Ebenso kann in einem Metadatenstream auch der zum Audiostream gehörige Gesangszeitraum enthalten sein. In diesem Fall kann der Gesang besonders einfach ermittelt werden.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Referenzme- lodiebereitsteller zum Ermitteln des wenigstens einen Gesangszeitraumes mittels einer Analyse des Gesangstextes ausgebildet. Diesem Merkmal liegt die Überlegung zu Grunde, dass der Gesangstext nur dann angegeben ist, wenn die Gesangsstimme aktiv ist. Auf diese Weise kann der Gesangszeitraum besonders einfach ermittelt werden.
Nach einer zweckmäßigen Weiterbildung der Erfindung ist der Referenzme- lodiebereitsteller zum Ermitteln des wenigstens einen Gesangszeitraumes mittels einer Abfrage einer Gesangszeitraumdatenbank ausgebildet.
Bei der Gesangszeitraumdatenbank kann es sich sowohl um eine lokale Datenbank als auch um eine abgesetzte Datenbank handeln, auf welche über das Weitverkehrsnetzwerk zugegriffen werden kann. Zur Formulierung der Abfrage können beispielsweise Metadaten aus einem mit dem Audiostream korrespondierenden Metadatenstream verwendet werden. Ebenso können so genannte Fingerprints des Audiostreams, also charakteristische Eigenschaften des Audiostreams, zur Formulierung der Abfrage hinzugezogen werden.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist eine Dämpfungsstufe zur Dämpfung der Gesangsstimme in dem wiedergegebenen Schallsignal vorgesehen. Die Dämpfungsstufe kann dabei so ausgebildet sein, dass die Gesangsstimme teilweise oder vollständig in dem wiedergegebenen Schallsignal un- terd rückt ist. Auf diese Weise wird es dem Nutzer erschwert, eine gute Bewertung für seinen Nutzergesang zu erzielen. Die Dämpfung der Gesangsstimme kann durch eine automatische Quellentrennung, beispielsweise anhand des Stereosignals, oder anhand von Signalverarbeitungsalgorithmen erfolgen, die beispielsweise in den Referenzen [4] und [5] beschrieben sind.
Nach einer vorteilhaften Weiterbildung der Erfindung ist die Wiedergabeeinrichtung zum Wiedergeben des digitalisierten Nutzergesangs ausgebildet. Auf diese Weise ist der Nutzergesang über den oder die Lautsprecher der Wiedergabeeinrichtung sowohl für den aktuellen Nutzer als auch für weitere Zuhörer hörbar.
Nach einer vorteilhaften Weiterbildung der Erfindung ist eine Datenbank- Schnittstelle zum Einschreiben von Metadaten, welche mit dem Audiostream korrespondieren, in eine Metadaten-Datenbank vorgesehen.
Bei der Metadaten-Datenbank kann es sich sowohl um eine lokale Datenbank als auch um eine abgesetzte Datenbank handeln, auf welche über das Weitverkehrsnetzwerk zugegriffen werden kann. Bei den Metadaten kann es sich insbesondere um solche Daten handeln, welche vor ab nicht zur Verfügung standen und erst durch das Karaoke-System erzeugt wurden. Dies kann die Referenzmelodie, den Gesamtzeitraum, den Gesangstext oder sonstige Metadaten betreffen. Auf diese Weise stehen die genannten Daten bei einem erneuten Aufruf des Musikstücks zum Abrufen verfügbaren müssen nicht erneut berechnet werden.
Nach einer vorteilhaften Weiterbildung der Erfindung ist die Bewertungsstufe zum Erkennen eines Textes in dem wenigstens einen digitalisierten Nutzer- gesang ausgebildet, wobei die Bewertungsstufe beim Erstellen der Bewertung des wenigstens einen digitalisierten Nutzergesangs zur zusätzlichen Berücksichtigung eines Vergleichs des erkannten Textes des wenigstens einen digitalisierten Nutzergesangs mit dem Gesangstext des Textbereitstellers, welcher mit dem Audiostream korrespondiert, ausgebildet ist. Hierbei kann beispielsweise eine automatische Spracherkennungssoftware zu Einsatz kommen. Auf diese Weise kann zusätzlich die Texttreue des Nutzers als Kriterium bei der Erstellung der Bewertung für den Nutzergesang herangezogen werden. in einem weiteren Aspekt wird die Aufgabe gelöst durch einen Verfahren zum Betreiben eines Karaoke-Systems mit den Schritten:
Empfangen eines Mediendatenstreams, welcher einen Audiostream mit einer Gesangsstimme enthält, aus einem Weitverkehrsnetz unter Verwendung einer Datenschnittstelle;
Zwischenspeichern des empfangenen Audiostreams unter Verwendung eines Puffers;
Ermitteln einer digital notierten Referenzmelodie, welche mit dem Audiostream korrespondiert;
Synchronisieren des zwischengespeicherten Audiostreams und der Referenzmelodie, um so einen synchronisierten Audiostream bereitzustellen;
Wiedergeben des synchronisierten Audiostreams unter Verwendung einer Wiedergabeeinrichtung als Schallsignal; und
Aufnehmen und Digitalisieren wenigstens eines Nutzergesanges, um so einen digitalisierten Nutzergesang bereitzustellen;
Erstellen einer Bewertung für den wenigstens einen Nutzergesang anhand eines Vergleichs des wenigstens einen digitalisierten Nutzergesangs mit der synchronisierten Referenzmelodie; und
Wiedergeben der Bewertung als Bewertungsausgabe.
Es ergeben sich die oben anhand des erfindungsgemäßen Karaoke-Systems beschriebenen Vorteile. Computerprogramm, welches ein erfindungsgemäßes Verfahren durchführt, sofern es auf einem Prozessor ausgeführt wird.
Es ergeben sich die Vorteile des erfindungsgemäßen Verfahrens.
Im Folgenden werden die vorliegende Erfindung und deren Vorteile anhand von Figuren näher beschrieben.
Es zeigen:
Figur 1 ein erstes Ausführungsbeispiel eines erfindungsgemäßen Ka- raoke-Systems in einer schematischen Darstellung;
Figur 2 eine Teildarstellung eines zweiten Ausführungsbeispiels eines erfindungsgemäßen Karaoke-Systems in einer schematischen
Darstellung.
Gleiche oder gleichartige Elemente oder Elemente mit gleicher oder äquivalenter Funktion sind im Folgenden mit gleichen oder gleichartigen Bezugs- zeichen versehen.
In der folgenden Beschreibung werden Ausführungsbeispiele mit einer Vielzahl von Merkmalen der vorliegenden Erfindung näher beschrieben, um ein besseres Verständnis der Erfindung zu vermitteln. Es ist jedoch festzuhalten, dass die vorliegende Erfindung auch unter Auslassung einzelner der beschriebenen Merkmale umgesetzt werden kann. Es sei auch darauf hingewiesen, dass die in verschiedenen Ausführungsbeispielen gezeigten Merkmale auch in anderer Weise kombinierbar sind, sofern dies nicht ausdrücklich ausgeschlossen ist oder zu Widersprüchen führen würde.
Figur 1 zeigt ein erstes Ausführungsbeispiel eines erfindungsgemäßen Karaoke-Systems in einer schematischen Darstellung.
Das erfindungsgemäße Karaoke-System umfasst: eine Datenschnittstelle 2 zum Empfangen eines Mediendatenstreams DS, welcher einen Audiostream AS mit einer Gesangsstimme enthält, aus einem Weitverkehrsnetz WN; einen Puffer 3 zum Zwischenspeichern des empfangenen Audiostreams AS; einen Referenzmelodiebereitsteller 4 zum Ermitteln einer digital notierten Referenzmelodie RM, welche mit dem Audiostream AS korrespondiert; eine Synchronisierstufe 5 zum Synchronisieren des zwischengespeicherten Audiostreams AS und der Referenzmelodie RM, um so einen synchronisierten Audiostream SAS bereitzustellen; eine Wiedergabeeinrichtung 6 zum Wiedergeben des synchronisierten Audiostreams SAS als Schallsignal Sl; eine Aufnahmeeinrichtung 7 zum Aufnehmen und Digitalisieren wenigstens eines Nutzergesanges NG, um so einen digitalisierten Nutzergesang DNG bereitzustellen; und eine Bewertungsstufe 8 zum Erstellen einer Bewertung BW des wenigstens einen Nutzergesangs NG anhand eines Vergleichs des wenigstens einen digitalisierten Nutzergesangs DNG mit der Referenzmelodie RM, wobei die Bewertung BW durch die Wiedereingabeeinrichtung 6 als Bewertungsausgabe BWD ausgebbar ist.
Allgemein wird unter einem Mediendatenstream DS eine über ein Netzwerk übertragbare und bereits während der Übertragung wiedergebbare Mediendatei verstanden, welche Mediendaten enthält. Ein Mediendatenstream DS muss also nicht vollständig lokal gespeichert werden, bevor mit der Wieder- gäbe der medialen Inhalte begonnen werden kann. Unter einem Audiostream AS wird dabei ein solcher Stream verstanden, der Audiodaten enthält, welche dafür vorgesehen sind, als Schallsignal Sl wiedergegeben zu werden.
Bei dem Weitverkehrsnetz WN kann es sich prinzipiell um jedes Weitver- kehrsdatennetz handeln, welches die erforderliche Bandbreite zur Übertra- gung des Mediendatenstreams DS aufweist. Insbesondere kann es sich um das Internet handeln.
Ein Puffer 3 ist ein derartiger Speicher, der es ermöglicht den Mediendaten- stream DS einschließlich des Audiostreams AS vorübergehend zu speichern, so dass er zu einer späteren Zeit wieder ausgelesen werden kann.
Unter einem Referenzmelodiebereitsteller 4 wird ein solcher Hardware und/oder Software enthaltender Funktionsblock verstanden, welcher zum internen Bestimmen oder externen Beschaffen einer digital notierten Referenzmelodie RM, welche mit dem Audiostream AS korrespondiert, ausgebildet ist. Typischerweise korrespondiert die Referenzmelodie RM mit einer Gesangsstimme im Audiostream AS. Grundsätzlich ist es aber auch möglich, dass die Referenzmelodie RM mit einer Instrumentenstimme korrespondiert, nämlich dann, wenn von dem Nutzer erwartet wird, mit dem Nutzergesang NG ein Instrument nachzuahmen.
Der Begriff Synchronisierstufe 5 bezieht sich auf einen Hardware und/oder Software enthaltenden Funktionsblock, der dazu ausgebildet ist, die Refe- renzmelodie RM und den zuvor zwischen gespeicherten Audiostream AS zeitlich abzugleichen, so dass ein synchronisierter Audiostream SAS bereitstellbar ist, der in einer festen zeitlicher Beziehung zur Referenzmelodie RM steht. Beispielsweise kann die Synchronisierstufe 5 zur Überwachung und Steuerung des Puffers 3 und/oder des Referenzmelodiebereltstellers 5 ausgebildet sein. So kann die Synchronisierstufe 5 überwachen, ob ein Audiostream AS zwischengespeichert wird. Hierauf kann die Synchronisierstufe 5 den Referenzmelodiebereitsteller 4 dazu veranlassen, die Referenzmelodie RM zu ermitteln. Stellt die Synchronisierstufe 5 dann fest, dass die Referenzmelodie RM zur Verfügung steht, so kann die Synchronisierstufe 5 den Referenzmelodiebereitsteller 4 so ansteuern dass dieser die Referenzmelodie RM zur weiteren Verarbeitung weiterleitet, wobei zeitgleich der Puffer 3 derart angesteuert wird, dass der zuvor gespeicherte Audiostream AS wieder ausgele- sen wird, umso den synchronisierten Audiostream SAS zu erzeugen und zu weiteren Verarbeitung weiterzuleiten. Durch dieses Zusammenwirken des Puffers 3, des Referenzmelodiebereitstellers 4 und der Synchronisierstufe 5 kann also gewährleistet werden, dass der Referenzmelodiebereitsteller 4 genügend Zeit zum Ermitteln der Referenzmelodie RM erhält, und dass die Referenzmelodie RM und der synchronisierte Audiostream SAS synchron weiterverarbeitet werden können.
Die Wiedergabeeinrichtung 6 kann einen oder mehrere Lautsprecher sowie die zum Ansteuern des oder der Lautsprecher erforderlichen Baugruppen umfassen, so dass der synchronisierte Audiostream SAS in ein hörbares Schallsignal Sl umgewandelt werden kann. Festzustellen ist hier, dass das Schaltsignal Sl mit der Referenzmelodie RM synchronisiert ist, da es ja auf dem synchronisierte Audiostream SAS beruht.
Die Aufnahmeeinrichtung 7 kann einen oder mehrere Kanäle umfassen, wo- bei jeder Kanal dazu ausgebildet ist, um einen Nutzergesang NG aufzunehmen und zu digitalisieren. Jeder Kanal kann hierzu ein Mikrofon mit nachgeschalteten Analog-Digital-Wandler umfassen. Mehrkanalige Aufnahmeeinrichtungen 7 ermöglichen es, gleichzeitig mehrere digitalisierte Nutzergesänge DNG bereitzustellen, so dass parallel ablaufende Gesangswettbewerbe möglich sind. Der eine oder mehrere digitalisierte Nutzergesang DNG steht dabei in einer bekannten zeitlichen Beziehung zur Referenzmelodie RM, da er ja durch den Nutzer auf der Basis des Schallsignals Sl erzeugt wird.
Die Bewertungsstufe 8, welche Hardware und/oder Software aufweisen kann, kann nun den oder die digitalisierten Nutzergesänge DNG mit der Referenzmelodie RM vergleichen und so für den oder die digitalisierten Nutzergesänge DNG eine Bewertung BW erstellen. Hierzu kann je digitalisiertem Nutzergesang DNG in kurzen zeitlichen Abständen, welche beispielsweise im Bereich zwischen 1 ms und 100 ms liegen können, die Frequenz und/oder die Lautstärke des jeweiligen digitalen Nutzergesangs DNG mit der Referenzmelodie RM verglichen werden. Je nach Grad der Übereinstimmung kann dann für jeden Vergleich eine Vergabe von Punkten erfolgen, wobei die Punkte von mehreren Vergleichen zusammengefasst werden können, umso eine Gesamtpunktzahl zu erhalten, welche als Bewertung BW mit der Quali- tät des jeweiligen Nutzergesangs NG korrespondiert. Diese Bewertung BW kann dann mittels der Wiedergabeeinrichtung 6 als Bewertungsausgabe BWD ausgegeben werden, so dass der oder die Nutzer die Bewertung BW erfassen können. Die Bewertungsausgabe BWD kann dabei beispielsweise optisch oder akustisch erfolgen.
Das erfindungsgemäße Karaoke-System 1 ermöglicht es dem Nutzer, die von öffentlichen zugänglichen Musikstreamingdiensten, wie beispielsweise Spotify oder YouTube, angebotenen Mediendatenstreams DS für Karaoke zu nutzen. Damit erhält er Zugriff auf eine wesentlich höhere Anzahl von Musikstücken als dies bei den gängigen Karaoke-Systemen der Fall ist, welche nur mit vom Anbieter des jeweiligen Karaoke-Systems vorbereiteten und gelieferten Musikdateien funktionstüchtig sind. Die Verwendung von Mediendatenstreams DS macht die lokale Speicherung der Mediendateien entbehrlich, so dass das erfindungsgemäße Karaoke-System 1 weniger Speicher benötigt, als herkömmliche Karaoke-Systeme. Zudem ergibt sich für den Nutzer ein Zeitvorteil im Vergleich zu solchen Karaoke-Systemen, bei denen Mediendateien aus einem Weitverkehrsnetz WN zuerst herunter geladen werden müssen, bevor sie verwendet werden können, da beim erfindungsgemäße Karaoke-System 1 der Karaoke-Betrieb schon nach einer Pufferzeit aufgenommen werden kann, welche im Allgemeinen deutlich unter der Zeit liegt, welche zum Herunterladen einer kompletten Mediendatei erforderlich ist.
Gemäß einer vorteilhaften Weiterbildung der Erfindung enthält der mittels der Datenschnittstelle 2 empfangbare Mediendatenstream DS zusätzlich einen mit dem Audiostream AS korrespondierenden Videostream VS, wobei der Puffer 3 zum Zwischenspeichern des empfangenen Videostreams VS ausgebildet ist, wobei die Synchronisierstufe 5 zum Synchronisieren des zwischengespeicherten Videostreams VS mit der Referenzmelodie RM ausgebildet ist, um so einen synchronisierten Videostream SVS bereitzustellen, und wobei die Wiedergabeeinrichtung 6 zum Wiedergeben des synchronisierten Videostreams SVS als Videodarstellung VD ausgebildet ist.
Unter einem Videostream VS wird dabei ein solcher Stream verstanden, der Videodaten enthält, welche dafür vorgesehen sind, als Videodarstellung VD, also einer Darstellung von bewegten Bildern, wiedergegeben zu werden. Die Videodarstellung VD kann beispielsweise auf einem Display der Wiedergabeeinrichtung erfolgen. Die zusätzliche Wiedergabe der Videodarstellung VD kann den Nutzer bei seinem Nutzergesang NG unterstützen, wenn die Videodarstellung VD Bilder zeigt, welche in Zusammenhang mit dem Schallsignal Sl stehen. Dies kann dann der Fall sein, wenn etwa Musiker gezeigt werden, die das dem Schallsignal Sl zu Grunde liegende Musikstück auffüh- ren.
Gemäß einer zweckmäßigen Weiterbildung der Erfindung umfasst das Karaoke-System 1 einen Textbereitsteller 9, welcher zum Ermitteln eines mit dem Audiostream AS korrespondierenden Gesangstextes GT ausgebildet ist, wo- bei die Synchronisierstufe 5 zum Synchronisieren der Referenzmelodie RM und des Gesangstextes GT ausgebildet ist, und wobei die Wiedergabeeinrichtung 6 zum Wiedergeben des Gesangstextes GT als Textdarstellung TD ausgebildet ist. Unter einer Textdarstellung TD wird dabei eine alphanumerische Darstellung des Gesangstextes GT verstanden. Die Darstellung des Gesangstextes GT als Textdarstellung TD dient der Unterstützung des Nutzers bei seinem Nutzergesang NG. Grundsätzlich kann aber auf die Textdarstellung TD auch verzichtet werden, wenn dem Nutzer der Gesangstext GT anderweitig be- kannt ist.
Gemäß einer zweckmäßigen Weiterbildung der Erfindung ist der Textbereitsteller 9 zum Ermitteln des Gesangstextes GT mittels einer Analyse des Au- diostreams AS ausgebildet.
Hierbei kann beispielsweise eine automatische Spracherkennungssoftware zu Einsatz kommen. Das Karaoke-System 1 ist so unabhängig von externen Textquellen. Nach einer vorteilhaften Weiterbildung der Erfindung enthält der mittels der Datenschnittstelle 2 empfangbare Mediendatenstream DS zusätzlich einen mit dem Audiostream AS korrespondierenden Metadatenstream MS, und wobei der Textbereitsteller 9 zum Extrahieren des Gesangstextes GT aus dem Metadatenstream MS ausgebildet ist. Unter einem Metadatenstream MS wird grundsätzlich ein Stream verstanden, der Metadaten, also ergänzende Angaben, zu einem originären Daten- stream, insbesondere zu einem Audiostream AS oder einem Videostream VS, enthält, im Falle eines Audiostreams AS können beispielsweise ein Titel oder ein Interpret eines im Audiostream AS enthaltenen Musikstücks als Metadaten in dem Metadatenstream MS übertragen werden. Ebenso kann in einem Metadatenstream MS auch der zum Audiostream AS gehörige Gesangstext GT enthalten sein. Dies ist beispielsweise im Falle des Musikstreamingdienstes Spotify zumindest für einige Musikstücke der Fall. Lie- gen nun derartige Metadaten vor, so können diese durch die Weiterbildung der Erfindung in einfacher Weise in eine Textdarstellung TD umgewandelt werden.
Nach einer zweckmäßigen Weiterbildung der Erfindung ist der Textbereitstel- ler 9 zum Auslesen des Gesangstextes GT aus einer Textdatenbank TDB mittels einer Datenbankabfrage DBA ausgebildet.
Bei der Textdatenbank TDB kann es sich sowohl um eine lokale Datenbank als auch um eine abgesetzte Datenbank handeln, auf welche über das Weit- verkehrsnetzwerk WN zugegriffen werden kann. Beispielsweise steht im Internet eine öffentlich zugängliche Textdatenbank TDB des Anbieters Mu- sixmatch bereit. Zur Formulierung der Datenbankabfrage DBA können beispielsweise Metadaten aus einem mit dem Audiostream AS korrespondierenden Metadatenstream MS verwendet werden. Ebenso können so genann- te Fingerprints des Audiostreams AS, also charakteristische Eigenschaften des Audiostreams AS, zur Formulierung der Datenbankabfrage DBA hinzugezogen werden.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Referenzme- lodiebereitsteller 4 zum Ermitteln der Referenzmelodie RM mittels einer Analyse des Audiostreams AS ausgebildet.
Zum Ermitteln der Referenzmelodie RM mittels einer Analyse eines Audiostreams kann beispielsweise eine in Referenz [1] beschriebene Methode herangezogen werden. Das erfindungsgemäße Karaoke-System 1 wird hierdurch unabhängig von vorab existierenden Referenzmelodien RM. Nach einer vorteilhaften Weiterbildung der Erfindung enthält der mittels der Datenschnittstelle 2 empfangbare Mediendatenstream DS zusätzlich einen mit dem Audiostream AS korrespondierenden Metadatenstream MS, und wobei der Referenzmelodiebereitsteller 4 zum Extrahieren der Referenzmelodie RM aus dem Metadatenstream MS ausgebildet ist.
Ebenso kann in einem Metadatenstream MS auch die zum Audiostream AS gehörige Referenzmelodie RM enthalten sein. Dies ist beispielsweise im Fal- le des Musikstreamingdienstes Spotify zumindest für einige Musikstücke der Fall. Liegen nun derartige Metadaten vor, so können diese durch die Wetterbildung der Erfindung in einfacher Weise in eine Textdarstellung TD umgewandelt werden. Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Referenzmelodiebereitsteller 4 zum Ermitteln der Referenzmelodie RM mittels einer Abfrage AB einer Referenzmelodiedatenbank RDB ausgebildet.
Bei der Referenzmelodiedatenbank RDB kann es sich sowohl um eine lokale Datenbank als auch um eine abgesetzte Datenbank handeln, auf welche über das Weitverkehrsnetzwerk WN zugegriffen werden kann. Zur Formulierung der Abfrage AB können beispielsweise Metadaten aus einem mit dem Audiostream AS korrespondierenden Metadatenstream MS verwendet werden. Ebenso können so genannte Fingerprints des Audiostreams AS, also charakteristische Eigenschaften des Audiostreams AS, zur Formulierung der Abfrage AB hinzugezogen werden.
Zur Synchronisierung der aus der Referenzmelodiedatenbank RDB abgefragten Referenzmelodie RM mit dem Audiostream AS kann eine in Referenz [2] beschriebene Methode verwendet werden
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Referenzmelodiebereitsteller 4 zur Ermittlung wenigstens eines Gesangszeitraumes ausgebildet, während dessen die Gesangsstimme im Audiostream AS aktiv ist, wobei der Referenzmelodiebereitsteller 4 die Referenzmelodie RM ausschließlich für den wenigstens einen Gesangszeitraum ermittelt. Hierdurch kann der Rechenaufwand verringert werden, insbesondere wenn die Referenzmelodie RM mittels einer Analyse des Audiostreams AS ermittelt wird.
Nach einer vorteilhaften Weiterbildung der Erfindung ist der Referenzmelo- diebereitsteller 4 zum Ermitteln des wenigstens einen Gesangszeitraumes mittels einer Analyse des Audiostreams AS ausgebildet. Hierzu kann eine automatische Gesang/Instrumentenklassifikation herangezogen werden, wie beispielsweise in Referenz [3] beschrieben ist.
Gemäß einer zweckmäßigen Weiterbildung der Erfindung enthält der mittels der Datenschnittstelle 2 empfangbare Mediendatenstream DS zusätzlich ei- nen mit dem Audiostream AS korrespondierenden Metadatenstream MS, und wobei der Referenzmelodiebereitsteller 4 zum Extrahieren des wenigstens einen Gesangszeitraumes aus dem Metadatenstream MS ausgebildet ist.
Ebenso kann in einem Metadatenstream MS auch der zum Audiostream AS gehörige Gesangszeitraum GZ enthalten sein. In diesem Fall kann der Gesang besonders einfach ermittelt werden.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Referenzmelodiebereitsteller 4 zum Ermitteln des wenigstens einen Gesangszeitraumes mittels einer Analyse des Gesangstextes GT ausgebildet.
Diesem Merkmal liegt die Überlegung zu Grunde, dass der Gesangstext GT nur dann angegeben ist, wenn die Gesangsstimme aktiv ist. Auf diese Weise kann der Gesangszeitraum GZ besonders einfach ermittelt werden.
Nach einer zweckmäßigen Weiterbildung der Erfindung ist der Referenzmelodiebereitsteller 4 zum Ermitteln des wenigstens einen Gesangszeitraumes mittels einer Abfrage AF einer Gesangszeitraumdatenbank GDB ausgebildet. Bei der Gesangszeitraumdatenbank GDB kann es sich sowohl um eine lokale Datenbank als auch um eine abgesetzte Datenbank handeln, auf welche über das Weitverkehrsnetzwerk WN zugegriffen werden kann. Zur Formulierung der Abfrage AF können beispielsweise Metadaten aus einem mit dem Audiostream AS korrespondierenden Metadatenstream MS verwendet werden. Ebenso können so genannte Fingerprints des Audiostreams AS, also charakteristische Eigenschaften des Audiostreams AS, zur Formulierung der Abfrage hinzugezogen werden.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist eine Dämpfungsstufe 10 zur Dämpfung der Gesangsstimme in dem wiedergegebenen Schallsignal Si vorgesehen.
Die Dämpfungsstufe 10 kann dabei so ausgebildet sein, dass die Gesangsstimme teilweise oder vollständig in dem wiedergegebenen Schallsignal SI unterdrückt ist. Auf diese Weise wird es dem Nutzer erschwert, eine gute Bewertung BW für seinen Nutzergesang NG zu erzielen. Die Dämpfung der Gesangsstimme kann durch eine automatische Quellentrennung, beispielsweise anhand des Stereosignals, oder anhand von Signalverarbeitungsalgorithmen erfolgen, die beispielsweise in den Referenzen [4] und [5] beschrieben sind.
Nach einer vorteilhaften Weiterbildung der Erfindung ist die Wiedergabeeinrichtung 6 zum Wiedergeben des digitalisierten Nutzergesangs DNG ausgebildet. Auf diese Weise ist der Nutzergesang NG über den oder die Lautsprecher der Wiedergabeeinrichtung 6 sowohl für den aktuellen Nutzer als auch für weitere Zuhörer hörbar.
Nach einer vorteilhaften Weiterbildung der Erfindung ist die Bewertungsstufe 8 zum Erkennen eines Textes in dem wenigstens einen digitalisierten Nutzergesang DNG ausgebildet, wobei die Bewertungsstufe 8 beim Erstellen der Bewertung BW des wenigstens einen digitalisierten Nutzergesangs DNG zur zusätzlichen Berücksichtigung eines Vergleichs des erkannten Textes des wenigstens einen digitalisierten Nutzergesangs DNG mit dem Gesangstext GT des Textbereitstellers 9, welcher mit dem Audiostream AS korrespondiert, ausgebildet ist. Hierbei kann beispielsweise eine automatische Spracherkennungssoftware zu Einsatz kommen. Auf diese Weise kann zusätzlich die Texttreue des Nutzers als Kriterium bei der Erstellung der Bewertung BW für den Nutzerge- sang NG herangezogen werden.
Figur 2 zeigt eine Teildarstellung eines zweiten Ausführungsbeispiels eines erfindungsgemäßen Karaoke-Systems in einer schematischen Darstellung. Das zweite Ausführungsbeispiel beruht auf dem ersten Ausführungsbeispiel, so dass im Folgenden lediglich die Unterschiede zum ersten Ausführungsbeispiel erläutert sind.
Nach einer vorteilhaften Weiterbildung der Erfindung ist eine Datenbankschnittstelle 11 zum Einschreiben von Metadaten RM, GT, GZ welche mit dem Audiostream AS korrespondieren, in eine Meta-Datenbank MDB vorgesehen.
Bei der Metadaten-Datenbank MDB kann es sich sowohl um eine lokale Datenbank als auch um eine abgesetzte Datenbank handeln, auf weiche über das Weitverkehrsnetzwerk WN zugegriffen werden kann. Bei den Metadaten kann es sich insbesondere um solche Daten handeln, welche vor ab nicht zur Verfügung standen und erst durch das Karaoke-System 1 erzeugt wurden. Dies kann die Referenzmelodie RM, den Gesamtzeitraum GZ, den Gesangstext GT oder sonstige Metadaten betreffen. Auf diese Weise stehen die genannten Daten bei einem erneuten Aufruf des Musikstücks zum Abrufen verfügbaren müssen nicht erneut berechnet werden.
Das erfindungsgemäße Karaoke-System 1 kann als eigene Plattform eine Schnittstelle zur Anwendungsprogrammierung, häufig nur kurz API genannt, der Streamingdienste nutzen oder als Plugin/Software-Bibliothek auch direkt in die Clients der Streaminganbieter integriert werden.
Das erfindungsgemäße Karaoke-System 1 ist anwendbar für Einzelstreaming, auch Individual Streaming oder On-Demand Streaming genannt, bei dem der Nutzer den Audiostream unter einer Vielzahl von vorab in dem Weitverkehrsnetz gespeicherten Audiostreams auswählt und für Event- Streaming, bei dem der Audiostream beispielsweise während eines Live- Events in Echtzeit erzeugt und zur Verfügung gestellt wird. Die Nutzer können sich dann einwählen, wobei alle eingewählten Nutzer auf dieselben Daten zugreifen. Das erfindungsgemäße Karaoke-System 1 kann auch für Mehrspielerpartien genutzt werden.
Das erfindungsgemäße Karaoke-System 1 ermöglicht ein interaktives Karao- ke mit jedem Lied aus der Bibliothek eines Streaminganbieters. Die Lieder müssen nicht speziell für das erfindungsgemäße Karaoke-System 1 aufberei- tet werden.
Das erfindungsgemäße Karaoke-System 1 kann in Karaoke-Software, in Clientsoftware von Streaminganbietern, in Musiklernsoftware, in Websites für/mit Karaoke-Inhalten, in mobilen Applikationen beispielsweise zum Live- Gesangs-Training oder zu Live-Gesangs-Wettbewerben eingesetzt werden.
Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der erfindungsgemäßen Vorrichtung zumindest teilweise in Hardware oder zumindest teilweise in Software implementiert sein. Die Implemen- tierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer Blu-ray Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH- Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart zusammenwirken können, dass ein oder mehrere der funktionalen Elemente der erfindungsgemäßen Vorrichtung realisiert werden.
Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbau- element (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Vorrichtung durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenwirken, um eine der hierin beschriebenen Vorrichtungen zu reali- sieren. Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.
Das erfindungsgemäße Verfahren zum Betreiben eines Karaoke-Systems 1 weist dabei folgende Schritte auf:
Empfangen eines Mediendatenstreams DS, welcher einen Audiostream AS mit einer Gesangsstimme enthält, aus einem Weitverkehrsnetz WN unter Verwendung einer Datenschnittstelle 2;
Zwischenspeichern des empfangenen Audiostreams AS unter Verwendung eines Puffers 3;
Ermitteln einer digital notierten Referenzmelodie RM, welche mit dem Audiostream AS korrespondiert;
Synchronisieren deszwischengespeicherten Audiostreams AS und der Referenzmelodie RM, um so einen synchronisierten Audiostream SAS bereitzustellen;
Wiedergeben des synchronisierten Audiostreams SAS unter Verwendung einer Wiedergabeeinrichtung 6 als Schalsignal Sl;
Aufnehmen und Digitalisieren wenigstens eines Nutzergesanges (NG), um so einen digitalisierten Nutzergesang (DNG) bereitzustellen;
Erstellen einer Bewertung BW für den wenigstens einen Nutzergesang NG anhand eines Vergleichs des wenigstens einen digitalisierten Nutzergesangs DNG mit der Referenzmelodie RM; und
Wiedergeben der Bewertung BW als Bewertungsausgabe BWD.
Aspekte der Erfindung, welche hierin im Kontext der erfindungsgemäßen Vorrichtung beschrieben sind, repräsentieren ebenso Aspekte des erfindungsgemäßen Verfahrens. Umgekehrt repräsentieren solche Aspekte der Erfindung, welche hierin im Kontext des erfindungsgemäßen Verfahrens beschrieben sind, ebenso Aspekte der erfindungsgemäßen Vorrichtung.
Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell einsetzbare Hardware wie ein Computerprozessor (CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.
Ebenfalls betrifft die Erfindung ein Computerprogramm, welches ein erfindungsgemäßes Verfahren, sofern es auf einem Prozessor ausgeführt wird.
Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogramm mit einem Programmcode implementiert sein, wobei der Programmcode dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogramm auf einem Computer abläuft. Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger gespeichert sein.
Manche Ausführungsbeispiele der Erfindung umfassen einen, vorzugsweise nicht-flüchtigen Datenträger oder Datenspeicher, der ein Computerprogramm mit elektronisch lesbaren Steuersignalen aufweist, welches in der Lage ist, mit einem programmierbaren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.
Ausführungsbeispiele der vorliegenden Erfindung können als Computerprogrammprodukt mit einem Computerprogramm implementiert sein, wobei das Computerprogramm dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogramm auf einem Computer abläuft.
Bezugszeichen:
1 Karaoke-System
2 Datenschnittstelle
3 Puffer
4 Referenzmelodiebereitsteller
5 Synchronisierstufe 6 Wiedergabeeinrichtung
7 Aufnahmeeinrichtung
8 Bewertungsstufe
9 Textbereitsteller
10 Dämpfungsstufe
11 Datenbankschnittstelle
DS Mediendatenstream
AS Audiostream
WN Weitverkehrsnetz
RM Referenzmelodie
SAS synchronisierter Audiostream
Sl Schallsignal
NG Nutzergesang
DNG digitalisierter Nutzergesang
BW Bewertung
BWD Bewertungsausgabe
VS Videostream
SVS synchronisierter Videostream
VD Videodarstellung
MS Metadatenstream
GT Gesangstext
SGT synchronisierten Gesangstext
TD Textdarstellung
TDB Textdatenbank
DBA Datenbankabfrage
AB Abfrage
RDB Referenzmelodiedatenbank
GZ Gesangszeitraum
AF Abfrage
GDB Gesangszeitraumdatenbank
MDB Meta-Datenbank Salamon, Justin, and Emilia Gomez. "Melody extraction from poly- phonic music Signals using pitch contour characteristics." Audio, Speech, and Language Processing, IEEE Transactions on 20.6 (2012): 1759-1770.
Ewert, Sebastian, Meinard Müller, and Peter Grosche. "High resolution audio synchronization using chroma onset features." Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on. IEEE, 2009.
S. Leglaive, R. Hennequin and R. Badeau, "Singing voice detection with deep recurrent neural networks," Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on, South Brisbane, QLD, 2015, pp. 121-125.
P. S. Huang, S. D. Chen, P. Smaragdis and M. Hasegawa-Johnson, "Singing-voice Separation from monaural recordings using robust prin- cipal component analysis," Acoustics, Speech and Signal Processing (ICASSP), 2012 IEEE International Conference on, Kyoto, 2012, pp. 57-60.
T. Prätzlich, R. M. Bittner, A. Liutkus and M. Müller, "Kernel Additive Modeling for interference reduction in multi-channel music recordings," Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on, South Brisbane, QLD, 2015, pp. 584-588.

Claims

Patentansprüche
Karaoke-System mit: einer Datenschnittstelle (2) zum Empfangen eines Mediendatenstreams (DS), welcher einen Audiostream (AS) mit einer Gesangsstimme enthält, aus einem Weitverkehrsnetz (WN); einem Puffer (3) zum Zwischenspeichern des empfangenen Audio- streams (AS); einem Referenzmelodiebereitsteiler (4) zum Ermitteln einer digital notierten Referenzmelodie (RM), welche mit dem Audiostream (AS) korrespondiert; einer Synchronisierstufe (5) zum Synchronisieren des zwischengespeicherten Audiostreams (AS) und der Referenzmelodie (RM), um so einen synchronisierten Audiostream (SAS) bereitzustellen; einer Wiedergabeeinrichtung (6) zum Wiedergeben des synchronisierten Audiostreams (SAS) als Schallsignal (Sl); einer Aufnahmeeinrichtung (7) zum Aufnehmen und Digitalisieren wenigstens eines Nutzergesanges (NG), um so einen digitalisierten Nutzergesang (DNG) bereitzustellen; und einer Bewertungsstufe (8) zum Erstellen einer Bewertung (BW) des wenigstens einen Nutzergesangs (NG) anhand eines Vergleichs des wenigstens einen digitalisierten Nutzergesangs (DNG) mit der Referenzmelodie (RM), wobei die Bewertung (BW) durch die Wiedereingabeeinrichtung (6) als Bewertungsausgabe (BWD) ausgebbar ist.
Karaoke-System nach vorstehendem Anspruch, wobei der mittels der Datenschnittstelle
(2) empfang bare Mediendatenstream (DS) zusätzlich einen mit dem Audiostream (AS) korrespondierenden Videostream (VS) enthält, wobei der Puffer (3) zum Zwischenspeichern des empfangenen Videostreams (VS) ausgebildet ist, wobei die Synchronisierstufe (5) zum Synchronisieren des zwischengespeicherten Videostreams (VS) mit der Referenzmelodie (RM) ausgebildet ist, um so einen synchronisierten Vi- deostream (SVS) bereitzustellen, und wobei die Wiedergabeeinrichtung (6) zum Wiedergeben des synchronisierten Videostreams (SVS) als Videodarstellung (VD) ausgebildet ist.
3. Karaoke-System nach einem der vorstehenden Ansprüche, wobei das Karaoke-System (1 ) einen Textbereitsteller (9) umfasst, welcher zum Ermitteln eines mit dem Audiostream (AS) korrespondierenden Gesangstextes (GT) ausgebildet ist, wobei die Synchronisierstufe (5) zum Synchronisieren der Referenzmelodie (RM) und des Gesangstextes (GT) ausgebildet ist, und wobei die Wiedergabeeinrichtung (6) zum Wiedergeben des Gesangstextes (GT) als Textdarstellung (TD) ausgebildet ist.
4. Karaoke-System nach vorstehendem Anspruch, wobei der Textbereitsteller (9) zum Ermitteln des Gesangstextes (GT) mittels einer Analyse des Audiostreams (AS) ausgebildet ist.
5. Karaoke-System nach Anspruch 3 oder 4, wobei der mittels der Datenschnittstelle (2) empfangbare Mediendatenstream (DS) zusätzlich einen mit dem Audiostream (AS) korrespondierenden Metadatenstream (MS) enthält, und wobei der Textbereitsteller (9) zum Extrahieren des Gesangstextes (GT) aus dem Metadatenstream (MS) ausgebildet ist.
6. Karaoke-System nach einem der Ansprüche 3 bis 5, wobei der Textbereitsteller (9) zum Auslesen des Gesangstextes (GT) aus einer Textdatenbank (TDB) mittels einer Datenbankabfrage (DBA) ausgebildet ist.
7. Karaoke-System nach einem der vorstehenden Ansprüche, wobei der Referenzmelodiebereitsteller (4) zum Ermitteln der Referenzmelodie (RM) mittels einer Analyse des Audiostreams (AS) ausgebildet ist.
8. Karaoke-System nach einem der vorstehenden Ansprüche, wobei der mittels der Datenschnittstelle (2) empfangbare Mediendatenstream (DS) zusätzlich einen mit dem Audiostream (AS) korrespondierenden Metada- tenstream (MS) enthält, und wobei der Referenzmelodiebereitsteller (4) zum Extrahieren der Referenzmelodie (RM) aus dem Metadatenstream (MS) ausgebildet ist.
9. Karaoke-System nach einem der vorstehenden Ansprüche, wobei der Referenzmelodiebereitsteller (4) zum Ermitteln der Referenzmelodie (RM) mittels einer Abfrage (AB) einer Referenzmelodiedatenbank (RDB) ausgebildet ist.
10. Karaoke-System nach einem der vorstehenden Ansprüche, wobei der Referenzmelodiebereitsteller (4) zur Ermittlung wenigstens eines Gesangszeitraumes ausgebildet ist, während dessen die Gesangsstimme im Audiostream (AS) aktiv ist, wobei der Referenzmelodiebereitsteller (4) die Referenzmelodie (RM) ausschließlich für den wenigstens einen Gesangszeitraum ermittelt.
11. Karaoke-System nach vorstehendem Anspruch, wobei der Referenzmelodiebereitsteller (4) zum Ermitteln des wenigstens einen Gesangszeitraumes mittels einer Analyse des Audiostreams (AS) ausgebildet ist.
12. Karaoke-System nach Anspruch 10 oder 11 , wobei der mittels der Datenschnittstelle (2) empfangbare Mediendatenstream (DS) zusätzlich einen mit dem Audiostream (AS) korrespondierenden Metadatenstream (MS) enthält, und wobei der Referenzmelodiebereitsteller (4) zum Extra- hieren des wenigstens einen Gesangszeitraumes aus dem Metadatenstream (MS) ausgebildet ist.
13. Karaoke-System nach einem der Ansprüche 10 bis 12, wobei der Referenzmelodiebereitsteller (4) zum Ermitteln des wenigstens einen Ge- sangszeitraumes mittels einer Analyse des Gesangstextes (GT) ausgebildet ist.
14. Karaoke-System nach einem der Ansprüche 10 bis 13, wobei der Referenzmelodiebereitsteller (4) zum Ermitteln des wenigstens einen Ge- sangszeitraumes mittels einer Abfrage (AF) einer Gesangszeitraumdatenbank (GDB) ausgebildet ist.
15. Karaoke-System nach einem der vorstehenden Ansprüche, wobei eine Dämpfungsstufe (10) zur Dämpfung der Gesangsstimme in dem wiedergegebenen Schallsignal (Sl) vorgesehen ist.
16. Karaoke-System nach einem der vorstehenden Ansprüche, wobei die Wiedergabeeinrichtung (6) zum Wiedergeben des digitalisierten Nutzergesangs (DNG) ausgebildet ist
17. Karaoke-System nach einem der vorstehenden Ansprüche, wobei eine Datenbankschnittstelle (11 ) zum Einschreiben von Metadaten (RM, GT, GZ, MS) welche mit dem Audiostream (AS) korrespondieren, in eine Me- ta-Datenbank (MDB) vorgesehen ist.
18. Karaoke-System nach einem der Ansprüche 3 bis 17, wobei die Bewertungsstufe (8) zum Erkennen eines Textes in dem wenigstens einen digitalisierten Nutzergesang (DNG) ausgebildet ist und wobei die Bewertungsstufe (8) beim Erstellen der Bewertung (BW) des wenigstens einen digitalisierten Nutzergesangs (DNG) zur zusätzlichen Berücksichtigung eines Vergleichs des erkannten Textes des wenigstens einen digitalisierten Nutzergesangs (DNG) mit dem Gesangstext (GT) des Textbereitstellers (9), welcher mit dem Audiostream (AS) korrespondiert, ausgebildet ist.
19. Verfahren zum Betreiben eines Karaoke-Systems (1 ) mit den Schritten:
Empfangen eines Mediendatenstreams (DS), welcher einen Audiostream (AS) mit einer Gesangsstimme enthält, aus einem Weitverkehrsnetz (WN) unter Verwendung einer Datenschnittstelle (2);
Zwischenspeichern des empfangenen Audiostreams (AS) unter Verwendung eines Puffers (3);
Ermitteln einer digital notierten Referenzmelodie (RM), welche mit dem Audiostream (AS) korrespondiert; Synchronisieren deszwischengespeicherten Audiostreams (AS) und der Referenzmelodie (RM), um so einen synchronisierten Audiostream (SAS) bereitzustellen;
Wiedergeben des synchronisierten Audiostreams (SAS) unter Verwendung einer Wiedergabeeinrichtung (6) als Schalsignal (Sl);
Aufnehmen und Digitalisieren wenigstens eines Nutzergesanges (NG), um so einen digitalisierten Nutzergesang (DNG) bereitzustellen;
Erstellen einer Bewertung (BW) für den wenigstens einen Nutzergesang (NG) anhand eines Vergleichs des wenigstens einen digitalisierten Nutzergesangs (DNG) mit der Referenzmelodie (RM); und
Wiedergeben der Bewertung (BW) als Bewertungsausgabe (BWD).
20. Computerprogramm, welches ein Verfahren nach vorstehendem Anspruch durchführt, sofern es auf einem Prozessor ausgeführt wird.
PCT/EP2017/062398 2016-06-03 2017-05-23 Karaoke-system und verfahren zum betreiben eines karaoke-systems WO2017207348A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102016209771.7 2016-06-03
DE102016209771.7A DE102016209771A1 (de) 2016-06-03 2016-06-03 Karaoke-System und Verfahren zum Betreiben eines Karaoke-Systems

Publications (1)

Publication Number Publication Date
WO2017207348A1 true WO2017207348A1 (de) 2017-12-07

Family

ID=58992829

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2017/062398 WO2017207348A1 (de) 2016-06-03 2017-05-23 Karaoke-system und verfahren zum betreiben eines karaoke-systems

Country Status (2)

Country Link
DE (1) DE102016209771A1 (de)
WO (1) WO2017207348A1 (de)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060009979A1 (en) * 2004-05-14 2006-01-12 Mchale Mike Vocal training system and method with flexible performance evaluation criteria
US20090038468A1 (en) * 2007-08-10 2009-02-12 Brennan Edward W Interactive Music Training and Entertainment System and Multimedia Role Playing Game Platform
US20100126331A1 (en) * 2008-11-21 2010-05-27 Samsung Electronics Co., Ltd Method of evaluating vocal performance of singer and karaoke apparatus using the same
US20110273455A1 (en) * 2010-05-04 2011-11-10 Shazam Entertainment Ltd. Systems and Methods of Rendering a Textual Animation
US20140254806A1 (en) * 2013-03-11 2014-09-11 General Instrument Corporation Systems and methods for interactive broadcast content

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI282970B (en) * 2003-11-28 2007-06-21 Mediatek Inc Method and apparatus for karaoke scoring
US7164076B2 (en) * 2004-05-14 2007-01-16 Konami Digital Entertainment System and method for synchronizing a live musical performance with a reference performance
KR20060112633A (ko) * 2005-04-28 2006-11-01 (주)나요미디어 노래 평가 시스템 및 방법
US8013231B2 (en) * 2005-05-26 2011-09-06 Yamaha Corporation Sound signal expression mode determining apparatus method and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060009979A1 (en) * 2004-05-14 2006-01-12 Mchale Mike Vocal training system and method with flexible performance evaluation criteria
US20090038468A1 (en) * 2007-08-10 2009-02-12 Brennan Edward W Interactive Music Training and Entertainment System and Multimedia Role Playing Game Platform
US20100126331A1 (en) * 2008-11-21 2010-05-27 Samsung Electronics Co., Ltd Method of evaluating vocal performance of singer and karaoke apparatus using the same
US20110273455A1 (en) * 2010-05-04 2011-11-10 Shazam Entertainment Ltd. Systems and Methods of Rendering a Textual Animation
US20140254806A1 (en) * 2013-03-11 2014-09-11 General Instrument Corporation Systems and methods for interactive broadcast content

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
EWERT, SEBASTIAN; MEINARD MÜLLER; PETER GROSCHE: "Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference", 2009, IEEE, article "High resolution audio synchronization using chroma onset features"
P. S. HUANG; S. D. CHEN; P. SMARAGDIS; M. HASEGAWA-JOHNSON: "Singing-voice separation from monaural recordings using robust principal component analysis", ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2012 IEEE INTERNATIONAL CONFERENCE ON, KYOTO, 2012, pages 57 - 60, XP032227061, DOI: doi:10.1109/ICASSP.2012.6287816
S. LEGLAIVE; R. HENNEQUIN; R. BADEAU: "Singing voice detection with deep recurrent neural networks", ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2015 IEEE INTERNATIONAL CONFERENCE ON, SOUTH BRISBANE, QLD, 2015, pages 121 - 125, XP033063628, DOI: doi:10.1109/ICASSP.2015.7177944
SALAMON; JUSTIN; EMILIA GÖMEZ: "Melody extraction from polyphonic music signals using pitch contour characteristics", AUDIO, SPEECH, AND LANGUAGE PROCESSING, IEEE TRANSACTIONS, vol. 20.6, 2012, pages 1759 - 1770, XP011439746, DOI: doi:10.1109/TASL.2012.2188515
T. PRÄTZLICH; R. M. BITTNER; A. LIUTKUS; M. MÜLLER: "Kernel Additive Modeling for interference reduction in multi-channel music recordings", ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), 2015 IEEE INTERNATIONAL CONFERENCE ON, SOUTH BRISBANE, QLD, 2015, pages 584 - 588, XP033063720, DOI: doi:10.1109/ICASSP.2015.7178036

Also Published As

Publication number Publication date
DE102016209771A1 (de) 2017-12-07

Similar Documents

Publication Publication Date Title
EP1794564B1 (de) Vorrichtung und verfahren zum synchronisieren von zusatzdaten und basisdaten
US10541003B2 (en) Performance content synchronization based on audio
DE60213913T2 (de) System und Verfahren zur Inhaltsdarstellung
DE60037119T3 (de) Elektronische speicherung von musikdaten und von programmen, mit der erkennung von programmsegmenten, wie zum beispiel aufgezeichneten musikvorträgen, und system für die verwaltung und wiedergabe dieser programmsegmente
DE112018001871T5 (de) Audiovisuelles Kollaborationsverfahren mit Latenzverwaltung für großflächige Übertragung
DE60038535T2 (de) Verfahren und vorrichtung, speicherverfahren und - vorrichtung zur informationsbeschaffung und verarbeitung
CN113691909B (zh) 具有音频处理推荐的数字音频工作站
CN112422999B (zh) 直播内容处理方法及计算机设备
DE102005045627A1 (de) Vorrichtung und Verfahren zum Durchführen einer Korrelation zwischen einem Testtonsignal, das mit variabler Geschwindigkeit abspielbar ist, und einem Referenztonsignal
WO2017207348A1 (de) Karaoke-system und verfahren zum betreiben eines karaoke-systems
US20160210999A1 (en) Method and system for automatic b-roll video production
DE102005045628B3 (de) Vorrichtung und Verfahren zum Ermitteln einer Stelle in einem Film, der in einer zeitlichen Folge aufgebrachte Filminformationen aufweist
EP4178212A1 (de) Verfahren zum synchronisieren von einem zusatzsignal zu einem hauptsignal
DE19755863A1 (de) Versprachlichung von hypertextorientierten Graphical User Interfaces (GUIs) zur mobilen und stationären Nutzung
AT520998B1 (de) Verfahren zum Synchronisieren von einem Zusatzsignal zu einem Hauptsignal
DE60215357T2 (de) Verfahren zum Empfang eines Mediensignals
CN113096674B (zh) 一种音频处理方法、装置及电子设备
EP1872368B1 (de) Vorrichtung und verfahren zum ermitteln einer stelle in einem film
DE10146887B4 (de) Vorrichtung und Verfahren zur Synchronisation von digitalen Datenströmen
US11665392B2 (en) Methods and systems for selective playback and attenuation of audio based on user preference
DE19808585A1 (de) Verfahren und Vorrichtung für die Zurverfügungstellung von Informationen für Vortragende
DE102016226042A1 (de) Vorrichtung, Fortbewegungsmittel und Verfahren zur Gestaltung eines Übergangs zwischen zwei Audio-Dateien
DE102017131266A1 (de) Verfahren zum Einspielen von Zusatzinformationen zu einer Liveübertragung
Madsen Illuminated Radio Imagination and Affect in the Tradition of the Audio ‘Feature’,‘Acoustic Film’and Radio Documentaire de Creation
JP2023107697A (ja) プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17727157

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17727157

Country of ref document: EP

Kind code of ref document: A1