WO2001043320A2

WO2001043320A2 - Verfahren zur dekodierung von digitalen audiodaten

Info

Publication number: WO2001043320A2
Application number: PCT/DE2000/003896
Authority: WO
Inventors: Claus Kupferschmidt; Torsten Mlasko; Marc Klein Middelink
Original assignee: Robert Bosch Gmbh
Priority date: 1999-12-08
Filing date: 2000-11-07
Publication date: 2001-06-14
Also published as: JP2004500599A; US7080006B1; EP1238481B1; WO2001043320A3; DE19959038A1; DE50014248D1; EP1238481A2

Abstract

Es wird ein Verfahren zur Dekodierung von digitalen Audiodaten vorgeschlagen, das dazu dient, eine Fehlererkennung in Abhängigkeit von übertragenen Referenzwerten, vorzugsweise Skalenfaktoren, durchzuführen. Das erfindungsgemäße Verfahren umfaßt den Vergleich von Referenzwerten eines Frequenzbereichs mit vorhergehenden Referenzwerten des gleichen Frequenzbereichs, um ein Merkmal zu erzeugen, das mit einem Schwellwert verglichen wird, und das, wenn das Merkmal über dem vorgegebenen Schwellwert liegt, dies mittels einer Signalisierung angezeigt wird. In einer Weiterbildung der Erfindung ist vorgesehen, daß in Frequenzbereichen, in denen keine Audiodaten übertragen werden, ein Ersatzwert eingetragen wird, der dazu führt, daß für diesen Frequenzbereich kein Merkmal erzeugt wird.

Description

Verfahren zur Dekodierung von digitalen Audiodaten

Stand der Technik

Die Erfindung geht aus von einem Verfahren zur Dekodierung von digitalen Audiodaten nach der Gattung des unabhängigen Patentanspruchs .

Es ist bereits bekannt, daß bei DAB (Digital Audio Broadcasting) sendeseitig das gesamte Frequenzspektrum der zu übertragenden digitalen Audiosignale in Frequenzbereiche aufgeteilt wird. Diese Frequenzbereiche werden im englischen mit Subbands bezeichnet. Pro Frequenzbereich werden maximal drei Skalenfaktoren als Referenzwerte festgelegt. In jedem Frequenzbereich werden pro Kanal bei Stereoubertragungen 36 Abtastwerte zeitlich hintereinander erzeugt. Die 36

Abtastwerte werden in zeitlich voneinander getrennte Gruppen zu je 12 Abtastwerten aufgeteilt. Pro Gruppe wird maximal ein Skalenfaktor definiert. Sind zwei oder alle drei Skalenfaktoren eines Frequenzbereichs gleich oder zumindest mit sehr ahnlichen Werten, dann wird für diese

Skalenfaktoren nur ein Skalenfaktor übertragen. Innerhalb eines DAB-Rahmens, in dem die Abtastwerte und ihre Skalenfaktoren übertragen werden, wird daher signalisiert, für welche Gruppe oder Gruppen von Abtastwerten für einen Frequenzbereich ein jeweiliger Skalenfaktor zu verwenden ist. Diese Skalenfaktoren weisen in einer jeweiligen Gruppe oder Gruppen von Abtastwerten den größten

Signalleistungswert auf. Die übrigen Signalwerte in dieser Gruppe oder in diesen Gruppen werden auf diesen Skalenfaktor normiert. Im Empfanger werden dann Fehlererkennung und

-korrekturverfahren bei der Quellendekodierung durchgeführt, nachdem solche Verfahren bei einer vorhergehenden Kanaldekodierung durchgeführt wurden. Diese Fehlererkennung und -korreknurverfahren wahrend der Quellendekodierung betreffen sowohl den DAB-Rahmen als auch die Skalenfaktoren. Dann werden die digitalen Audiodaten mittels der Skalenfaktoren denormiert, und eine Dekodierung der Audiodaten findet statt.

Vorteile der Erfindung

Das erfindungsgemaße Verfahren zur Dekodierung von digitalen Audiodaten mit den Merkmalen des unabhängigen

Patentanspruchs hat demgegenüber den Vorteil, daß mittels einer Plausibilitatsuntersuchung ein Fehler erkannt wird, um dann Fehlerkorrektur- oder verschleierungsverfahren einzuleiten. Das Verfahren ist einfach und nutzt die Eigenschaft von Audiodaten, daß in ihrem zeitlichen Verlauf keine großen Sprunge auftreten. Daher fuhrt vorteilhafterweise eine Vergleichsbildung von zeitlich aufeinanderfolgenden Referenzwerten, die von den Audiodaten abhangen, zu einem aussagekraftigen Ergebnis, ob ein Fehler vorliegt oder nicht.

Das erfindungsgemaße Verfahren ist vorteilhafterweise einfach und kann in jedem Audiodekoder implementiert werden. Darüber hinaus ist das erfindungsgemaße Verfahren auf weitere Audiodekodierungsverfahren (Standards) anwendbar. Zu diesen Standards gehören MPEG-1, MPEG-2 und MPEG-4. Die Standards können eine eigene Fehlerberechung aufweisen oder nicht . Durch die in den abhangigen Ansprüchen aufgeführten Maßnahmen sind vorteilhafte Weiterbildungen und Verbesserungen des im unabhängigen Patentanspruch angegebenen Verfahrens möglich.

Darüber hinaus ist es von Vorteil, daß eine mehrstufige Fehlererkennung durchgeführt wird, denn zu den oben genannten Fehlererkennungs- und -korrekturvefahren, zum Beispiel bei DAB, wird ein weiteres Verfahren hinzugenommen, um weitere Fehler aufzuspüren.

Vorteilhafterweise wird bei dem erfindungsgemaßen Verfahren eine enge Korrelation zwischen den Referenzwerten, die bei DAB Skalenfaktoren sind, ausgenutzt, um festzustellen, ob ein Fehler vorliegt. Audiodaten bringen es mit sich, daß zeitlich benachbarte Daten miteinander in einer engen Korrelation stehen. Dies ist eine Eigenschaft der Sprache und Musik.

Besonders vorteilhaft ist, daß das Merkmal mittels einer Differenz- oder Mittelwertbildung ermittelt wird, wodurch eine aussagekraftige, überschaubare und einfache Entscheidung getroffen wird, ob ein Fehler vorliegt oder nicht. Außerdem ist damit das erfindungsgemaße Verfahren unabhängig von einer Signalart, denn es kann die

Berechnungsmethode verwendet werden, die für ein jeweiliges Signal optimal ist.

Darüber hinaus ist es von Vorteil, daß die Signalisierung der Entscheidung, ob ein Fehler vorliegt, mittels einer

Bitfolge, vorzugsweise eines Flags, erfolgt, wodurch eine einfache Auswertung dieser Entscheidung möglich ist.

Weiterhin ist es von Vorteil, daß durch eine Verknüpfung der Auswertung des Merkmals und der Fehlererkennung der Referenzwerte eine Gesamtaussage getroffen wird, wobei der Auswertung des Merkmals ein Übergewicht gegeben wird, da hier eine sachliche Beziehung zwischen zeitlich aufeinanderfolgenden Referenzwerten, nämlich eine enge Korrelation zwischen den Audiodaten, ausgenutzt wird.

Des weiteren ist es von Vorteil, daß neben den Referenzwerten, vorzugsweise den Skalenfaktoren, auch Rahmen, die zur Übertragung der digitalen Audiodaten genutzt werden, eine Fehlererkennung aufweisen. Dadurch wird m einfacher Weise ein doppelter Fehlerschutz realisiert.

Weiterhin ist es von Vorteil, daß wenn in einem Frequenzbereich keine Daten übertragen werden, sogenannte Ersatzwerte, im Englischen als Default bekannt, als Referenzwerte eingetragen werden und daß dann diese Ersatzwerte als solche identifiziert werden, so daß die erfindungsgemaße Fehlererkennung hier nicht durchgeführt wird, da ansonsten irrtümlicherweise ein Fehler angenommen werden wurde.

Darüber hinaus können geeignete Ersatzwerte bestimmt werden, so daß die Fehlererkennung für alle Frequenzwerte durchgeführt werden kann. Dabei werden vorteilhafterweise solche Ersatzwerte bestimmt, die zu einem Merkmal fuhren, das keinen Fehler indiziert, also eine adaptive Bestimmung der Ersatzwerte. Das vereinfacht das Verfahren, da der Sonderfall des Ersatzwerts nicht abgefangen werden muß.

Zeichnung

Ausfuhrungsbeispiele der Erfindung sind in der Zeichnung dargestellt und in der nachfolgenden Beschreibung naher erläutert. Es zeigen Figur 1 einen MPEGl Layer II Rahmen und Figur 2 ein Blockschaltbild des erfindungsgemaßen Verfahrens .

Beschreibung der Ausfuhrungsbeispiele

Bei den digitalen Ubertragungsverfahren, wie zum Beispiel DAB (Digital Audio Broadcasting) , werden sendeseitig sogenannte Skalenfaktoren verwendet, die hier im folgenden als Referenzwerte bezeichnet werden. Weiter unten wird jedoch gezeigt, daß auch andere charakteristische Daten, die von den Audiodaten abhangen, als Referenzwerte verwendet werden können.

Diese Referenzwerte repräsentieren in aufeinanderfolgenden Frequenzbereichen die stärksten Signalwerte, auf die die übrigen Signalwerte in diesen Frequenzbereichen normiert werden. Damit wird die maximale Differenz zwischen den Amplituden der Audiosignalwerte reduziert. Im Empfanger werden dann die Signalwerte mittels der ebenso übertragenen Referenzwerte denormiert.

Neben DAB, das insbesondere für den mobilen Empfang von Horfunkprogrammen und anderen Multimediadaten geeignet ist, gilt das hier Dargestellte auch für andere digitale Rundfunkubertragungsverfahren, wie DVB (Digital Video

Broadcasting) und DRM (Digital Radio Mondial) oder weitere Verfahren.

Bei digitalen Ubertragungsverfahren wie DAB werden durch die Quellenkodierung im Sender eine Irrelevanz aus den digitalen Rohdaten, z.B. Sprachdaten als PCM (Pulscodemodulation) - Daten, entnommen. Um die zu übertragenen Daten vor Ubertragungsfehlern zu schützen, wird nach der Quellenkodierung Redundanz in einer Kanalkodierung wieder hinzugefugt. Diese Redundanz wird empfangerseitig verwendet, um eine Fehlererkennung und -korrektur wahrend der Kanaldekodierung durchzufuhren. Darüber hinaus weist eine Quellendekodierung, die nach der Kanaldekodierung folgt, hier auch eine Fehlererkennung und -korrektur zusatzlich auf. Die Fehlererkennung und gegebenenfalls -korrektur wahrend der Quellendekodierung wird an den durch die Kanaldekodierung bereits dekodierten Daten durchgeführt. Treten jedoch viele Fehler auf, versagt diese Fehlererkennung und -korrektur wahrend der Quellendekodierung, und es kommt zu einer schlechten Audioqualitat . Unter Fehlerkorrektur ist bei der Quellendekodierung auch eine Fehlerverschleierung zu verstehen.

Bei digital kodierten Audiodaten kann ein nicht korrigierbarer Fehler zu einem deutlich bemerkbaren und damit hörbaren Fehler fuhren, der für einen Hörer weit unangenehmer ist, als es bei analogen, fehlerbehafteten Audiosignalen der Fall ist. Hier liegt nämlich ein gleitender Übergang von sehr guter Audioqualitat bis zur sehr schlechten Audioqualitat vor, wobei selbst bei schlechter Qualität immer noch ein Nutzsignal hörbar ist.

Dies ist bei digitalen Audiodaten eben nicht der Fall: Kann die Kanaldekodierung nicht mehr alle auftretenden Fehler empfangsseitig korrigieren, dann werden bei DAB zunächst die Abtastwerte betroffen, und es kommt zu einem gurgelnden Störgeräusch. Treten immer mehr Fehler auf, werden auch die Skalenfaktoren als Referenzwerte betroffen, so daß dann krachende Störgeräusche auftreten. Werden auch noch ganze Rahmen wiederholt fehlerhaft übertragen, tritt eine Stummschaltung ein. Daher ist hier auf eine sichere Fehlererkennung und - korrektur größten Wert zu legen, um ein hörbares Auftreten von Fehlern auf ein absolutes Minimum zu reduzieren.

Erfindungsgemaß wird daher ein Merkmal generiert, das für einen zusatzlichen Fehlerschutz bei der Quellendekodierung geeignet ist, um in einer weiteren Stufe festzustellen, ob ein Fehler vorliegt. Das erfindungsgemaße Verfahren setzt also hier auf die bereits vorhandenen Verfahren auf. Dies betrifft hier die Fehlererkennung und -korrektur von

Referenzwerten bei der Quellendekodierung. Liegen hier nun Fehler vor, werden die als fehlerhaft erkannten Referenzwerte durch vorhergehende Referenzwerte, die abgespeichert wurden, ersetzt. Die Referenzwerte werden damit durch zwei Verfahren auf Fehler hin überwacht.

Alternativ kann das erfindungsgemaße Verfahren auch als alleinige Fehlererkennung bei der Dekodierung der digitalen Audiodaten wirken, weil es von anderen Fehlererkennungsverfahren und von dem Rahmenaufbau unabhängig ist.

In Figur 1 ist ein MPEG-1-Layer-II-Rahmen dargestellt. Der MPEG-1-Layer-II-Rahmen beginnt mit einem Rahmenkopf 1, auf den ein Feld 2 für eine Rahmenfehlererkennung folgt. Dabei wird hier eine Prufsumme, im Englischen als Cyclic Redundancy Check bezeichnet, eingesetzt. Ist ein fehlerhafter Rahmen anhand der Prufsumme erkannt worden, dann wird ein geeigneter Rahmen den fehlerhaften Rahmen ersetzen, zum Beispiel kann der vorhergehende Rahmen dazu verwendet werden, oder es erfolgt eine Stummschaltung für den fehlerhaften Rahmen. Alternativ kann auch eine Pradiktion vorgenommen werden. Dabei wird aus korrekt empfangenen oder korrigierten Rahmen ein nicht zu korrigierender und damit fehlerhafter Rahmen berechnet. Mittels geeigneten Modellen kann dies abgeschätzt und damit vorhergesagt werden.

Die Prufsumme ist derart gestaltet, daß sie aus Ubertragungseffizienzgrunden nicht alle möglicherweise auftretenden Fehler erkennen kann. In einem solchem Fall versagt die Prufsumme. Bei einer Prufsumme können sich allerdings auch mehrere überlagernde Fehler gegenseitig korrigieren, so daß in einem solchen Fall irrtümlicherweise kein Fehler mittels der Prufsumme erkannt wird.

Charakteristisch für die Prufsumme ist der Test einer Bitsumme, wobei eine inhaltliche Betrachtung der Audiodaten, wie es beim erfindungsgemaßen Verfahren der Fall ist, unterbleibt.

Dann folgt ein Feld für eine Bitzuweisung 3. Bei DAB, wie auch bei anderen digitalen Ubertragungs- und

Aufzeichnungsverfahren, werden die Audiosignale quantisiert. Dabei wird eine nichtlineare Quantisierung durchgeführt, wobei eine psychoakustische Quantisierungskurve zugrunde gelegt wird. Es werden Geräusche, die sich in der Nahe in Bezug auf die Frequenz zu einem aus dem Klangspektrum herausragenden Ton befinden, durch das Ohr nicht mehr wahrgenommen. Dies bezeichnet man als die Mithorschwelle . Dadurch ist es möglich, die Datenrate zu reduzieren, indem solche Geräusche, die unter der Mithorschwelle liegen, aus den Daten entfernt werden. Es werden dabei auch die verschiedenen Frequenzbereiche unterschiedlich fein quantisiert, wobei die Feinheit der Quantisierung dadurch bestimmt ist, daß das Quantisierungsrauschen noch unterhalb der Mithorschwelle liegt. Aus dieser unterschiedlichen Quantisierung pro Frequenzbereich ergibt sich, daß unterschiedlich viele Bits pro Frequenzbereich zuzuweisen sind. Z.B. schwankt die Bitzuweisung pro Frequenzbereich zwischen 3 und 16 Bit. In dem nächsten Feld 4 wird eine Referenzwerteauswahl getroffen. Es kommt durchaus vor, daß zeitlich aufeinanderfolgende Referenzwerte für einen Frequenzbereich die gleiche oder zumindest sehr ahnliche Große haben, da die Leistung in etwa übereinstimmt. Daher ist es nicht notwendig, für den Frequenzbereich mehrere Referenzwerte zu übertragen, wenn ein Referenzwert mehrere zeitlich voneinander getrennte Gruppen von Abtastwerten repräsentiert. In diesem Feld 4 ist nun beschrieben, welche Referenzwerte für welche Gruppen von Abtastwerten zur Denormierung zu verwenden sind.

Im Feld 5 sind dann die Referenzwerte selbst abgespeichert. Im Feld 6 sind die eigentlichen Audiodaten, die mit den Referenzwerten denormiert werden, abgelegt. Im Feld 7 befinden sich Zusatzdaten, die programmbegleitende Informationen umfassen und vor allem die Prufsumme für die Referenzwerte des folgenden Rahmens.

In Figur 2 ist ein Blockschaltbild des erfindungsgemaßen Verfahrens dargestellt. An einem Eingang 8 liegen die Audiodaten vor. In Block 9 wird eine Fehlererkennung der Referenzwerte des vergangenen Rahmens durchgeführt. In Block 10 wird aus dem aktuellen Rahmen ein Merkmal extrahiert, in dem die Referenzwerte des vergangenen Rahmens und des aktuellen Rahmens voneinander abgezogen werden. Liegt die Summe über einem vorgegebenen Schwellwert, dann ist der Unterschied so groß, daß keine Korrelation zwischen den beiden Referenzwerten vorliegt, was bei Audiodaten eigentlich nicht vorkommen kann. Daher wird dieser Fall als Fehler erkannt.

Alternativ kann anstatt einer bloßen Differenzbildung auch eine Mittelwertbildung verwendet werden, um beispielsweise eine Standardabweichung zu berechnen. Liegt die Standardabweichung über einem vorgegebenen Schwellwert, wird dies als Fehler erkannt.

Im Block 11 ist ein Entscheider vorhanden, der die Differenz der aufeinanderfolgenden Referenzwerte mit dem vorgegebenen Schwellwert vergleicht und eine entsprechende Ausgabe macht, d.h. liegt ein Fehler vor, wird ein Bit auf 1 gesetzt, liegt kein Fehler vor, bleibt dieses Bit auf 0. Dieses Bit wird auch mit Flag bezeichnet.

Im Block 12 wird die Fehlererkennung vom Block 9 für die Referenzwerte und die Fehlererkennung mittels der Merkmalsanalyse vom Block 11 miteinander verknüpft, wobei das Verfahren so ausgebildet ist, daß vom Block 11 das

Ergebnis des vorhergehenden Rahmens verwendet wird, daher wird auch im Block 9 die Fehlererkennung für den Referenzwert des vergangenen Rahmens durchgeführt. Die Verknüpfung 12 ist so ausgebildet, daß mittels einer logischen Oderverknupfung die Entscheidung, ob ein Fehler vorliegt, festgestellt wird, d.h. Fehler werden hier durch eine 1 signalisiert, kein Fehler durch eine 0, so daß beide, die Fehlererkennung mittels Prufsumme und die Merkmalsanalyse, keinen Fehler anzeigen dürfen, wenn kein Fehler erkannt werden soll.

Sind Fehler erkannt worden, setzen nun Fehlerkorrektur- oder -verschleierungsverfahren ein. Dazu gehören Rahmenwiederholungen und eine Pradiktion.

In manchen Frequenzbereichen wird zum Teil keine Audioinformation übertragen. Statt dessen wird dann ein Ersatzwert, ein Default, eingetragen. Die Differenzbildung eines Defaults mit einem anderen Referenzwert kann zu einer Indikation eines Fehlers fuhren. Dieser Ersatzwert muß charakteristisch sein, wobei er üblicherweise bei den Audiodaten nicht vorkommt, so daß in diesem Falle die Differenzbildung unterbleibt und hier allein die Fehlererkennung für die Referenzwerte mittels Prufsumme durchgeführt wird. D.h. das Flag für die Fehlererkennung der Referenzwerte bleibt hier auf 0. Alternativ kann der Ersatzwert auch so ausgebildet sein, daß das mit dem Ersatzwert gebildete Merkmal immer unter dem Schwellwert für die Fehlererkennung liegt. Damit wird der Ersatzwert an die Referenzwerte angeglichen. Im Prinzip kann dann auch einfach der entsprechende Referenzwert genommen werden, so daß eine Differenzbild Null ergeben wird.

Im Block 13 wird die Entscheidung signalisiert, ob ein Fehler vorliegt oder nicht. Liegt ein Fehler vor, werden abgespeicherte Referenzwerte aus einem vergangenen Rahmen, der korrekt übertragen wurde, anstatt des fehlerhaften Referenzwerts genommen, liegt kein Fehler vor, werden alle Referenzwerte aus diesem Rahmen verwendet.

Neben den hier genannten Skalenfaktoren als Referenzwerte sind auch andere Daten dafür verwendbar. Zu diesen Daten gehören Gewinnfaktoren, die pro Frequenzbereich für die Ermittlung eines optimalen Aussteuerungsbereichs notwendig sind und die von den Audiodaten abhangen. Aber auch andere Daten können für das erfindungsgemaße Verfahren verwendet werden. Die einzige Voraussetzung ist die enge Korrelation mit den Audiodaten.

Claims

Ansprüche

1. Verfahren zur Dekodierung von digitalen Audiodaten, wobei die digitalen Audiodaten in Rahmen empfangen werden, wobei die digitalen Audiodaten dekodiert werden, dadurch gekennzeichnet, daß bei der Dekodierung aus den Rahmen Referenzwerte entnommen werden, die abhangig von den digitalen Audiodaten sind, um mittels der Referenzwerte ein Merkmal zu erzeugen, daß das Merkmal mit einem vorgegebenen Schwellwert verglichen wird und daß, wenn das Merkmal über dem vorgegebenen Schwellwert liegt, dies mittels einer Signalisierung angezeigt wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die digitalen Audiodaten in aufeinanderfolgende Frequenzbereiche aufgeteilt werden, wobei die digitalen Audiodaten für einen jeweiligen Frequenzbereich mittels mindestens eines Referenzwertes, vorzugsweise eines Skalenfaktors, für den jeweiligen Frequenzbereich denormiert werden, und daß der mindestens eine Referenzwert für den jeweiligen Frequenzbereich mit vorhergehenden Referenzwerten für diesen jeweiligen Frequenzbereich verglichen wird, um das Merkmal zu erzeugen.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß das Merkmal mittels einer Differenzbildung oder einer Mittelwertbildung von dem Referenzwert mit mindestens einem vorhergehenden Referenzwert erzeugt wird.

4. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß die Signalisierung mittels einer Bitfolge, vorzugsweise eines Flags, angezeigt wird.

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß die Bitfolge mit einer Anzeige für die Fehlerkennung verglichen wird.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß für jeden Rahmen eine Fehlerkennung durchgeführt wird.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß der Rahmen einen Rahmenkopf (1) , ein Feld für die

Fehlererkennung des Rahmens (2) , ein Feld für eine Bitzuweisung (3) , ein Feld für eine Auswahl der Referenzwerte (4), ein Feld für die Referenzwerte (5), ein Feld für die digitalen Audiodaten (6) und ein Zusatzdatenfeld (7) aufweist.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß das Zusatzdatenfeld (7) Daten für die Fehlererkennung für die Referenzwerte aufweist.

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß als Rahmen ein MPEG-1-Layer-II Rahmen verwendet wird.

10. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß, wenn in einem Frequenzbereich ein Ersatzwert als Referenzwert eingetragen ist, der Ersatzwert keinem Vergleich mit einem vorhergehenden Referenzwert unterworfen wird.

11. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der Ersatzwert so ausgebildet wird, daß der Vergleich mit einem vorhergehenden Referenzwert zu einem Merkmal fuhrt, das unter dem vorgegebenen Schwellwert fuhrt.