WO1998018264A1

WO1998018264A1 - Schaltungsanordnung zur farbdekodierung eines videosignals

Info

Publication number: WO1998018264A1
Application number: PCT/DE1997/002374
Authority: WO
Inventors: Stefan Prange; Michael Jansen; Joachim Horn
Original assignee: Siemens Aktiengesellschaft
Priority date: 1996-10-21
Filing date: 1997-10-16
Publication date: 1998-04-30
Also published as: DE19643388C1

Abstract

Bei einem Farbdekoder für ein Videosignal ist ein neuronales Netz (1) vorgesehen, um den im Videosignal trägerfrequent enthaltenen Farbsignalanteil (I, Q) und den Helligkeitssignalanteil (Y1, Y2) getrennt bereitzustellen. Zweckmässigerweise wird ein Multilayer-Perceptron (1) mit einer verborgenen Schicht (4) verwendet. Die Eingangssignale (E1, ..., E18) umfassen die Bildpunkte einer Eingabemaske an sich sowie dem Farbsignalanteil proportionale Differenzen. Die Ausgangssignale (Y1, Y2, I, Q) werden für die zentralen Bildpunkte berechnet.

Description

Beschreibung

Schaltungsanordnung zur Farbdekodierung eines Videosignals

Die Erfindung betrifft eine Schaltungsanordnung zur Farbdekodierung eines Videosignals, durch die im Videosignal enthaltenen Helligkeits- und Farbsignalanteile getrennt voneinander erzeugbar sind.

Die Farbinformation eines Videosignals ist bekanntlich im oberen Teil dessen FrequenzSpektrums auf den Farbträger moduliert angeordnet. In klassischen Farbdekodern wird deshalb das Videosignal mit orthogonalen Farbträgerkomponenten syn- chrondemoduliert . In jüngeren Farbdekodern, wie in der EP-0 471 700 A beschrieben, wird eine Kammfilterung angewandt. Dem Kammfilter werden Eingangsbildpunkte aus einer Eingabemaske zugeführt, die drei Zeilen in vertikaler Richtung und einige Bildpunkte in horizontaler Richtung umfaßt . Abhängig von einer Gradientenanalyse werden unterschiedliche Filterverfahren (Zwei- und Einzeilenkammfilterung sowie Ein- fachdekodierung) teilweise in Kombination auf verschiedene Eingangssignalwerte der Eingabemaske angewandt. Die Filterverfahren sind aufgrund von Erfahrungswerten parametrisiert .

Das klassische Verfahren liefert bekanntlich ein Übersprechen zwischen Chrominanz und Luminanz, insbesondere bei räumlich hochfrequenten Strukturen, z.B. vertikalen Helligkeitssprüngen. Bei der adaptiven Kammfilterung wird den Bildgegebenheiten durch harte Umschaltung zwischen verschiedenen Verfahren Rechnung getragen. Jedoch können die dort vorgeschlagenen

Verfahren nicht bei allen in der Praxis vorkommenden Bildinhalten optimale Ergebnisse liefern.

Die Aufgabe der Erfindung besteht darin, eine Schaltungsan- Ordnung zur Farbdekodierung eines Videosignals anzugeben, die auch bei unterschiedlichen Bildinhalten eine qualitativ gute Farbdekodierung ermöglicht . Erfindungsgemäß wird diese Aufgabe durch eine Schaltungsanordnung zur Farbdekodierung nach den Merkmalen des Patentanspruchs 1 gelöst .

Ein neuronales Netz wirkt bekanntlich als nichtlineares Filter. Durch "Training" des Netzes, wodurch die verfügbaren Parameter des Netzes eingestellt werden, wird eine gewünschte Filterfunktion erhalten. Beim Training des neuronalen Netzes im Farbdekoder wird die Farbdekodierung mit ausgesuchten

Trainingsbildern anhand eines vorgegebenen Qualitätskriteriums numerisch optimiert . Auch wenn die vom bereits trainierten Farbdekoder im späteren Praxisbetrieb zu verarbeitenden Bilddaten von den Trainingsbildern abweichen, liefert das neuronale Netz gute Dekodierergebnisse. Darüber hinaus kann das Netz auf besonders kritische Bildinhalte hin speziell trainiert werden.

Zum Training wird an das neuronale Netz eingangsseitig ein Videosignal angelegt mit einer Sequenz von Trainingsbildern, in welchen uminanz und Chrominanz wie eingangs beschrieben kombiniert im Signal vorliegen. Die zugehörigen idealen dekodierten Signale sind bereits bekannt. Beispielsweise wird von Originalbildern ausgegangen, für die das Trainingsvideosignal bzw. die dekodierten Signale auf andere Weise berechnet wurden. Das vom Farbdekoder berechnete - fehlerhafte - Ausgangsbild wird mit dem idealen Referenzausgangsbild verglichen. Der ermittelte Fehler wird dazu verwendet, die einstellbaren Parameter des Netzwerks zu korrigieren, derart, daß anschlie- ßend der Fehler geringer wird. Hierzu wird vorzugsweise das an sich bekannte Verfahren des schrittweisen Gradientenabstiegs mittels Error-Backpropagation angewandt. Ein schrittweises Training führt zu nicht allzu großen und relativ gleich verteilten Gewichtsparametern des neuronalen Netzes . Dadurch wird eine gute Approximation des Dekoderausgangs-

Signals gegenüber dem Referenzsignal bei den Trainingsdaten als auch für ein alltägliches, von den Trainingsdaten abwei- chendes Videoeingangssignal erhalten. Ein geeignetes Abbruch^¬ kriterium beim Training bildet ein stagnierender Verlauf der Summe aus Fehlerquadraten und Gewichtsfaktorquadraten.

Zweckmäßig ist außerdem ein stochastisches Training, bei dem die Eingangsdaten bei jedem Trainingsschritt nicht aus dem vollständigen Bildinhalt, sondern aus einem zufälligen Bildausschnitt bestehen. Der Ausschnitt ändert sich ständig zwischen den iterativen Trainingsschritten der Error- Backpropagation. Damit werden Nebenminima des Fehlers vermieden und ein sicheres Einschwingen des Trainingsvorgangs auf ein relevantes Fehlerminimum erreicht. Die sich während des Trainings ergebende Optimierung der Netzstruktur und die Werte der Gewichtsfaktoren werden dann als Dimensionierung des Netzwerks für die Massenfertigung, beispielsweise als integrierte Schaltung, übernommen. Das Netzwerk kann als anwendungsspezifische Hardware-Schaltung oder prozessorgestützt mit entsprechender Softwaresteuerung realisiert werden.

Die Fülle der Trainingsdaten ist nahezu uneingeschränkt. Es hat sich als vorteilhaft herausgestellt, daß die Trainingsdaten für optimales Training möglichst viele Kantenstrukturen mit unterschiedlichen Winkeln enthalten sowie Bildinhalte mit Farben, auf deren fehlerhafte Wiedergabe das menschliche Auge besonders empfindlich reagiert, wie zum Beispiel menschliche Hautfarbe. Ansonsten sollten die Trainingsdaten ausgewogen dem üblichen Bildinhalt eines Fernsehsenders entsprechen.

Das neuronale Netz wird unter Verwendung seiner Selbstorgani- sationseigenschaft durch einen geeigneten Trainingsalgorithmus auf eine möglichst gute Wiedergabequalität angepaßt, die durch die geeignete Auswahl der Trainingsdaten und das verwendete Fehlermaß beeinflußt wird. Die Parameter des neuronalen Netzes stellen sich somit während des Trainings auf den späteren Einsatz, der durch die Trainingsdaten möglichst realistisch nachgebildet wird, automatisch ein. Im Gegensatz dazu wird bei den herkömmlichen Farbdekodern von üblichen Fil- terstrukturen wie Synchrondemodulatoren einschließlich Tiefpaßfiltern und Kammfiltern ausgegangen und zwischen diesen gegebenenfalls eine harte, vom Bildinhalt gesteuerte Umschaltung ausgeführt. Bei Bildinhalten, für die keine spezielle Schaltkombination vorgesehen ist, oder bei mehrfachen Schal - Vorgängen können als Störungen empfundene Bildfehler auftreten.

Nachfolgend wird die Erfindung anhand der in der Zeichnung dargestellten Ausführungsbeispiele näher erläutert. Es zeigen:

Figur 1 ein Prinzipschaltbild des neuronalen Netzes für Abtastung des Videosignals mit 4-facher Farbträger- frequenz,

Figur 2 eine Eingangsdatenmaske für das neuronale Netz für ein mit 4-facher Farbträgerfrequenz abgetastetes NTSC-Videosignal ,

Figur 3 eine entsprechende Darstellung für ein PAL- Videosignal und

Figur 4 eine Realisierung des Farbdekoders für beliebige Abtastraten.

Das neuronale Netz 1 der Figur 1 enthält eine Schicht 2 aus je einem Eingangspuffer für ein Eingangssignal El, ..., E18, eine Schicht 3 aus Neuronen als Ausgangspuffer für je ein Ausgangssignal Yl, Y2 , I', B' und eine Schicht 4 aus Neuronen mit sigmoider Transferfunktion als verborgene Schicht (sogenannter hidden layer) . Neuronen sind üblicherweise Summiererverstärker, denen eine Anzahl i von Signalen eingangs- seitig zuführbar ist, die im Neuron mit einem Gewichtungsfak- tor w-j_ multiplikativ gewichtet und miteinander summiert und zusätzlich mit einem Bias-Gewicht versehen werden. Die Transferfunktion des Neurons ist im Fall der Ausgangspuffer eine Identität, im Fall der Neuronen der verborgenen Schicht eine sigmoide Funktion. Im allgemeinen ist jedes Neuron der verborgenen Schicht 4 bzw. der Ausgangsschicht 3 mit jedem Neuron der vorhergehenden Schicht verbunden. Eine solche Struk- tur eines neuronalen Netzwerks wird als Multilayer-Perceptron bezeichnet .

Jedes Neuron der verborgenen Schicht 4 weist im dargestellten Beispiel 18 Eingangssignale auf. Bei einer Anzahl von h Neu- ronen der verborgenen Schicht 4 weist jeder Eingang eines Neurons der Ausgangsschicht 3 ebenfalls h (beispielsweise h = 18) Eingangssignale auf, von denen jedes mit Faktoren w' gewichtet wird. In der Ausgangsschicht 2 ist je ein Neuron für einen Helligkeitsabtastwert Yl, Y2 sowie je ein Neuron für einen Abtastwert I', Q' , aus denen die Farbsignalanteile I, Q für ein NTSC-Videosignal abgeleitet werden, vorgesehen. Die Videosignale I, Q (und U, V für ein PAL-Videosignal) sind bekanntlich die Farbdifferenzsignale, die als Quadraturkomponenten dem Farbsignalträger im eingangsseitigen Videosignal aufmoduliert sind. Wie in Figur 4 gezeigt, besteht eine alternative Realisierung darin, nur ein einziges Ausgangsneuron für die Farbsignalkomponente C vorzusehen, wobei diese Farbsignalkomponente dann die in Quadratur modulierten Einzelsignalen I, Q darstellt.

Wie oben ausgeführt, werden die Gewichtungsfaktoren w der Eingangssignale der Neuronen der verborgenen Schicht 4 sowie die Gewichtungsfaktoren w' der EingangsSignale für die Neuronen der Ausgangsschicht 3 sowie die jeweiligen Bias-Gewichte während des Trainings schrittweise angepaßt, so daß der sich für ein Eingangstrainingsbild ergebende Fehler der Ausgangs- Signale Yl, Y2 , I, Q gegenüber einem ideal dekodierten Referenzausgangssignal unter Berücksichtigung einer "flachen" Fehlerkurve möglichst gering ist. Darüber hinaus können sich aufgrund des Trainings als unbedeutend ergebende Verbindungen sowie Neuronen der verborgenen Schicht weggelassen werden (sogenanntes Pruning) , um den Rechenaufwand im neuronalen Netz zu verringern. Die sigmoide (S-förmige) Transferfunktion der Neuronen der verborgenen Schicht 4 ist zweckmäßigerweise ein Tangenshyperbolicus (tanh) .

Das neuronale Netz kann hardwaremäßig mit analoger oder digitaler Schaltungstechnik realisiert werden.- Zweckmäßig ist auch eine prozessorgestützte Realisierung, bei der die in Figur 1 gezeigte Schaltung und deren Signalflußlauf in Software nachgebildet werden. Außerdem können anwendungsspezifische Hardwareanteile mit programmierbaren kombiniert werden, um den Netzwerkalgorithmus in Hardware zu realisieren.

Die Eingangssignale El, ..., E18 des neuronalen Netzwerks 1 sind einer Eingabemaske entnommen, die schrittweise über die Abtastwerte jedes Bildes des eingangsseitigen kodierten Videosignals geführt wird. In Figur 2 sind für drei aufeinanderfolgende Zeilen die Abtastwerte der Eingangsmaske dargestellt. Das Videosignal ist nach dem NTSC-Standard farbkodiert und mit vierfacher Farbträgerfrequenz abgetastet, wo- bei die Abtastung um 57° relativ zum Farbträger (Burst) erfolgt ist. Die Abtastwerte enthalten je eine Summe aus dem Helligkeitssignalanteil Y und einer der Farbsignalkomponenten I, Q mit wechselndem Vorzeichen. Für die beiden mittleren Bildpunkte 20 werden die dekodierten Werte berechnet, nämlich wie in Figur 1 gezeigt der Helligkeitswert Yl für den linken der Bildpunkte 20, der Helligkeitswert Y2 für den rechten der Bildpunkte 20 sowie je ein Farbsignalabtastwert I, Q. In Anlehnung an die geringere Farbauflösung des menschlichen Auges im Vergleich zur Helligkeitsauflösung ist dabei das übliche Darstellungsformat von Y:I:Q = 4:2:2 berücksichtigt. In Klammern sind die Bezeichnungen der zugeordneten Eingangssignale El, ..., E12 angegeben, die direkt den entsprechenden Eingängen des neuronalen Netzwerks 1 zugeführt werden. Zweckmäßigerweise werden auch Differenzen gebildet und als weitere Eingangssignale E13, ..., E18 in das neuronale Netzwerk 1 eingespeist. Die Differenzwerte E13, ..., E18 setzen sich wie folgt zusammen: E13 = E6 - E8,

E14 = E7 - E5,

E15 = E6 - E2, E16 = E7 - E3,

E17 = E6 - E10,

E18 = E7 - Eil.

Diese Differenzen sind, sofern ein horizontal und vertikal konstanter Bildinhalt vorausgesetzt wird, proportional den Chrominanzsignalanteilen I, Q. Sie enthalten also bei allgemeinem Bildinhalt im wesentlichen Chrominanzsignalanteile. Entsprechende Summen können darüber hinaus (hier nicht verwendet) für den Luminanzsignalanteil gebildet werden. Prinzi- piell sollte die Eingabemaske bezüglich derjenigen Bildpunkte, für die die dekodierten Ausgabesignale berechnet werden, symmetrisch sein, so daß jedem Bildpunkt möglichst gleich viel EingangsInformation zur Verfügung steht. Als zweckmäßig haben sich die in Figur 1 sowie die in Figur 4 dargestellten Eingabemasken erwiesen.

Die Eingabemaske wird schrittweise über das Eingangsbild geführt, wobei im Fall der Figuren 2 und 3 die Schrittweite zwei Bildpunkte in horizontaler Richtung beträgt, im Fall der Figur 4 einen Bildpunkt in horizontaler Richtung. Am Ende einer Zeile springt die Eingabemaske auf den Anfang der nächstfolgenden Zeile. Das Vorzeichen der Verknüpfung der Chro- minanzsignalanteile I, Q wechselt mit jedem Schritt. An den Ausgängen 7, 8 für die Chrominanzsignalanteile des neuronalen Netzes 1 in Figur 1 ist deshalb jeweils eine Einrichtung 5, 6 zur Polaritätsumkehr vorgesehen, durch die bei jedem Schritt das Vorzeichen gewechselt wird. Bei einer um 180° verschobenen Abtastung des Videosignals mit einer Phasenlage von 237° relativ zum Farbträger sind die Vorzeichen für die Summen zwischen Luminanz- und Chrominanzsignalanteilen gerade umgekehrt. Bezüglich entsprechender Abtastwerte werden mit dem gleichen neuronalen Netz und der gleichen Steuerung für die Polaritätsumkehreinrichtungen 5, 6 negative Chrominanz- signalanteile I, Q erhalten.

In Figur 3 sind die entsprechenden Abtastwerte für die Abta- stung eines PAL-farbkodierten Videosignals bei Abtastung mit vierfacher Farbträgerfrequenz und einer Phasenlage von 0° relativ zum Farbträger dargestellt. Das V-Farbsignal weist in aufeinanderfolgenden Zeilen bei der PAL-Norm umgekehrte Vorzeichen auf. Neben dem alternierenden Vorzeichen der Netzaus- gänge für U, V zwischen zwei aufeinanderfolgenden Schritten innerhalb einer Zeile ist eine Umkehr der Zuordnung der Ausgänge 7, 8 von U zu V auf V zu U beim Zeilenwechsel erforderlich.

Da das neuronale Netz abhängig vom jeweiligen Trainingsvorgang sich selbst organisierend auf die jeweilige Aufgabe optimal anpaßt, ist es möglich, auch weitere Eingangssignale zu verarbeiten, beispielsweise Differenzen oder Summen zwischen diagonal benachbarten Bildpunkten, die bei einem konstanten Bildinhalt proportional zur Luminanz sind. Außerdem können

Eingangsbildpunkte aus mehreren zeitlich aufeinanderfolgenden Halbbildern verwendet werden. Sofern genügend Rechenkapazität bereitsteht, können anstelle des in Figur 1 dargestellten dreischichtigen Multilayer-Perceptrons auch neuronale Netze mit mehr als einer verborgenen Schicht verwendet werden, um eine bessere Approximationsgüte für Abhängigkeiten höherer Ordnung zu erreichen.

Für einen Multi-Standard-Dekoder wird die bisher beschriebene Lösung verallgemeinert für eine Abtastung des Videosignals mit n/k-facher Farbträgerfrequenz. An den Ausgängen 7, 8 liegt dann je eine Linearkombination aus den Farbsignalkomponenten vor. Diese wird mit nachfolgend dargestellter Transformation für den NTSC-Standard in einzelne Komponenten der Farbdifferenzsignale umgewandelt:

Die in Figur 1 dargestellten Einrichtungen 5, 6 zur Vorzei- chenumkehr stellen Spezialfälle obiger Transformation dar.

Eine weitere Realisierung für den Farbdekoder unter Anwendung eines neuronalen Netzes 43 zeigt Figur 4. Die Eingabemaske umfaßt nur einen zentralen Bildpunkt 40, für den ein Ab- tastwert Y für den Helligkeitssignalanteil sowie ein Abtastwert C für den Farbsignalanteil berechnet wird. Das Farb- signal C ist eine Linearkombination aus den Farbdifferenzsignalen I, Q. Die Anteile I, Q werden auf herkömmliche Weise durch Synchrondemodulation mit orthogonalen Farbträgern Fl, F2 und anschließender Tiefpaßfilterung in Tiefpaßfiltern 41, 42 erhalten. Da für diese Synchrondemodulation bereits standardgemäße Schaltungen vorhanden sind und die Tiefpaßfilter 41, 42 nur moderate Güteanforderungen erreichen müssen, ergibt sich insgesamt durch die Anwendung des neuronalen Netzes 43 eine erhebliche Qualitätsverbesserung. Darüber hinaus paßt das neuronale Netz 43 austauschbar in herkömmliche Schaltungskonzepte, in denen mittels eines Kammfilterε für einen Bildpunkt der Y- und C-Signalanteil - mit den einleitend angegebenen Nachteilen - berechnet wird.

Im Unterschied zur Eingabemaske der Figuren 2, 3 weist die Eingabemaske der Figur 4 je einen Abtastwert 44, 45 in horizontaler Richtung in der aktuellen Bildzeile zusätzlich zu den darüber bzw. darunter liegenden Zeilen auf. Dadurch steht dem Netzwerk 43 mehr horizontale Eingangsbildinformation zur Verfügung. Bemerkenswert ist außerdem, daß der Eingangsbild- punkt 40 in horizontaler Richtung eine völlig symmetrische Nachbarschaft hat . Es kann darüber hinaus vorteilhaft sein, dem neuronalen Netz Eingangswerte zuzuführen, die verschiedenen, zeitlich aufeinanderfolgenden Halbbildern entnommen werden, so daß die vom neuronalen Netz ausgeführte Filterwirkung eine zeitliche Kom- ponente erhält.

Abgesehen von den hier beschriebenen MLP-Netzwerken können ebenso andere neuronale Netztypen verwendet werden. Beispielsweise sind Radialbasis-Funktionen-Netze (RBF) zweckmä- ßig.

Claims

Patentansprüche

1. Schaltungsanordnung zur Farbdekodierung eines Videosignals, umfassend Mittel zur Zuführung des Videosignals, wobei das Videosignal einen Helligkeitssignalanteil und einen Farbsignalanteil enthält, und Mittel zur Bereitstellung des Helligkeitssignalanteils (Yl, Y2 , Y) getrennt vom Farbsignalanteil (I' , Q' , I, Q, C) , g e k e n n z e i c h n e t d u r c h ein neuronales Netzwerk (1, 43) , dem das Videosignal (El,

..., E18) eingangsseitig zuführbar ist und an dem dessen Helligkeitssignalanteil (Yl, Y2, Y) und Farbsignalanteil (I¹, Q', I, Q, C) ausgangsseitig abgreifbar sind.

2. Schaltungsanordnung nach Anspruch 1, d a d u r c h g e k e n n z e i c h n e t , daß durch die Mittel zur Zuführung des Videosignals dem neuronalen Netz (1, 43) Bildpunkte (El, ..., E12) innerhalb einer Eingabemaske zuführbar sind, wobei die Eingabemaske minde- stens einen zentral angeordneten Bildpunkt (20, 40) und diesen umgebende Bildpunkte enthält, daß die Eingabemaske schrittweise über ein im Videosignal enthaltenes Bild geführt wird, daß der Helligkeitssignalanteil (Yl, Y2 , Y) und der Farbsignalanteil (I¹, Q¹ , I, Q, C) jeweils für den zentral angeordneten Bildpunkt berechnet wird.

3. Schaltungsanordnung nach Anspruch 2, d a d u r c h g e k e n n z e i c h n e t , daß durch die Mittel zur Zuführung des Videosignals dem neurona- len Netz (1, 43) außerdem aus zueinander benachbarten Bildpunkten der Eingabemaske gebildete Differenzen (E13, ..., E18) zuführbar sind, die im wesentlichen proportional zum Farbsignalanteil (I', Q', I, Q, C) sind.

4. Schaltungsanordnung nach einem der Ansprüche 1 bis 3, d a d u r c h g e k e n n z e i c h n e t , daß das neuronale Netzwerk (1, 43) enthält: für jedes seiner Ein- gangssignale (El, ..., E18) einen Eingangspuffer (2) und für jedes seiner Ausgangssignale einen Ausgangspuffer (3; 7, 8) und eine Anzahl (4) von zwischen die Eingangs- und Ausgangs- puffer geschalteten Summiererelementen mit sigmoider Transferfunktion, denen jeweils ein Ausgangssignal mindestens eines der Eingangspufferverstärker zuführbar ist, welches mit einem Gewichtungsfaktor (w) verknüpft wird.

5. Schaltungsanordnung nach Anspruch 4, d a d u r c h g e k e n n z e i c h n e t , daß das Videosignal mit der vierfachen Farbträgerfrequenz abgetastet ist und daß der Farbsignalanteil (I', Q¹) zwei Farbdifferenzsignale (I, Q) umfaßt, daß das neuronale Netz (1) je einen einem Farbdifferenzsignal (I, Q) zugeordneten Ausgangspuffer (7, 8) aufweist und daß jedem dieser Ausgangspuffer eine schrittweise umschaltbare Vorzeichenumkehreinrichtung (5, 6) nachgeschaltet ist, an denen ausgangsseitig je eines der Farbdifferenzsignale (I, Q) abgreifbar ist.

6. Schaltungsanordnung nach Anspruch 4, d a d u r c h g e k e n n z e i c h n e t , daß der Farbsignalanteil (C) zwei Farbdifferenzsignale (I, Q) umfaßt, daß das neuronale Netz (43) einen Ausgangspuffer für eine Linearkombination aus den Farbdifferenzsignalen (I, Q) aufweist und daß diesem Ausgangspuffer eine Einrichtung zur Synchrondemodulation mit orthogonalen Farbträgersignalen (Fl, F2) und nachgeschalteten Tiefpaßfiltermitteln (41, 42) ausgangsseitig nachgeschaltet ist, an denen die Farbdifferenzsi- gnale (I, Q) getrennt abgreifbar sind.