PROCEDE DE SYNCHRONISATION DE DEUX FLUX DE DONNEES NUMERIQUES DE MEME CONTENU.
L'invention concerne un procédé de synchronisation de deux flux de données numériques de même contenu, et en particulier d'un flux de référence correspondant par exemple à une émission par un système de télétransmission, et d'un flux reçu avec d'éventuelles dégradations, utilisable notamment en vue d'une évaluation de la qualité de la transmission.
Dans le domaine de la diffusion de signaux audiovisuels, l'introduction du numérique offre de nouvelles perspectives et permet de proposer un plus grand nombre de services aux utilisateurs.
Lors des différentes étapes nécessaires à la diffusion, les signaux sont modifiés. En effet, les contraintes techniques imposées, en termes de débit ou de largeur de bande par exemple, impliquent l'apparition de dégradations caractéristiques lors de conditions de transmission difficiles. Pour pouvoir assurer une qualité de service, il est nécessaire de développer des outils et instruments qui permettent de mesurer la qualité des signaux et d'estimer l'importance des dégradations introduites le cas échéant. De nombreux procédés de mesure ont été développés dans ce but. La majorité de ceux-ci se base sur une comparaison du signal (nommé signal de référence) présent à l'entrée du système à étudier, avec le signal (nommé signal dégradé) obtenu à la sortie du système. Certaines méthodes dites à "référence réduite" utilisent une comparaison entre des nombres calculés sur la référence et sur le signal dégradé au lieu d'utiliser directement les échantillons du signal. Dans les deux cas, il est nécessaire de synchroniser temporellement les signaux pour effectuer l'évaluation de qualité par comparaison. La Figure 1 illustre le principe général utilisé par ces méthodes. Si la synchronisation des signaux peut être facilement réalisée en simulation ou lorsque le système à étudier est réduit (cas d'un codeur- décodeur ou "codée" par exemple) et non distribué géographiquement, cela est très différent dans le cas d'un système complexe, notamment dans le cas de la supervision d'un réseau de diffusion. Ainsi, cette étape de synchronisation est souvent une étape critique des algorithmes de qualitométrie.
Au delà des applications de mesure de la qualité dans un réseau de diffusion, le procédé présenté dans ce rapport est applicable à chaque fois qu'une synchronisation temporelle entre deux signaux audio et/ou
vidéo doit être effectuée, en particulier dans le contexte d'un système réparti et étendu.
Diverses techniques peuvent être utilisées pour synchroniser temporellement des signaux numériques. L'objectif est de mettre en correspondance une partie du signal dégradé SD, avec une partie du signal de référence SR. La Figure 2 illustre cette problématique dans le cas de deux signaux audio. Il s'agit de déterminer un décalage DEC permettant de synchroniser les signaux.
Dans le cas d'un signal audio, la partie (ou élément) à mettre en correspondance, est une fenêtre temporelle, c'est à dire une durée arbitraire T du signal.
On peut répartir les méthodes existantes en trois classes :
• Approche par corrélation dans le domaine tempore I : C'est l'approche la plus courante. Elle consiste à comparer les échantillons des deux signaux audio SR et SD à synchroniser, en se basant sur leur contenu. Ainsi, l'utilisation de la fonction d'intercorrélation normalisée par exemple, entre SR et SD, permet de rechercher le maximum de ressemblance sur une plage temporelle donnée T, par exemple de plus ou moins 60 ms, soit 120 ms. La précision de synchronisation obtenue est potentiellement à l'échantillon près.
• Approche par corrélation dans le domaine temporel utilisant des signaux marqueurs : les méthodes qui utilisent ce principe visent à pallier la nécessité de variations significatives dans le signal. Pour cela, un signal marqueur spécifique est inséré dans le signal audio SR. Ce signal est conçu pour permettre une synchronisation robuste. Ainsi, une procédure d'intercorrélation identique à la précédente peut être appliquée entre les signaux marqueurs extraits des signaux SR et SD à synchroniser, ce qui permet en principe une synchronisation robuste quel que soit le contenu du signal audio. Afin d'être applicable, l'opération d'insertion du signal marqueur doit être telle que le contenu du signal audio soit modifié de la façon la moins perceptible possible. Plusieurs techniques sont utilisables, dont le "watermarking", pour insérer ces signaux marqueurs ou motifs spécifiques.
• Synchronisation par des repères temporels : Les méthodes de cette classe ne sont utilisables que dans le cas où les signaux sont associés à des repères temporels. Ainsi, le processus repose sur la
recherche, pour chaque repère du signal de référence, celui qui est le plus proche dans la suite des repères temporels associée au signal dégradé.
Un procédé de synchronisation de signaux performant se caractérise par un compromis entre : sa précision, c'est à dire l'erreur maximale commise en synchronisant les deux signaux. En particulier, le procédé peut être sensible au contenu des signaux , sa complexité de calcul, et enfin le volume de données nécessaires pour effectuer la synchronisation.
Le principal inconvénient des techniques les plus classiquement utilisées (l'approche par corrélation mentionnée ci-dessus) est la puissance de calcul nécessaire. En effet, celle-ci devient en effet très importante dès que la plage de recherche T augmente (Figure 2). De plus, l'autre inconvénient majeur est la nécessité d'un contenu évoluant de manière significative en permanence. Suivant le type de signaux analysés, cette hypothèse n'est pas toujours vraie. Le contenu des signaux a donc une influence directe sur la performance de la méthode. Par ailleurs, pour utiliser ce type d'approche sur les signaux temporels complets, il est nécessaire de disposer des deux signaux SR et SD au point de comparaison : c'est une contrainte très forte, qu'il n'est pas possible de satisfaire pour certaines applications comme la surveillance d'un réseau de diffusion opérationnel.
La seconde approche (corrélation avec signaux marqueurs) a pour caractéristique de modifier le contenu du signal audio afin d'y insérer des signaux marqueurs, sans garantie de l'impact de cette opération sur la qualité : le procédé de mesure influe donc sur la mesure elle-même. Quelle que soit la performance pour la synchronisation de deux signaux, cette approche ne convient pas toujours à une application réelle d'évaluation de la qualité. Enfin, dans le cas d'une synchronisation par des repères temporels, c'est la nécessité de disposer des repères temporels qui est l'inconvénient majeur. Seules quelques applications peuvent utiliser une telle technique. En effet, la précision des repères temporels n'est pas toujours satisfaisante. Dans le cadre de la surveillance d'un réseau de diffusion et en raison des contraintes multiples subies par les signaux transportés, et des
multiples équipements traversés (codeurs, multiplexeurs, trans-multiplexeurs, décodeurs, ...), il n'y a pas de relation très stricte entre les signaux audio et les repères temporels. Cette solution n'atteint alors pas la précision nécessaire pour une application de mesure de la qualité avec référence. La présente invention a pour but de définir un procédé permettant de réaliser une synchronisation, d'un niveau de précision qui peut être choisi, d'une complexité plus faible que les méthodes existantes, en combinant les avantages de plusieurs approches. Une synchronisation « grossière » délimite selon l'invention une plage d'erreur, dont la durée est compatible avec l'utilisation ultérieure de méthodes classiques de synchronisation « fine » si une précision extrême est requise.
L'originalité de la méthode proposée est de réaliser une synchronisation à partir d'au moins un paramètre caractéristique, calculé sur les signaux SD et SR, définissant une trajectoire multidimensionnelle, pour en déduire une synchronisation des signaux eux-mêmes. La méthode faisant appel au contenu des signaux, ce contenu temporel doit varier en permanence pour assurer une synchronisation optimale, de même que la corrélation temporelle de l'état de l'art antérieur. L'avantage du procédé est de faire une corrélation grâce une trajectoire multidimensionnelle, obtenue notamment en combinant plusieurs paramètres caractéristiques, qui permet d'obtenir une fiabilité supérieure à celle des procédés connus.
Un avantage fondamental du procédé proposé par l'invention est de ne nécessiter que peu de données pour réaliser une synchronisation, ce qui est très utile dans le cadre de la supervision d'un réseau de diffusion. En effet, dans ce contexte, il n'est généralement pas possible d'avoir les deux signaux complets SR et SD au même endroit. Par conséquent, il n'est pas possible d'utiliser une approche par corrélation temporelle classique. De plus, dans le cadre d'une application de qualitométrie, la seconde approche par corrélation avec signaux marqueurs n'est pas facilement applicable car elle agit sur la qualité des signaux. Au contraire, le procédé de synchronisation selon l'invention est compatible avec des techniques de qualitométrie reposant sur la comparaison de paramètres calculés sur les signaux. Les données représentatives de ce ou ces paramètres caractéristiques sont facilement transportables par une liaison numérique jusqu'aux points de comparaison. Cette liaison numérique utilise avantageusement le même canal de transmission que le signal audio ; alternativement, une liaison numérique
dédiée peut être choisie. Dans un mode particulier de réalisation pour une application de mesure de la qualité, les données utilisées pour réaliser la synchronisation sont ainsi issues d'un ou plusieurs paramètres de mesure de la qualité. Par ailleurs, une synchronisation dite grossière est réalisée à partir de données D1 et D2 calculées à intervalles de Δ = 1024 échantillons audio. Une synchronisation fine peut être réalisée avec des données D1 calculées à intervalles de Δ = 1024 échantillons audio, et avec des données D2 calculées à intervalles de r < Δ, par exemple r = 32 échantillons audio. Ainsi, le procédé permet dans ce cas de réaliser une synchronisation fine 32 fois plus précise que l'intervalle de transmission des paramètres de mesure de la qualité.
Le procédé s'intègre ainsi naturellement dans un système de surveillance de la qualité en télévision numérique sur un réseau de diffusion opérationnel. Mais il est applicable à chaque fois qu'une synchronisation temporelle entre deux signaux doit être effectuée. Le procédé proposé permet ainsi de réaliser la synchronisation avec une précision que l'on peut choisir et ainsi obtenir une plage d'incertitude très réduite. Avantageusement, il utilisera au moins en partie des paramètres déjà calculés pour étudier la qualité du signal. Le fait de pouvoir partir d'une plage de recherche étendue est également un atout, d'autant plus que la robustesse de la synchronisation augmente avec la largeur de cette plage de départ.
Le procédé proposé n'impose donc pas d'avoir de repères temporels externes aux signaux audio. Le signal à synchroniser n'a pas besoin non plus d'être modifié, ce qui est une condition importante dans une application de mesure de la qualité.
L'invention concerne ainsi un procédé de synchronisation entre deux flux de données numériques de même contenu caractérisé en ce qu'il met en oeuvre : a) pour chacun des deux flux de données numériques Si et S2, générer à des intervalles donnés d'au moins deux nombres caractéristiques exprimant au moins un paramètre caractéristique de leur contenu ; b) pour chacun des deux flux Si et S2, générer à partir desdits nombres de points Di et D2 associés respectivement à chacun desdits flux et représentant au moins un dit paramètre caractéristique dans un espace à au moins deux dimensions, les points D-i d'une part et D2 d'autre part, qui
appartiennent à une plage temporelle T, définissant des trajectoires représentatives des flux de données Si et S2 à synchroniser ; c) décaler l'une par rapport à l'autre les plages temporelles de durée T affectées aux flux de données numériques Si et S2 en calculant un critère de superposition desdites trajectoires dont une valeur optimale représente la synchronisation recherchée ; d) choisir comme valeur représentative de la synchronisation, le décalage entre les plages temporelles correspondant à ladite valeur optimale. Avantageusement, le procédé est caractérisé en ce qu'un des flux de données numériques est un flux de référence Si et en ce que l'autre flux de données est un flux S2 reçu à travers un système de transmission et en ce que les nombres caractéristiques de flux de référence Si sont transmis avec celui-ci, alors que les nombres caractéristiques du flux reçu S2 sont calculés à la réception.
Selon une première variante, le procédé est caractérisé en ce que c) met en œuvre : d) calculer une distance D entre d'une part une première trajectoire représentée par les points Di appartenant à une première plage temporelle de durée T, et d'autre part, une deuxième trajectoire représentée par les points D2 appartenant à une deuxième plage temporelle de durée T, ladite distance D constituant ledit critère de superposition ; c2) décaler l'un par rapport à l'autre lesdites première et deuxième plages temporelles de durée T jusqu'à obtention d'un minimum de la distance D qui constitue ladite valeur optimale ;
La distance D peut être une moyenne arithmétique des distances d, par exemple des distances euclidiennes, entre les points correspondants Di, D2 des deux trajectoires.
Selon une deuxième variante, le procédé est caractérisé en ce que c) met en œuvre : d) calculer une fonction de corrélation entre les points correspondants (Di, D2) des deux trajectoires, ladite fonction de corrélation constituant ledit critère de superposition ; c2) décaler l'un par rapport à l'autre lesdites première et deuxième plages temporelles de durée T jusqu'à obtention d'un minimum de la fonction de corrélation qui constitue ladite valeur optimale.
Selon une troisième variante, le procédé est caractérisé en ce que c) met en œuvre : d) transformer chaque trajectoire en une suite d'angles entre des segments successifs définis par les points de la trajectoire. c2) décaler l'un par rapport à l'autre lesdites première et deuxième plages temporelles de durée T jusqu'à obtenir un minimum entre les différences entre les valeurs d'angles obtenues pour des segments homologues des deux trajectoires, ledit minimum constituant ladite valeur optimale. Le procédé peut être caractérisé en ce que c) met en œuvre : d) transformer les deux trajectoires en une suite de surfaces interceptées par les segments successifs définis par les points desdites trajectoires, la surface totale interceptée constituant ledit critère de superposition. c2) décaler l'un par rapport à l'autre les plages temporelles de durée T jusqu'à obtenir un minimum de ladite surface totale interceptée, qui constitue ladite valeur optimale.
Un dit intervalle donné peut être égal à Δ pour un des deux flux de données et à r < Δ pour l'autre flux de données et ce afin d'améliorer la précision de la synchronisation.
Le procédé peut être caractérisé en ce que la génération desdits nombres caractéristiques met en œuvre pour un flux audio de référence et pour le flux audio transmis, les étapes suivantes : a) calculer pour chaque fenêtre temporelle la densité spectrale de puissance du flux audio et lui appliquer un filtre représentatif de l'atténuation de l'oreille interne et moyenne pour obtenir une densité spectrale filtrée, b) calculer à partir de la densité spectrale filtrée les excitations individuelles à l'aide de la fonction d'étalement fréquentiel dans l'échelle basilaire, c) déterminer à partir desdites excitations individuelles la sonie compressée à l'aide d'une fonction modélisant la sensibilité non linéaire en fréquence de l'oreille, pour obtenir des composantes basilaires, d) séparer les composantes basilaires en n classes (par exemple avec n < 5), de préférence en trois classes, et calculer pour chaque classe un nombre C représentant la somme des fréquences de cette classe,
les nombres caractéristiques étant constitués par les nombres C. Alternativement, il y a n' < n nombres caractéristiques qui sont générés à partir desdits nombres C. n est choisi netttement inférieur au nombre d'échantillons audio d'une fenêtre temporelle, par exemple inférieur à 0,01 fois ce nombre d'échantillons.
Le procédé peut être caractérisé en ce que la génération d'un dit nombre caractéristique met en œuvre, pour un flux audio de référence et pour un flux audio transmis, les étapes suivantes : a) calculer N coefficients d'un filtre de prédiction par une modélisation autorégressive, b) déterminer dans chaque fenêtre temporelle le maximum du résidu par différence entre le signal prédit à l'aide du filtre de prédiction et le signal audio, ledit maximum du résidu de prédiction constituant un dit nombre caractéristique. Le procédé peut être caractérisé en ce que la génération de dits nombres caractéristiques met en œuvre pour un flux audio de référence et pour un flux audio transmis, les étapes suivantes : a) calculer pour chaque fenêtre temporelle la densité spectrale de puissance du flux audio et lui appliquer un filtre représentatif de l'atténuation de l'oreille interne et moyenne, pour obtenir une fonction d'étalement fréquentiel dans l'échelle basilaire, b) calculer des excitations individuelles à partir de la fonction d'étalement fréquentiel dans l'échelle basilaire, c) obtenir à partir desdites excitations individuelles la sonie compressée à partir d'une fonction modélisant la sensibilité non linéaire en fréquence de l'oreille, pour obtenir des composantes basilaires , d) calculer à partir desdites composantes basilaires N' coefficients de prédiction d'un filtre de prédiction par une modélisation autorégressive, e) générer pour chaque fenêtre temporelle au moins un nombre caractéristique à partir d'au moins un des N' coefficients de prédiction.
Les nombres caractéristiques peuvent être constitués par entre 1 et 10 desdits coefficients de prédiction, et préférentiellement entre 2 et
5 desdits coefficients.
Pour un signal audio numérique, un nombre caractéristique peut être la puissance instantanée et/ou la densité spectrale de puissance et/ou la bande passante.
Pour un signal vidéo numérique, un nombre caractéristique peut être le coefficient continu de la transformée d'au moins une zone d'une image appartenant au flux de données par une transformée linéaire et orthogonale, par blocs ou globale, et/ou le contraste d'au moins une zone de l'image, et/ou l'activité spatiale SA d'au moins une zone d'une image ou son activité temporelle (celle-ci étant définie par comparaison avec une image précédente), et/ou la moyenne de la luminosité d'au moins une zone d'une image.
Les points peuvent être générés à partir d'au moins deux nombres caractéristiques issus d'un seul paramètre caractéristique.
Alternativement lesdits points peuvent être générés à partir d'au moins deux nombres caractéristiques issus d'au moins deux paramètres caractéristiques audio et/ou vidéo.
Le procédé peut être caractérisé en ce que le flux de données comporte des données vidéo et des données audio et en ce qu'il met en œuvre une première synchronistion vidéo à partir de points D'i et D'2 associées à au moins un paramètre caractéristique vidéo correspondant audit flux vidéo, et une deuxième synchronisation audio à partir de points D"ι et D"2 associés à au moins un paramètre caractéristique audio correspondant audit flux audio.
Il peut être alors caractérisé en ce qu'il présente une étape de détermination du déclage de synchronisation entre le flux vidéo et le flux audio par différence entre lesdits décalages obtenus pour le flux vidéo et pour le flux audio.
D'autres caractéristiques et avantages de l'invention apparaîtront mieux à la lecture de la description, en liaison avec les dessins annexés dans lesquels :
- la figure 1 illustre l'architecture d'un système de mesure de qualité d'un signal audio selon l'Art Antérieur ;
- la figure 2 illustre la problématique de la synchronisation de signaux audio ;
- la figure 3 illustre une augmentation de la précision de la synchronisation susceptible d'être obtenue dans le cadre de la présente invention ;
- la figure 4 donne un exemple de deux trajectoires bidimensionnelles de signaux audio à synchroniser, dans le cas où r = Δ 12 ;
- les figures 5 et 6 illustrent deux variantes de synchronisation entre deux trajectoires affectées aux deux flux de données ;
- la figure 7 est un synoptique d'un procédé de synchronisation selon l'invention (synchronisation par trajectoire) ; - les figures 8 à 10 illustrent une synchronisation selon l'invention, le paramètre significatif étant un paramètre perceptuel audio, les figures 10a et 10b illustrant la situation avant et après synchronisation de deux trajectoires.
- la figure 11 illustre une mise en œuvre du procédé utilisant comme paramètre caractéristique une modélisation autorégressive du signal, avec coefficients de prédiction linéaire.
La première étape du procédé correspond au calcul d'au moins deux nombres caractéristiques à partir d'un ou de plusieurs paramètres caractéristiques sur toutes les fenêtres temporelles des signaux à synchroniser, sur la plage de synchronisation voulue : chaque nombre est donc calculé toutes les durées Δ (Cf. Figures 2, et 3), ce qui donne N = T/Δ paramètres. Ce ou ces nombres doivent être, si possible, simples à calculer pour ne pas demander trop de puissance de calcul. Chaque paramètre caractéristique peut être de nature quelconque et peut être représenté par exemple par un seul nombre. Par exemple, pour un signal audio un paramètre caractéristique du contenu du signal peut être la bande passante.
Le fait de disposer des paramètres seulement toutes les durées Δ permet de réduire grandement la quantité de données issues du signal de référence SR nécessaires à la synchronisation. Cependant, la précision de la synchronisation qui sera réalisée est nécessairement limitée : l'incertitude par rapport à une synchronisation idéale, c'est à dire à l'échantillon du signal près, est de ±Δ/2. Dans le cas où cette incertitude est trop grande, une alternative est de diminuer la période Δ : cependant, cette modification est rarement possible car d'une part le calcul du ou des nombres caractéristiques est remis en cause, et d'autre part cela aboutit à augmenter la quantité de données nécessaire à la synchronisation.
Dans le mode particulier de réalisation où les paramètres servent également à évaluer la qualité par comparaison des paramètres Pi et
P'-i, toute erreur de synchronisation supérieure à la valeur r0 dite résolution du paramètre ne permettra pas d'estimer les dégradations introduites (Situation A de la Figure 3).
Afin d'obtenir une précision de synchronisation arbitraire, d'une valeur d'incertitude r qui peut être par exemple inférieure à Δ 2, tout en n'augmentant pas la quantité de données extraites du signal de référence, le procédé peut mettre en œuvre un calcul des nombres caractéristiques avec une résolution temporelle plus fine. Pour cela, les paramètres sont calculés toutes les durées r < Δ, sur le second signal à synchroniser dit « dégradé », ce qui correspond à Δ/r paramètres Pi' pour un paramètre P-|. La complexité de calcul augmente, en passant de T/Δ à T/r fenêtres de calcul, mais seulement sur le signal reçu. La situation B Figure 3 illustre la méthode utilisée. Par exemple, r est un sous-multiple de Δ.
Notations :
T : plage de recherche de synchronisation. T est un multiple de Δ. ro : erreur / incertitude de synchronisation maximale admissible e : erreur de synchronisation
Δ période de calcul des paramètres sur le signal.
Pk : paramètre calculé sur le premier signal dit de "référence" SR. k est un indice temporel repérant à quelle période de calcul Δ correspond Pk.
P'k : paramètre calculé sur le second signal dit "dégradé" SD- k est un indice temporel repérant à quelle période de calcul Δ correspond
Pk
P'k' : paramètre calculé sur le second signal dit "dégradé" SD- k est un indice temporel repérant à quelle période de calcul Δ correspond Pk. i est un sous-indice temporel repérant un nombre de durées r à l'intérieur de la période p compris entre 1 et Δ/r.
Remarque : Toutes les durées correspondent à un nombre entier d'échantillons du signal audio ou vidéo. Pour définir une ou plusieurs coordonnées, la deuxième étape applique un traitement sur les paramètres. Un jeu de β coordonnées est
calculé pour chaque jeu de paramètres Pk ou P'k' obtenu sur la fenêtre k de durée Δ correspondant par exemple à 1024 échantillons, du signal référence ou dégradé respectivement.
• Le but premier de cette étape est d'obtenir des valeurs de coordonnées pertinentes pour réaliser une synchronisation, et avec des bornes et limites données. Ainsi, chaque coordonnée est obtenue à partir d'une combinaison des nombres caractéristiques disponibles. De plus, cette étape permet de réduire le nombre de dimensions et donc de simplifier les opérations ultérieures. Dans un mode de réalisation préféré, deux coordonnées doivent être obtenues (β = 2). Par exemple, si deux paramètres caractéristiques sont utilisés, chacun d'eux peut servir pour déterminer une coordonnée. Alternativement, un nombre plus élevé de nombres caractéristiques peut être utilisé ; des traitements peuvent être réalisés pour passer un nombre moins élevés de nombres, par exemple à deux coordonnées et ceux-ci s'interprètent alors comme une projection d'un espace à autant de dimensions que de nombres caractéristiques vers un espace à par exemple 2 coordonnées.
La troisième étape correspond à la construction de la trajectoire (Figure 4). La trajectoire définit une signature d'un segment du signal audio sur la durée T par une suite de points dans un espace à autant de dimensions que de coordonnées. L'utilisation d'un espace à deux dimensions ou plus permet de construire une trajectoire bien particulière, qui permet d'obtenir pour la synchronisation une fiabilité et une précision élevées. Après ces trois étapes, la synchronisation des signaux se résume à la synchronisation de deux trajectoires (ou courbes paramétrées par le temps) dans un espace à deux dimensions ou plus : la première trajectoire est définie par les points Rk, obtenus à partir des nombres significatifs P calculés toutes les durées Δ sur la plage temporelle T. Il y a N = T/Δ points R . la seconde trajectoire est définie par les points Dk = Dk 1, obtenus à partir des nombres significatifs Pk = Pk 1 calculés toutes les durées Δ sur la plage T. Il y a N' = N= T/Δ points Dk.
Lorsque une durée r < Δ est utilisée pour calculer les paramètres P'k1, la trajectoire est définie par les points Dk', au nombre de N' = T/r points.
A cet effet, un critère de ressemblance entre deux trajectoires de N points (ou de N et N' points) est mis en oeuvre. Les méthodes suivantes sont données à titre d'exemple :
La première méthode proposée est une minimisation d'une distance entre les deux trajectoires.
L'idée de base est de calculer, sur une portion de la trajectoire, une distance. En fonction de la plage de désynchronisation maximale possible des courbes, correspondant aux signaux audio, ou vidéo, une portion appropriée de chaque trajectoire est sélectionnée. Sur ces portions, un cumul Diff des distances d entre les sommets R et D +deita ou Dk+deita' des courbes est calculé respectivement par les relations (1) et (2) ci-après, en appliquant des décalages delta successifs afin de trouver le décalage minimisant la distance Diff entre trajectoires.
La Figure 4 illustre le calcul sur un exemple, avec des points définis par deux coordonnées, dans un espace à β = 2 dimensions. Sur le signal dit « dégradé », les paramètres sont calculés toutes les durées r=Δ/2, c'est à dire avec une résolution deux fois plus fine que sur le premier signal
La distance Diff donne l'écart entre les deux trajectoires. La moyenne arithmétique des distances sommet à sommet est un mode de réalisation préféré, mais un autre calcul de distance est également applicable.
avec d(A,B) distance entre deux points ou sommets. Cette distance d(A,B) peut également être quelconque. Dans un mode particulier de réalisation, la distance Euclidienne est utilisée :
d(A, B) = où αd - 1..co (2)
où aj et bj sont les coordonnées des points A et B et β désigne le nombre de coordonnées de chaque point.
Le décalage delta donnant la distance Diff minimale correspond à la désynchronisation des courbes, et par conséquent des signaux de départ. Dans l'exemple proposé (Figure 4), le décalage trouvé
sera de 2, soit 2 fois la période Δ de calcul du paramètre initial. La plage de synchronisation sera donc comprise entre :
t + 2* Δ_- et + 2*Δ +- (3)
2 2 .
Le deuxième critère proposé est une maximisation d'une corrélation entre les deux trajectoires
Ce critère fonctionne d'une manière similaire au précédent, à la différence qu'il consiste à maximiser la valeur Correl. Les relations (1) et (2) sont remplacées par les deux suivantes.
Correl (delta) = D
k * R
k+delta (4)
où l'opération * est le produit scalaire défini par :
où θj et bj sont les coordonnées des points A et B.
Les méthodes ci-après conviennent particulièrement au cas où β = 2 coordonnées
D'autres techniques permettent de rendre le procédé plus robuste à la présence de différences significatives entre les signaux à synchroniser, dues par exemple à des dégradations lors d'une diffusion, à savoir.
• distance entre les angles successifs des trajectoires, Cette méthode consiste à transformer la trajectoire bidimensionnelle en un suite d'angles mesurés entre des segments successifs définis par les points de la trajectoire. La Figure 5 illustre la définition des angles Δφ.
Le critère utilisé pour synchroniser les deux trajectoires est la minimisation de la relation suivante :
Diff(delta) - φ
k ï-
λv delta (6)
• surface interceptée entre les deux courbes,
Cette méthode consiste à transformer la trajectoire bidimensionnelle en un suite des surfaces interceptées par les segments successifs définis par les points de la trajectoire. La Figure 6 illustre la définition des surfaces interceptées S.
Le critère utilisé pour synchroniser les deux trajectoires est la minimisation de la relation suivante :
SSrï-
oo
tt
aa
il
ee == sSoOmmmmee SS
• Enfin, l'utilisation simultanée de plusieurs critères est possible. Une fois que la valeur delta du décalage de désynchronisation entre les deux signaux a été déterminée par une des méthodes précédentes, les deux signaux peuvent être resynchronisés en appliquant le décalage delta à l'un des signaux. La synchronisation est réalisée, avec une précision déterminée par la cadence de calcul des nombres caractéristiques.
La synoptique d'un processus de synchronisation est donnée à la Figure 7. Lorsque la précision voulue n'est pas atteinte, c'est à dire que la synchronisation est trop « grossière » pour l'application visée, une dernière étape peut consister à affiner le résultat précédent.
Une procédure de l'art antérieur peut être appliquée sur la plage d'incertitude de synchronisation Δ ou r, qui est maintenant suffisamment réduite pour être d'une complexité acceptable. Une approche par corrélation dans le domaine temporel, de préférence avec signaux marqueurs, peut être utilisée par exemple.
Toutefois, cette étape ne devra être mise à profit que dans certains cas particuliers. En effet, dans le type d'application visée de mesure de qualité, un affinage de la synchronisation n'est en général pas nécessaire car la précision obtenue est suffisante. De plus, les techniques de l'art antérieur nécessitent, ainsi qu'il a été expliqué ci-dessus, de disposer de
données sur les signaux qui ne sont pas facilement transportables dans un système complexe et réparti.
Un des modes particuliers de réalisation correspond à la mise en œuvre de l'invention dans le cadre d'une application de surveillance de la qualité audio dans un réseau de diffusion de télévision numérique. Dans ce cadre, un intérêt majeur de l'invention est d'utiliser les données servant à l'évaluation de qualité pour réaliser la synchronisation, puisque cela évite ou minimise la nécessité de transmettre des données spécifiques à la synchronisation. Divers nombres caractéristiques (référence réduite), destinés à l'estimation de l'importance des dégradations introduites lors de la diffusion des signaux, sont calculés sur le signal de référence en entrée du réseau. Ces nombres de référence PR sont transmis via une voie de donnée jusqu'au point de mesure de la qualité. Des nombres caractéristiques P sont calculés sur le signal dégradé au niveau de ce point de mesure. L'estimation de la qualité va ainsi se faire en comparant les paramètres PR et P - Pour cela, ils doivent être synchronisés, à partir du ou des paramètres caractéristiques utilisés pour la référence.
L'estimation de la qualité va ainsi se faire en comparant les paramètres PR et PM- Pour cela, ils doivent être synchronisés.
Le principe des mesures perceptuelles objectives repose sur la transformation de la représentation physique (pression acoustique, niveau, temps et fréquence) en la représentation psychoacoustique (force sonore, niveau de masquage, temps et bandes critiques ou barks) de deux signaux (le signal de référence et le signal à évaluer) afin de les comparer. Cette transformation s'opère grâce à une modélisation de l'appareil auditif humain (généralement, cette modélisation consiste en une analyse spectrale dans le domaine des Barks suivie des phénomènes d'étalement).
L'exemple ci-après de mise en œuvre du procédé selon l'invention met en oeuvre un paramètre caractéristique perceptuel dénommé « Ecart de Comptes Perceptuels ». L'idée originale pour ce paramètre est d'établir une mesure d'uniformité d'une fenêtre du signal audio. Ainsi, un signal sonore dont les composantes fréquentielles sont stables est considéré comme uniforme. Inversement, un bruit « parfait » correspond à un signal qui couvre uniformément toutes les bandes de fréquences (spectre plat). Ce type de paramètre permet donc de caractériser le contenu du signal. Cette
capacité est renforcée par son caractère perceptuel, c'est à dire la prise en compte de caractéristiques du système auditif humain connues par la psychoacoustique.
Plusieurs étapes sont mises en oeuvre pour tenir compte de la psychoacoustique. Elles sont appliquées sur le signal de référence et sur le signal dégradé. Ces étapes sont les suivantes :
• Fenêtrage du signal temporel en blocs, puis, pour chaque bloc, calcul de l'excitation induite par le signal en utilisant un modèle d'audition. Cette représentation des signaux tient compte des phénomènes de la psychoacoustique, et fournit un histogramme dont les comptes sont les valeurs des composantes basilaires. Cela permet de ne prendre en considération que les composantes audibles du signal et donc de se limiter à l'information utile. Pour obtenir cette excitation, les modélisations classiques peuvent être utilisées : atténuation de l'oreille externe et moyenne, intégration selon les bandes critiques et masquages fréquentiels. Les fenêtres temporelles choisies sont d'environ 42 ms (2048 points à 48 kHz) avec un recouvrement de 50%. Cela permet d'obtenir une résolution temporelle de l'ordre de 21 ms.
Plusieurs étapes interviennent pour cette modélisation. Pour la première étape, le filtre d'atténuation de l'oreille externe et moyenne est appliqué à la densité spectrale de puissance, obtenue à partir du spectre du signal. Ce filtre prend également en compte le seuil absolu d'audition. La notion de bandes critiques est modélisée par une transformation de l'échelle fréquentielle en une échelle basilaire. L'étape suivante correspond au calcul des excitations individuelles pour tenir compte des phénomènes de masquage, grâce à la fonction d'étalement dans l'échelle basilaire et à une addition non linéaire. La dernière étape permet d'obtenir la sonie compressée, par une fonction puissance, pour modéliser la sensibilité non linéaire en fréquence de l'oreille, par un histogramme comportant les 109 composants basilaires.
• Les comptes de l'histogramme obtenus sont ensuite périodiquement vectorisés en trois classes pour obtenir une représentation selon une trajectoire. C'est cette trajectoire qui permet de visualiser l'évolution de la structure des signaux et sert à la synchronisation. Cela permet également d'obtenir une caractérisation simple et concise du signal et donc de disposer d'un paramètre de référence (ou paramètre caractéristique).
Plusieurs stratégies existent pour fixer les bornes de ces trois classes : La plus simple est de séparer l'histogramme en trois zones de tailles égales. Ainsi, les 109 composantes basilaires, qui représentent 24 Barks, peuvent être séparées aux indices suivants : ISi = 36 soit z = — * 36 = 7,927 Barks (8)
109
IS2 = 73 soit z = — * 73 = 16,073 Barks (9)
109 '
La deuxième stratégie prend en compte les zones de mise à l'échelle (« Scaling ») de BEERENDS. Cela correspond à une compensation du gain entre l'excitation du signal de référence et celle du signal à tester en considérant trois zones sur lesquelles l'oreille réaliserait cette même opération. Ainsi, les bornes fixées sont les suivantes :
24 ISi = 9 soit z = — * 9 = 1,982 Barks (10)
109
24 IS2 = 100 soit z = — * 100 = 22,018 Barks (11) 109
La trajectoire est ensuite représentée dans un triangle, nommé triangle des fréquences. Pour chaque bloc on obtient trois comptes Ci, C2 et C3, donc deux coordonnées cartésiennes selon les formules suivantes :
r= C
2/N* sin(;r/3) (13) avec C
? : somme des excitations pour les hautes fréquences
(au-dessus de S2) C2 : compte associé aux fréquences moyennes (composantes entre Si et S2) et N = Cι+ C + C3 : Somme totale des valeurs des composantes.
Un point (X, Y) est donc obtenu pour chaque fenêtre temporelle du signal. Chacune des coordonnées X et Y constitue un nombre caractéristique. Alternativement, Ci, C2 et C3 peuvent être pris comme nombres caractéristiques. Pour une séquence complète, la représentation associée est ainsi une trajectoire paramétrée par le temps, comme le montre la figure 8.
Parmi différentes méthodes possibles pour effectuer la synchronisation des trajectoires, la technique choisie à titre d'exemple est celle basée sur minimisation de la distance entre les points des trajectoires.
Il est important de noter que le calcul du paramètre utilisé dans ce cas pour la synchronisation reste complexe, mais ce paramètre peut être également utilisé pour estimer la qualité du signal. Il doit donc de toute façon être calculé, et ce n'est donc pas une charge supplémentaire ajoutée au calcul lors de la comparaison, d'autant que le calcul relatif à ce paramètre n'est effectué localement que pour le flux numérique reçu. La figure 9 résume le procédé utilisé pour synchroniser les signaux dans le cadre de la supervision de la qualité de signaux diffusés, avec le paramètre caractéristique ci-dessus.
L'exemple suivant illustre le cas d'un fichier référence (R1), codé puis décodé MPEG2 Layer2 à 128 kbits/s pour obtenir un fichier dégradé (R2). La désynchronisation introduite est de 6000 échantillons. Le décalage trouvé est de 6 fenêtres soit 6 * 1024 = 6144 échantillons. L'erreur (144) est bien inférieure à la période (1024) du paramètre caractéristique utilisé. Les figures 10a et 10b présentent les trajectoires avant puis après synchronisation : Avant synchronisation (figure 10a), il n'y a pas de correspondance point à point entre les deux trajectoires. Après synchronisation (figure 10b), la correspondance entre les deux trajectoires est optimale au sens du critère de distance (Cf. relation (1).
Il n'est, en général, pas nécessaire de faire une synchronisation plus fine. C'est notamment le cas si l'incertitude donnée par la procédure exposée ici est inférieure à l'erreur de synchronisation maximale admissible par le paramètre de mesure de qualité. Pour les paramètres de qualitométrie les plus exigeants, la résolution nécessaire r0 est de l'ordre de 32 échantillons. Dans le cas de la figure 10a, la plage initiale est de l'ordre de
120 ms, soit 5760 échantillons à 48 kHz. En utilisant uniquement les nombres caractéristiques disponibles pour l'évaluation de la qualité (tous les 1024 échantillons, soit la durée Δ), une première synchronisation est réalisée avec une incertitude de 1024 échantillons, soit un facteur supérieur à 5 par rapport à 5760, pour une puissance de calcul consacrée à la synchronisation très limitée.
Cependant, par exemple dans une seconde étape, le calcul plus fréquent des paramètres de qualité sur le second signal (dégradé) (r < Δ) permet si on le désire de réduire encore l'erreur de synchronisation à r échantillons. Un autre paramètre caractéristique met en œuvre une modélisation autorégressive du signal.
Le principe général de la prédiction linéaire est de modéliser le signal comme étant une combinaison de ses valeurs passées. L'idée est de calculer les N coefficients d'un filtre de prédiction par une modélisation autorégressive (tout pôle). Avec ce filtre adaptatif, il est possible d'obtenir un signal prédit à partir du signal réel. Les erreurs de prédiction ou résidus sont calculés par différence entre ces deux signaux. La présence et la quantité de bruit dans un signal peuvent être déterminées par l'analyse de ces résidus.
La comparaison des résidus obtenus sur le signal de référence et ceux calculés à partir du signal dégradé, et donc des niveaux de bruit, permet d'estimer l'importance des modifications et défauts insérés.
La référence à transmettre correspond au maximum des υ résidus sur une fenêtre temporelle de taille donnée. Il n'est en effet pas intéressant de transmettre tous les résidus si le débit de la référence veut être réduit.
Pour adapter les coefficients du filtre de prédiction, deux méthodes sont données ci-après à titre d'exemple :
- L'algorithme de LEVINSON-DURBIN qui est décrit par exemple dans l'ouvrage de M. BELLANGER - Traitement numérique du signal - Théorie et pratique (MASSON éd. 1987) p. 393 à 395. Pour l'utiliser, il faut disposer d'une estimation de l'autocorrélation du signal sur un ensemble de No échantillons. Cette autocorrélation est utilisée pour résoudre le système d'équations de Yule-Walker et ainsi obtenir les coefficients du filtre prédicteur.
Seules les N premières valeurs de la fonction d'autocorrélation peuvent être utilisées, où N désigne l'ordre de l'algorithme, c'est-à-dire le nombre de coefficients du filtre. Sur une fenêtre de 1024 échantillons, on garde le maximum de l'erreur de prédiction.
L'algorithme du gradient qui est décrit par exemple dans l'ouvrage précité de M. BELLANGER p. 371 et suivantes. Le principal inconvénient du paramètre précédent est la nécessité, dans le cas d'une implantation sur DSP, de stocker les N0 échantillons pour estimer
l'autocorrélation, avoir les coefficients du filtre puis calculer les résidus. Ce second paramètre permet d'éviter cela en utilisant un autre algorithme permettant de calculer les coefficients du filtre : l'algorithme du gradient. Celui- ci utilise l'erreur commise pour mettre à jour les coefficients. Les coefficients du filtre sont modifiés dans la direction du gradient de l'erreur quadratique instantanée, avec le signal opposé.
Une fois les résidus obtenus par différence entre le signal prédit et le signal réel, seul le maximum de leurs valeurs absolues, sur une fenêtre temporelle de taille donnée T, est conservé. Le vecteur référence à transmettre peut ainsi être réduite à un seul nombre.
Après transmission puis synchronisation, la comparaison consiste en un simple calcul de distance entre les maxima de la référence et du signal dégradé par exemple par différence.
Le principal avantage des deux paramètres est le débit nécessaire au transfert de la référence. Celui-ci permet de réduire la référence à une valeur pour 1024 échantillons de signal.
Par contre, aucun modèle de la psychoacoustique n'est pris en compte.
Un autre paramètre caractéristique met en œuvre une modélisation autorégressive de l'excitation basilaire.
Par rapport à la prédiction linéaire classique, cette méthode permet de prendre en compte les phénomènes de la psychoacoustique, afin d'obtenir une évaluation de la qualité perçue. Pour cela, le calcul du paramètre passe par une modélisation de divers principes de l'audition. Une prédiction linéaire modelise le signal comme étant une combinaison de ses valeurs passées. L'analyse des résidus (ou erreurs de prédiction) permet de déterminer et d'estimer la présence de bruit dans un signal. L'inconvénient majeur lors de l'utilisation de ces techniques est le fait qu'il n'y ait aucune prise en compte des principes de la psychoacoustique. Ainsi, il n'est pas possible d'estimer la quantité de bruit réellement perçue.
Le procédé reprend le principe général de la prédiction linéaire classique. Elle y intègre en plus les phénomènes de la psychoacoustique pour l'adapter à la sensibilité non linéaire en fréquence (sonie) et en intensité (tonie) de l'oreille humaine. On modifie le spectre du signal, par l'intermédiaire d'un modèle d'audition, avant de calculer les coefficients de la prédiction linéaire
par une modélisation autorégressive (tout pôle). Les coefficients ainsi obtenus permettent de modéliser le signal de façon simple tout en tenant compte de la psychoacoustique. Ce sont ces coefficients de prédiction qui seront transmis et serviront de référence lors de la comparaison avec le signal dégradé. La première partie du calcul de ce paramètre correspond à la modélisation des principes de la psychoacoustique en utilisant les modèles d'audition classiques. La deuxième partie est le calcul des coefficients de prédiction linéaire. La dernière partie correspond à la comparaison des coefficients de prédiction calculés pour le signal de référence et ceux obtenus pour le signal dégradé. Les différentes étapes de cette méthode sont donc les suivantes :
- Fenêtrage temporel du signal puis calcul d'une représentation interne du signal par modélisation des phénomènes de la psychoacoustique. Cette étape correspond au calcul de la sonie compressée, qui est en fait l'excitation induite par le signal au niveau de l'oreille interne. Cette représentation des signaux tient compte des phénomènes de la psychoacoustique, et est obtenue à partir du spectre du signal, en utilisant les modélisations classiques : atténuation de l'oreille externe et moyenne, intégration selon les bandes critiques et masquages fréquentiels. Cette étape du calcul est identique au paramètre décrit précédemment.
- Modélisation autorégressive de cette sonie compressée afin d'obtenir les coefficients d'un filtre RIF de prédiction, tout comme dans une prédiction linéaire classique. La méthode utilisée est celle de l'autocorrélation, par résolution des équations de Yule-Walker. La première étape pour l'obtention des coefficients de prédiction est donc le calcul de l'autocorrélation du signal.
En considérant la sonie compressée comme une puissance spectrale filtrée, il est possible de calculer l'autocorrélation du signal perçu par transformation de Fourier inverse. Une des méthodes pour résoudre ce système d'équations de
Yule-Walker et ainsi obtenir les coefficients d'un filtre prédicteur est l'utilisation de l'algorithme de Levinson-Durbin.
Ce sont les coefficients de prédiction qui constituent le vecteur de référence à transmettre jusqu'au point de comparaison. Les transformations utilisées lors du calcul final sur le signal dégradé, sont les mêmes que pour la phase initiale sur le signal de référence.
- Estimation des dégradations par le calcul d'une distance entre les vecteurs issus de la référence et du signal dégradé. C'est une comparaison des vecteurs de coefficients définissant des points obtenus pour la référence et pour le signal audio transmis, qui permet d'estimer les dégradations introduites lors de la transmission. Celle-ci doit se faire sur un nombre adapté de coefficients. Plus le nombre est important, plus les calculs peuvent être précis, mais plus le débit nécessaire à la transmission de la référence est élevé. Plusieurs distances peuvent être utilisées pour comparer les vecteurs de coefficients. L'importance relative des coefficients peut par exemple être prise en compte.
Le principe de la méthode se résume selon le schéma suivant (Figure 11).
La modélisation des phénomènes de la psychoacoustique permet d'obtenir 24 composantes basilaires. L'ordre N du filtre de prédiction est de 32. A partir de celles-ci, 32 coefficients de l'autocorrélation sont estimés, ce qui donne 32 coefficients de prédiction dont on ne conserve que 5 à 10 coefficients en tant que vecteur indicateur de qualité, par exemple les 5 à 10 premiers coefficients .
Le principal avantage du paramètre provient de la prise en compte des phénomènes de la psychoacoustique. Pour faire cela, il a été nécessaire d'augmenter le débit nécessaire au transfert de la référence à 5 ou
10 valeurs pour 1024 échantillons de signal (21 ms.), soit un débit de 7,5 à 15 kbits/s.
Le paramètre caractéristique P peut être d'une manière générale toute grandeur obtenue à partir du contenu des signaux numériques et par exemple en vidéo :
- la luminosité de l'image ou d'une zone de celle-ci tel que donnée par le coefficient continu F(0,0) de la transformée en cosinus discrète TCD de l'image, ou de tout autre transformée par blocs, linéaire et orthogonale, par blocs ou globale,
- et/ou le contraste de l'image ou d'une zone de celle-ci, donné par exemple par l'application d'un filtre de Sobel,
- et/ou l'activité de l'image SA de l'image telle que définie par exemple dans la Demande PCT WO 99/18736 de la Demanderesse, et obtenue par une transformation par blocs linéaire et orthogonale (TCD,
transformée de FOURIER, de HAAR, d'HADAMARD, de SLANT, transformée en ondelettes etc.),
- la moyenne de l'image, et en audio : - la puissance,
- et/ou bien la densité spectrale de puissance telle que définie dans la demande de Brevet Français FR 2 769 777 déposée le 13 Octobre 1997, et/ou un des paramètres décrits ci-dessus.
On remarquera que le paramètre P est susceptible d'être soumis à des dégradations dues à la transmission, mais on observe en pratique, qu'aux niveaux de dégradation généralement observés dans les réseaux de transmission, la synchronisation peut être effectuée à l'aide du procédé selon l'invention.
D'une manière générale, une fois la synchronisation acquise, le procédé permet de vérifier qu'elle est bien conservée, de manière à pouvoir remédier en tant que de besoin aux perturbations telles qu'interruption de flux binaire, changement de flux binaire, changement de décodeur, etc., en resynchronisant les deux signaux numériques E et S.
Le procédé décrit est applicable à chaque fois qu'il est nécessaire de synchroniser deux flux numériques. La méthode permet d'obtenir une première plage de synchronisation de largeur suffisamment réduite pour autoriser l'utilisation de méthodes de synchronisation fine classiques, et cela en temps réel.
Le procédé exploite avantageusement un ou plusieurs paramètres caractéristiques des signaux à synchroniser qui sont représentés par au moins deux nombres caractéristiques, au lieu de la totalité des signaux. Selon une réalisation préférée, l'utilisation combinée de plusieurs paramètres permet d'assurer une fiabilité de synchronisation supérieure aux techniques antérieures. De plus, l'invention permet de réaliser une synchronisation d'un niveau de précision qui peut être choisi, et d'une complexité plus faible que les méthodes existantes. Cette synchronisation délimite une plage d'erreur, d'une durée autorisant par la suite l'utilisation de méthodes classiques de synchronisation « fine » si une précision plus élevée est requise. L'équipement de mesure implantant le procédé de l'invention, trouve son application notamment dans le domaine des réseaux de diffusion
des signaux audiovisuels numériques afin de permettre une surveillance de la qualité des signaux délivrés par le réseau.
L'invention permet également de réaliser, pour un flux de données incorporant des données audio et vidéo, une synchronisation pour le son et pour l'image. A cet effet, une synchronisation est effectuée pour la vidéo, en calculant un décalage de synchronisation pour la vidéo, et une synchronisation est effectuée pour l'audio, en calculant un décalage de synchronisation pour l'audio. De plus, en comparant la valeur des deux décalages, on peut savoir si lors par exemple d'une transmission, il s'est produit un décalage entre le son et l'image.