Bienvenue dans la rubrique Audio d'ActuAV.com.


  Les sous loués font du SDI !
ou la vidéo héberge l'audio
Cet article a été rédigé et publié pour la première fois en 1999 dans la revue Broadcast et Production.
 
  La crise du logement des câbles dans les goulottes conduit les ingénieurs à imaginer des solutions de transport simultané de la vidéo et des signaux audio associés sur le même support physique, le coaxial. L'audio est alors hébergé par la vidéo (j'aime cette expression), d'autres préféreront l'audio inséré dans la vidéo. Les documents en langue anglaise utilisent l'expression embedded audio (et non pas embedded au dodo !). Bref, embedded and broadcast !
 
Alain DELHAISE
 


Petit préambule
Le signal vidéo a depuis l'origine de longs instants disponibles pour des utilisations qui sortent du cadre strict de la transmission d'images. Les suppressions représentent en tout 25 % du temps. Des tentatives d'utiliser les espaces libres pour transmettre du son en l'insérant au sein du signal vidéo ont été menées et je me souviens de la BBC qui positionnait, au début des années 70, un son mono sur le fond de l'impulsion de synchro ligne (près de 4,7 µs de durée et à 15.625 Hz, chez nous) du signal vidéo correspondant.

Le numérique vient à notre secours
La norme SDI (Serial Digital Interface) de signal vidéo numérique série qui constitue la base de tout câblage dans la production et la postproduction vidéo depuis deux décennies ne déroge pas à la règle citée ci-avant. La norme dont on voit les références temporelles sur la figure 1 prévoit en effet des espaces réservés pour les données auxiliaires entre les deux importants mots de synchronisation que sont l'EAV (End of Active Video) et le SAV (Start of Active Video) qui marquent respectivement la fin et le début de la ligne vidéo numérique active. Les données auxiliaires sont mises en paquets. Il existe deux tailles différentes de paquets : un long de 55 mots dont 48 de données et un court de 43 mots dont 36 de données. L'espace disponible permet par conséquent l'insertion de 2 paquets longs et de trois paquets courts sur suppression ligne vidéo.

 
Fig. 1 : une image vidéo SDI.

Quelques rappels sur l'interface audio AES-EBU
L'interface audio numérique AES 3 a connu sa première version en 1985 (AES3-1985), reprise par l'UER (EBU en anglais) dans le document Tech 3250 E. Cette interface a subi une importante actualisation en 1992 (AES3-1992). Il s'agit d'une interface audionumérique série portant sur deux canaux ; les données sont conformes au dessin de la figure 2 qui montre le multiplexage qui est opéré.

 
Fig. 2 : le format de la trame AES3.

Chaque trame de 64 caractères binaires a une durée qui correspond exactement à la période d'échantillonnage. Le débit et la durée d'une trame sont donc fonction de la fréquence d'échantillonnage choisie. Ainsi, dans le cas d'une fréquence d'échantillonnage de 48 kHz, la plus utilisée en audio professionnel, du moins pour l'instant, la durée d'une trame est de 20,8 µs et le débit de 3,072 Mb/s. Dans chaque trame, sont collées deux sous-trames, l'une derrière l'autre. Chaque sous-trame porte les données de l'échantillon de l'un des deux canaux 1 ou 2. Ceux-ci peuvent représenter les deux canaux gauche et droite d'une modulation stéréophonique, ou bien encore deux canaux monophoniques autonomes.
Chaque sous-trame comprend 32 caractères binaires qui se répartissent de la manière suivante, dans l'ordre de leur transmission :
- 4 caractères binaires pour un préambule de synchronisation,
- 4 caractères binaires de données auxiliaires,
- 20 caractères binaires pour le mot d'échantillon audio du canal concerné, avec le caractère de poids le plus faible en tête,
- 1 caractère binaire de validité (V),
- 1 caractère binaire de donnée utilisateur (U),
- 1 caractère binaire de donnée d'état de voie (C),
- et 1 caractère binaire de parité (P).
Les 4 caractères de données auxiliaires peuvent avoir différentes utilisations et, en particulier, peuvent servir à porter les 4 caractères de poids le plus faible, dans le cas d'une quantification sur 24 caractères binaires des échantillons, afin de compléter les 20 caractères transmis en standard juste après. Une des propositions de la version de 1992 offre la possibilité de placer dans cet espace des signaux d'ordres de qualité réduite ; on arrive cependant à transmettre des échantillons de 12 caractères obtenus au tiers de la fréquence d'échantillonnage des signaux audio nobles en utilisant trois sous-trames successives du même canal (ce qui fait bien le compte), l'autre sous-trame portant les signaux de la voie de retour.
Dans le cas d'une quantification sur un nombre de caractères binaires inférieur à 20, les caractères de poids le plus faible "absents" sont forcés à l'état "0", ce qui laisse les caractères de poids le plus fort à leur place, quelle que soit la résolution choisie. Le décodage s'en trouve ainsi simplifié.
Le type de modulation employé appelé biphase-mark ou modulation de fréquence est identique à celui qu'emploie le code temporel longitudinal LTC des magnétoscopes et autre transports de bande. La figure 3 en donne une représentation. Un changement de niveau est systématiquement opéré à chaque nouveau caractère binaire et, si le caractère est un "0", aucune autre transition n'intervient avant le début du caractère suivant, si le caractère est un "1", une nouvelle transition est créée au milieu de la durée d'un caractère. L'autosynchronisation du signal ainsi produit est assurée et la régénération de l'horloge n'est pas un problème. Le signal ne dispose pas en théorie de composante continue et est indépendant de la polarité puisque le sens d'une transition intermédiaire est sans importance : qu'elle soit montante ou descendante, elle indique dans tous les cas le caractère "1". Seule compte sa présence ou non pour déterminer la nature du caractère présent, "1" ou "0" respectivement. On remarquera également que la création des transitions intermédiaires nécessite la disposition d'une horloge à une fréquence double de la fréquence d'échantillonnage au moment du codage. Ce codage qui s'opère à la source du signal s'appelle codage de voie ou codage de source.

 
Fig. 3 : le codage de voie ou de canal biphase-mark.

Le caractère de validité V ne permet que de traduire la validité des données de l'échantillon qui précède. Si aucune erreur n'a été détectée en amont, ce caractère est fixé à "0" ; il est fixé à "1" dans le cas contraire. Avec un seul caractère binaire, il est difficile d'aller plus loin.
Le caractère de donnée utilisateur U est d'un emploi plus complexe. Les caractères U de plusieurs trames sont regroupés selon leur utilisation. Le débit global de ces caractères est de 48 Kb/s à 48 kHz d'échantillonnage. Le détail des utilisations possibles sort du cadre de cet article.
Le caractère de donnée d'état de voie C est lui aussi regroupé afin de constituer des blocs de données d'état de voie, le plus souvent de 24 octets chacun (192 caractères binaires). En professionnel, ces blocs font l'objet d'une définition précise pour laquelle le document officiel de la norme AES/UER vous donnera toutes informations.
Le caractère de parité P est obtenu par calcul de façon à ce que le nombre de "1" présents dans une sous-trame, préambule de synchronisation excepté, soit pair. Il ne permet par conséquent de détecter des erreurs de caractères en nombre impair (1, 3...) mais comme il est incapable de les localiser, il ne peut absolument pas les corriger. Quant aux erreurs en nombre pair, elles sont indécelables par cette méthode.

 
Fig. 4 : les préambules dans un bloc de voie.

Les trames sont ensuite regroupées en blocs de 192 trames, comme le montre la figure 4, d'une durée de 4 ms à une fréquence d'échantillonnage de 48 kHz. Le document de la norme AES établit les règles de gestion des mots de synchronisation pour ces blocs. Composés de 4 caractères chacun, il en existe trois types différents, nommés X, Y et Z par la norme. Le préambule X est affecté à la sous-trame 1 et le préambule Y à la sous-trame 2. Au début de chaque bloc de 192 trames et une seule fois, le préambule X cède sa place au préambule Z. Ces trois préambules ne respectent la règle générale de changement systématique de niveau à chaque changement de caractère (ils débutent tous par une durée de 1,5 caractère sans changement de niveau), ce qui rend leur reconnaissance plus facile. Les signaux correspondants aux trois préambules de synchronisation X, Y et Z qui sont insérés dans les trames audio sont représentés sur la figure 5.

 
Fig. 5 : les trois préambules de synchronisation possibles.

Ces notions ayant été précisées, revenons à notre interface SDI et à l'hébergement de l'audio en son sein.

Pourquoi ce multiplexage ?
Le recours à cette technique représente à l'évidence un gain indéniable dans le câblage et dans les équipements de commutation, puisque plusieurs plans de grilles deviennent ainsi inutiles. Mais l'expérience nous montre que cet avantage doit être mis en balance avec les difficultés de traitement des modulations multiplexées, qui nécessitent un démultiplexage préalable. On se souvient des formats de magnétoscopes qui inscrivent les signaux audio avec les mêmes têtes et sur les mêmes pistes que la vidéo, au moyen d'un multiplexage fréquentiel. Toute intervention sur l'un des signaux composant le multiplex oblige à un démultiplexage et à la recopie des signaux après un traitement qui, souvent, ne concernait que l'un des signaux. Avec l'audio hébergé, il en va de même. Le multiplexage qui est cette fois temporel, doit être détruit au moyen d'un extracteur des données audio et reproduit, après traitement de l'un ou de plusieurs signaux qui le composent. Cette dernière opération se réalise avec un inserteur de données dans l'espace réservé par le signal numérique série aux données auxiliaires. Les opérations d'extraction puis de réinsertion demandent un certain temps pour être réalisées et les quelques millisecondes prises pour ce faire risquent de compter dans le cas d'une répétition de ces manipulations avec le cumul des retards ainsi apportés. De plus, le coût des équipements d'extraction et d'insertion doit être considéré lors des choix techniques.

Les TRS du SDI
Les TRS (Timing Reference Signals) ou signaux de référence temporelle qui jouent en numérique, le même rôle que les impulsions de signaux de synchronisation en analogique sont reproduits sur la figure 6. Les signaux étant émis en permanence, il est absolument nécessaire de disposer de points de repère pour identifier entre autres instants, les débuts et fins de ligne, les débuts et fins de trame... Le SDI incorpore donc dans le flux des composantes série ces références, les SAV et EAV évoqués au début de cet article. Ils sont composés de 4 octets chacun : le premier est une série de 8 "1" (il est en "tout à un"), les deux octets suivants forment une suite de 16 "0" ("tout à zéro"). Le quatrième et dernier octet qui compose le TRS est plus significatif :
- il débute par un "1" suivi
- d'un caractère F indiquant la trame paire "0" ou impaire "1" de l'image,
- d'un caractère V qui indique si l'on se trouve "1" ou non "0" dans l'intervalle vertical de suppression,
- d'un caractère H qui permet de distinguer la fin de la ligne active (EAV) "1" , du début de la ligne active (SAV) "0",
- et d'un demi-octet de détection et de correction partielle des erreurs sous forme d'un code de Hamming.
Il est bon de noter que les caractères F et V ne changent que dans l'EAV.

 
Fig. 6 : la structure des TRS du SDI.

L'hébergement de l'audio numérique dans le SDI
Les données auxiliaires placées dans le flux numérique vidéo SDI qui reçoivent, entre autres signaux, l'audio hébergé, débutent également par un TRS, une séquence de synchronisation. Afin de ne pas le confondre avec ses homologues "vidéo", celui-ci est inversé. Le premier octet est forcé en "tout à zéro", l'octet suivant en "tout à un" et ils sont répétés pour donner la taille attendue de 4 octets en tout.
La capacité d'hébergement, compte tenu de l'espace disponible dans le flux numérique composantes vidéo et de l'occupation des canaux AES/UER, est d'un maximum de 16 canaux audio qui sont organisés en quatre groupes. Les différentes possibilités, les niveaux, sont représentés dans le tableau de la figure 7. Le premier niveau, noté A, constitue le niveau par défaut. Pour tous les autres niveaux, il sera nécessaire d'envoyer un paquet de commande audio afin de permettre le décodage des données audio hébergées. Ce paquet de commande audio n'est transmis qu'une fois par trame vidéo et il en existe autant que de canaux audio hébergés. Les données audio sont transmises sous forme de paquets de données audio correspondant à un maximum de quatre canaux audio, avec une capacité de 20 caractères par échantillon. Si 24 caractères doivent être utilisés, les 4 caractères supplémentaires sont placés dans un paquet de données d'extension qui suit immédiatement les données audio principales dans le même intervalle de données auxiliaires du SDI. Nous n'entrerons pas dans la structure interne des paquets qui sort du cadre de cet article. Le lecteur intéressé pourra se reporter à ce sujet à l'ouvrage sur les interfaces numériques, cité en bibliographie. Le nombre d'échantillons audio, par canal, à 48 kHz qu'il est possible de placer par ligne vidéo n'est pas entier. Il est donc fait appel à des paquets contenant en pratique trois ou quatre échantillons audio.

 
Fig. 7 : les différentes possibilités audio supportées par le SDI.

Synchronisation et commutation des signaux
Les signaux vidéo sont depuis toujours verrouillés entre eux en fréquence (genlock) et mis en phase, là où les commutations visibles doivent être effectuées, comme dans les mélangeurs, afin d'éviter des défauts lors des commutations. Les mêmes nécessités s'appliquent aux signaux audio entre eux, et aux signaux audio reliés à un signal vidéo. L'intersynchronisation des signaux audio et vidéo demande le passage par la fréquence la plus élevée, sous-multiple commun de la fréquence 4 du 4:2:2 (13,5 MHz) et du 48 kHz de l'audio, soit 12 kHz. La figure 8 montre comment il est procédé en partant des fréquences ligne européennes et américaines.

 
Fig. 8 : le verrouillage de l'audio sur la fréquence ligne de la vidéo.

La figure 9 montre les relations qui existent entre le 48 kHz de l'audio, les autres fréquences d'échantillonnage audio 44,1 kHz et 32 kHz, et les différentes fréquences image, film et vidéo.

 
Fig. 9 : les relations de synchronisation multiformat.

Lors de commutations vidéo portant sur un signal SDI avec audio hébergé, l'extraction et la réinsertion des données audio est une sage précaution afin d'éviter les défauts sur l'audio. La figure 10 présente un système efficace autour d'une grille numérique série qui dispose de deux circuits extracteurs d'audio affectables dont les sorties alimentent un module de fondus audio qui débouche sur un réinserteur. Le résultat est alors exempt de défauts.

 
Fig. 10 : la commutation des signaux audio hébergés dans le SDI.

Les figures 11 et 12 montrent le synoptique type d'un inserteur et d'un extracteur de données audio. On remarquera la présence des mémoires tampon de type FIFO (First In First Out : les données ressortent dans l'ordre de leur entrée dans le tampon) qui assurent le changement de rythme nécessaire entre les échantillons audio en audio pur et les mêmes échantillons audio présents dans le SDI, dont la fréquence d'échantillonnage est beaucoup plus élevée que l'audio. Une compression temporelle est assurée lors de l'insertion et une décompression temporelle inverse est réalisée lors de l'extraction.

 
Fig. 11 : synoptique d'un inserteur type de données audio dans le SDI.

 
Fig. 12 : synoptique d'un extracteur type de données audio du SDI.

Nous aurons peut-être l'occasion de revenir sur des points particuliers de cette technique, mais il faut savoir que l'utilisation de l'audio hébergé dans un flux vidéo SDI commence à se répandre. Citons à titre d'exemple le siège de France Télévision qui y fait largement appel dans les liaisons entre ses studios.

  Bibliographie :
- Les interfaces numériques de Francis Rumsey et John Watkinson publié en langue française aux Editions Eyrolles.
- The Book: An engineer's guide to the digital transition publié en anglais par le constructeur N Vision.
- The video engineer's guide to digital audio par John Watkinson publié en anglais par le constructeur N Vision.
 
Date :30/10/2006 Source: Rédac Auteur :ADel Société:  

 
 
 
 
 
 
Cet espace est disponible pour vos liens commerciaux et vos publicités