| |
Petit
préambule
Le signal vidéo a depuis l'origine de longs
instants disponibles pour des utilisations qui sortent
du cadre strict de la transmission d'images. Les suppressions
représentent en tout 25 % du temps. Des tentatives
d'utiliser les espaces libres pour transmettre du
son en l'insérant au sein du signal vidéo
ont été menées et je me souviens
de la BBC qui positionnait, au début des années
70, un son mono sur le fond de l'impulsion de synchro
ligne (près de 4,7 µs de durée
et à 15.625 Hz, chez nous) du signal vidéo
correspondant.
Le
numérique vient à notre secours
La norme SDI (Serial Digital Interface) de signal
vidéo numérique série qui constitue
la base de tout câblage dans la production et
la postproduction vidéo depuis deux décennies
ne déroge pas à la règle citée
ci-avant. La norme dont on voit les références
temporelles sur la figure 1 prévoit en effet
des espaces réservés pour les données
auxiliaires entre les deux importants mots de synchronisation
que sont l'EAV (End of Active Video) et le SAV (Start
of Active Video) qui marquent respectivement la fin
et le début de la ligne vidéo numérique
active. Les données auxiliaires sont mises
en paquets. Il existe deux tailles différentes
de paquets : un long de 55 mots dont 48 de données
et un court de 43 mots dont 36 de données.
L'espace disponible permet par conséquent l'insertion
de 2 paquets longs et de trois paquets courts sur
suppression ligne vidéo.
| |

Fig.
1 : une image vidéo SDI. |
Quelques
rappels sur l'interface audio AES-EBU
L'interface audio numérique AES 3 a connu sa
première version en 1985 (AES3-1985), reprise
par l'UER (EBU en anglais) dans le document Tech 3250
E. Cette interface a subi une importante actualisation
en 1992 (AES3-1992). Il s'agit d'une interface audionumérique
série portant sur deux canaux ; les données
sont conformes au dessin de la figure 2 qui montre
le multiplexage qui est opéré.
| |

Fig.
2 : le format de la trame AES3. |
Chaque
trame de 64 caractères binaires a une durée
qui correspond exactement à la période
d'échantillonnage. Le débit et la durée
d'une trame sont donc fonction de la fréquence
d'échantillonnage choisie. Ainsi, dans le cas
d'une fréquence d'échantillonnage de
48 kHz, la plus utilisée en audio professionnel,
du moins pour l'instant, la durée d'une trame
est de 20,8 µs et le débit de 3,072 Mb/s.
Dans chaque trame, sont collées deux sous-trames,
l'une derrière l'autre. Chaque sous-trame porte
les données de l'échantillon de l'un
des deux canaux 1 ou 2. Ceux-ci peuvent représenter
les deux canaux gauche et droite d'une modulation
stéréophonique, ou bien encore deux
canaux monophoniques autonomes.
Chaque sous-trame comprend 32 caractères binaires
qui se répartissent de la manière suivante,
dans l'ordre de leur transmission :
- 4 caractères binaires pour un préambule
de synchronisation,
- 4 caractères binaires de données auxiliaires,
- 20 caractères binaires pour le mot d'échantillon
audio du canal concerné, avec le caractère
de poids le plus faible en tête,
- 1 caractère binaire de validité (V),
- 1 caractère binaire de donnée utilisateur
(U),
- 1 caractère binaire de donnée d'état
de voie (C),
- et 1 caractère binaire de parité (P).
Les 4 caractères de données auxiliaires
peuvent avoir différentes utilisations et,
en particulier, peuvent servir à porter les
4 caractères de poids le plus faible, dans
le cas d'une quantification sur 24 caractères
binaires des échantillons, afin de compléter
les 20 caractères transmis en standard juste
après. Une des propositions de la version de
1992 offre la possibilité de placer dans cet
espace des signaux d'ordres de qualité réduite
; on arrive cependant à transmettre des échantillons
de 12 caractères obtenus au tiers de la fréquence
d'échantillonnage des signaux audio nobles
en utilisant trois sous-trames successives du même
canal (ce qui fait bien le compte), l'autre sous-trame
portant les signaux de la voie de retour.
Dans le cas d'une quantification sur un nombre de
caractères binaires inférieur à
20, les caractères de poids le plus faible
"absents" sont forcés à l'état
"0", ce qui laisse les caractères
de poids le plus fort à leur place, quelle
que soit la résolution choisie. Le décodage
s'en trouve ainsi simplifié.
Le type de modulation employé appelé
biphase-mark ou modulation de fréquence est
identique à celui qu'emploie le code temporel
longitudinal LTC des magnétoscopes et autre
transports de bande. La figure 3 en donne une représentation.
Un changement de niveau est systématiquement
opéré à chaque nouveau caractère
binaire et, si le caractère est un "0",
aucune autre transition n'intervient avant le début
du caractère suivant, si le caractère
est un "1", une nouvelle transition est
créée au milieu de la durée d'un
caractère. L'autosynchronisation du signal
ainsi produit est assurée et la régénération
de l'horloge n'est pas un problème. Le signal
ne dispose pas en théorie de composante continue
et est indépendant de la polarité puisque
le sens d'une transition intermédiaire est
sans importance : qu'elle soit montante ou descendante,
elle indique dans tous les cas le caractère
"1". Seule compte sa présence ou
non pour déterminer la nature du caractère
présent, "1" ou "0" respectivement.
On remarquera également que la création
des transitions intermédiaires nécessite
la disposition d'une horloge à une fréquence
double de la fréquence d'échantillonnage
au moment du codage. Ce codage qui s'opère
à la source du signal s'appelle codage de voie
ou codage de source.
| |

Fig.
3 : le codage de voie ou de canal biphase-mark. |
Le
caractère de validité V ne permet que
de traduire la validité des données
de l'échantillon qui précède.
Si aucune erreur n'a été détectée
en amont, ce caractère est fixé à
"0" ; il est fixé à "1"
dans le cas contraire. Avec un seul caractère
binaire, il est difficile d'aller plus loin.
Le caractère de donnée utilisateur U
est d'un emploi plus complexe. Les caractères
U de plusieurs trames sont regroupés selon
leur utilisation. Le débit global de ces caractères
est de 48 Kb/s à 48 kHz d'échantillonnage.
Le détail des utilisations possibles sort du
cadre de cet article.
Le caractère de donnée d'état
de voie C est lui aussi regroupé afin de constituer
des blocs de données d'état de voie,
le plus souvent de 24 octets chacun (192 caractères
binaires). En professionnel, ces blocs font l'objet
d'une définition précise pour laquelle
le document officiel de la norme AES/UER vous donnera
toutes informations.
Le caractère de parité P est obtenu
par calcul de façon à ce que le nombre
de "1" présents dans une sous-trame,
préambule de synchronisation excepté,
soit pair. Il ne permet par conséquent de détecter
des erreurs de caractères en nombre impair
(1, 3...) mais comme il est incapable de les localiser,
il ne peut absolument pas les corriger. Quant aux
erreurs en nombre pair, elles sont indécelables
par cette méthode.
| |

Fig.
4 : les préambules dans un bloc de voie. |
Les
trames sont ensuite regroupées en blocs de
192 trames, comme le montre la figure 4, d'une durée
de 4 ms à une fréquence d'échantillonnage
de 48 kHz. Le document de la norme AES établit
les règles de gestion des mots de synchronisation
pour ces blocs. Composés de 4 caractères
chacun, il en existe trois types différents,
nommés X, Y et Z par la norme. Le préambule
X est affecté à la sous-trame 1 et le
préambule Y à la sous-trame 2. Au début
de chaque bloc de 192 trames et une seule fois, le
préambule X cède sa place au préambule
Z. Ces trois préambules ne respectent la règle
générale de changement systématique
de niveau à chaque changement de caractère
(ils débutent tous par une durée de
1,5 caractère sans changement de niveau), ce
qui rend leur reconnaissance plus facile. Les signaux
correspondants aux trois préambules de synchronisation
X, Y et Z qui sont insérés dans les
trames audio sont représentés sur la
figure 5.
| |

Fig.
5 : les trois préambules de synchronisation
possibles. |
Ces
notions ayant été précisées,
revenons à notre interface SDI et à
l'hébergement de l'audio en son sein.
Pourquoi
ce multiplexage ?
Le recours à cette technique représente
à l'évidence un gain indéniable
dans le câblage et dans les équipements
de commutation, puisque plusieurs plans de grilles
deviennent ainsi inutiles. Mais l'expérience
nous montre que cet avantage doit être mis en
balance avec les difficultés de traitement
des modulations multiplexées, qui nécessitent
un démultiplexage préalable. On se souvient
des formats de magnétoscopes qui inscrivent
les signaux audio avec les mêmes têtes
et sur les mêmes pistes que la vidéo,
au moyen d'un multiplexage fréquentiel. Toute
intervention sur l'un des signaux composant le multiplex
oblige à un démultiplexage et à
la recopie des signaux après un traitement
qui, souvent, ne concernait que l'un des signaux.
Avec l'audio hébergé, il en va de même.
Le multiplexage qui est cette fois temporel, doit
être détruit au moyen d'un extracteur
des données audio et reproduit, après
traitement de l'un ou de plusieurs signaux qui le
composent. Cette dernière opération
se réalise avec un inserteur de données
dans l'espace réservé par le signal
numérique série aux données auxiliaires.
Les opérations d'extraction puis de réinsertion
demandent un certain temps pour être réalisées
et les quelques millisecondes prises pour ce faire
risquent de compter dans le cas d'une répétition
de ces manipulations avec le cumul des retards ainsi
apportés. De plus, le coût des équipements
d'extraction et d'insertion doit être considéré
lors des choix techniques.
Les
TRS du SDI
Les TRS (Timing Reference Signals) ou signaux
de référence temporelle qui jouent en
numérique, le même rôle que les
impulsions de signaux de synchronisation en analogique
sont reproduits sur la figure 6. Les signaux étant
émis en permanence, il est absolument nécessaire
de disposer de points de repère pour identifier
entre autres instants, les débuts et fins de
ligne, les débuts et fins de trame... Le SDI
incorpore donc dans le flux des composantes série
ces références, les SAV et EAV évoqués
au début de cet article. Ils sont composés
de 4 octets chacun : le premier est une série
de 8 "1" (il est en "tout à
un"), les deux octets suivants forment une suite
de 16 "0" ("tout à zéro").
Le quatrième et dernier octet qui compose le
TRS est plus significatif :
- il débute par un "1" suivi
- d'un caractère F indiquant la trame paire
"0" ou impaire "1" de l'image,
- d'un caractère V qui indique si l'on se trouve
"1" ou non "0" dans l'intervalle
vertical de suppression,
- d'un caractère H qui permet de distinguer
la fin de la ligne active (EAV) "1" , du
début de la ligne active (SAV) "0",
- et d'un demi-octet de détection et de correction
partielle des erreurs sous forme d'un code de Hamming.
Il est bon de noter que les caractères F et
V ne changent que dans l'EAV.
| |

Fig.
6 : la structure des TRS du SDI. |
L'hébergement
de l'audio numérique dans le SDI
Les données auxiliaires placées dans
le flux numérique vidéo SDI qui reçoivent,
entre autres signaux, l'audio hébergé,
débutent également par un TRS, une séquence
de synchronisation. Afin de ne pas le confondre avec
ses homologues "vidéo", celui-ci
est inversé. Le premier octet est forcé
en "tout à zéro", l'octet
suivant en "tout à un" et ils sont
répétés pour donner la taille
attendue de 4 octets en tout.
La capacité d'hébergement, compte tenu
de l'espace disponible dans le flux numérique
composantes vidéo et de l'occupation des canaux
AES/UER, est d'un maximum de 16 canaux audio qui sont
organisés en quatre groupes. Les différentes
possibilités, les niveaux, sont représentés
dans le tableau de la figure 7. Le premier niveau,
noté A, constitue le niveau par défaut.
Pour tous les autres niveaux, il sera nécessaire
d'envoyer un paquet de commande audio afin de permettre
le décodage des données audio hébergées.
Ce paquet de commande audio n'est transmis qu'une
fois par trame vidéo et il en existe autant
que de canaux audio hébergés. Les données
audio sont transmises sous forme de paquets de données
audio correspondant à un maximum de quatre
canaux audio, avec une capacité de 20 caractères
par échantillon. Si 24 caractères doivent
être utilisés, les 4 caractères
supplémentaires sont placés dans un
paquet de données d'extension qui suit immédiatement
les données audio principales dans le même
intervalle de données auxiliaires du SDI. Nous
n'entrerons pas dans la structure interne des paquets
qui sort du cadre de cet article. Le lecteur intéressé
pourra se reporter à ce sujet à l'ouvrage
sur les interfaces numériques, cité
en bibliographie. Le nombre d'échantillons
audio, par canal, à 48 kHz qu'il est possible
de placer par ligne vidéo n'est pas entier.
Il est donc fait appel à des paquets contenant
en pratique trois ou quatre échantillons audio.
| |

Fig.
7 : les différentes possibilités
audio supportées par le SDI. |
Synchronisation
et commutation des signaux
Les signaux vidéo sont depuis toujours verrouillés
entre eux en fréquence (genlock) et mis en
phase, là où les commutations visibles
doivent être effectuées, comme dans les
mélangeurs, afin d'éviter des défauts
lors des commutations. Les mêmes nécessités
s'appliquent aux signaux audio entre eux, et aux signaux
audio reliés à un signal vidéo.
L'intersynchronisation des signaux audio et vidéo
demande le passage par la fréquence la plus
élevée, sous-multiple commun de la fréquence
4 du 4:2:2 (13,5 MHz) et du 48 kHz de l'audio, soit
12 kHz. La figure 8 montre comment il est procédé
en partant des fréquences ligne européennes
et américaines.
| |

Fig.
8 : le verrouillage de l'audio sur la fréquence
ligne de la vidéo. |
La
figure 9 montre les relations qui existent entre le
48 kHz de l'audio, les autres fréquences d'échantillonnage
audio 44,1 kHz et 32 kHz, et les différentes
fréquences image, film et vidéo.
| |

Fig.
9 : les relations de synchronisation multiformat. |
Lors
de commutations vidéo portant sur un signal
SDI avec audio hébergé, l'extraction
et la réinsertion des données audio
est une sage précaution afin d'éviter
les défauts sur l'audio. La figure 10 présente
un système efficace autour d'une grille numérique
série qui dispose de deux circuits extracteurs
d'audio affectables dont les sorties alimentent un
module de fondus audio qui débouche sur un
réinserteur. Le résultat est alors exempt
de défauts.
| |

Fig.
10 : la commutation des signaux audio hébergés
dans le SDI. |
Les
figures 11 et 12 montrent le synoptique type d'un
inserteur et d'un extracteur de données audio.
On remarquera la présence des mémoires
tampon de type FIFO (First In First Out : les données
ressortent dans l'ordre de leur entrée dans
le tampon) qui assurent le changement de rythme nécessaire
entre les échantillons audio en audio pur et
les mêmes échantillons audio présents
dans le SDI, dont la fréquence d'échantillonnage
est beaucoup plus élevée que l'audio.
Une compression temporelle est assurée lors
de l'insertion et une décompression temporelle
inverse est réalisée lors de l'extraction.
| |

Fig.
11 : synoptique d'un inserteur type de données
audio dans le SDI. |
| |

Fig.
12 : synoptique d'un extracteur type de données
audio du SDI. |
Nous
aurons peut-être l'occasion de revenir sur des
points particuliers de cette technique, mais il faut
savoir que l'utilisation de l'audio hébergé
dans un flux vidéo SDI commence à se
répandre. Citons à titre d'exemple le
siège de France Télévision qui
y fait largement appel dans les liaisons entre ses
studios.
| |
Bibliographie
:
- Les interfaces numériques de Francis
Rumsey et John Watkinson publié en langue
française aux Editions Eyrolles.
- The Book: An engineer's guide to the digital
transition publié en anglais par le constructeur
N Vision.
- The video engineer's guide to digital audio
par John Watkinson publié en anglais par
le constructeur N Vision. |
|