Image de référence
Une image de référence est un terme de la compression vidéo pour désigner une image déjà encodée pouvant être utilisée comme base de prédiction pour les images futures. La technique de prédiction consiste à rechercher du contenu dans une image de référence qui est similaire au contenu de l'image courante. Il s'agit d'une prédiction temporelle. Une fois le contenu similaire identifié, l'algorithme déduit le vecteur de mouvement qui relie les deux blocs. Ce type d'image est utilisé pour la compression des images inter lors des étapes d'estimation de mouvement et compensation de mouvement du schéma d'encodage. Dans les anciennes normes d'encodage telles que MPEG-2, seulement une image de référence est employée pour les images P qui correspond à l'image précédente et deux images sont nécessaires pour l'encodage des images B, une image passée et une image future. Dans la norme H.264, l'algorithme d'estimation de mouvement peut être réalisé sur plusieurs images de référence passées pour les types d'images inter.
Images de référence multiples ou Multiple reference frames
Dans certains standards modernes de compression vidéo comme H.264, le choix d'un nombre multiple de trame de référence est autorisé. Cela permet à l'encodeur vidéo de choisir parmi plus d'une image précédemment décodée, le meilleur bloc correspondant au bloc ou macrobloc courant. Bien que la meilleure image pour ce but est souvent la précédente, les autres images de référence peuvent améliorer l'efficacité de la compression et/ou la qualité de la vidéo. En H.264, le nombre maximum d'images de référence supporté est de 16 et chaque macrobloc peut utiliser plusieurs de ces images pour être encodé, tout dépend du mode de prédiction inter utilisé. Par exemple, si un macrobloc (bloc de taille 16x16 pixels) est divisé en 4 blocs de 8x8 pixels alors chacun de ces quatre blocs peut utiliser une image de référence différente. Un autre format vidéo supporte cette option: il s'agit du codec vidéo Snow qui peut manipuler jusqu'à 8 images. Le codec Theora fournit un panel limité d'images de référence, autorisant les références à la fois de l'image précédente et l'image intra la plus récente.
L'image ci-dessus représente un exemple d'estimation de mouvement à partir de plusieurs images de référence. L'un des deux blocs de l'image courante utilise 3 images pour être encodé alors que le deuxième n'a besoin que d'une seule.
Au niveau de l'encodage
Les images de référence multiples peuvent augmenter considérablement le temps d'encodage car beaucoup de décisions telles que l'estimation de mouvement, ne travaillent qu'image par image et donc doivent répéter leur algorithme sur les autres images de référence avant de prendre leur décision finale. Les heuristiques peuvent être utilisées pour réduire ce coût en vitesse au détriment de la qualité.
Au niveau du décodage
Durant le décodage, les images de référence doivent être stockées en mémoire jusqu'à ce qu'elles ne soient plus nécessaires pour le décodage des trames suivantes. Pour un grand nombre d'images de référence, il est donc nécessaire de prévoir un espace de stockage assez important, surtout si les images sont de format HD. L'usage de multiples images de référence a également un impact négatif sur les performances temporelles du décodage.
Références
- (en) E. G. Richardson, H.264 and MPEG-4 Video Compression: Video Coding for Next-generation Multimedia, Chichester, John Wiley & Sons Ltd., (ISBN 0-470-84837-5)
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Reference frame (video) » (voir la liste des auteurs).