Entropie croisée
En théorie de l'information, l'entropie croisée entre deux lois de probabilité mesure le nombre de bits moyen nécessaires pour identifier un événement issu de l'« ensemble des événements » - encore appelé tribu en mathématiques - sur l'univers , si la distribution des événements est basée sur une loi de probabilité , relativement à une distribution de référence .
L'entropie croisée pour deux distributions et sur le même espace probabilisé est définie de la façon suivante :
où est l'entropie de , et est la divergence de Kullback-Leibler entre et .
Pour et discrets, cela signifie
La formule est analogue pour des variables aléatoires continues :
NB: La notation est parfois utilisées à la fois pour l'entropie croisée et l'entropie conjointe de et .
Minimisation de l'entropie croisée
La minimisation de l'entropie croisée est souvent utilisée en optimisation et en estimation de probabilité d'événements rares ; voir méthode de l'entropie croisée.
Quand on compare une distribution avec une distribution de référence , l'entropie croisée et la divergence de Kullback-Leibler sont identiques à une constante additive près (quand est fixé): les deux atteignent leur minimum lorsque , ce qui donne pour la divergence KL, et pour l'entropie croisée.
Cependant, comme expliqué dans l'article divergence de Kullback-Leibler, la distribution est parfois la loi fixée a priori, et la distribution est optimisée pour être la plus proche possible de , sous certaines contraintes. Dans ce cas les deux minimisations ne sont pas équivalentes. Cela conduit à des ambiguïtés dans la littérature, avec des auteurs tentant de réduire la confusion en définissant l'entropie croisée par plutôt que par .
Références
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Cross entropy » (voir la liste des auteurs).
- Portail des mathématiques