Lemme de symétrisation
Le lemme de symétrisation (ou lemme de symétrisation de Vapnik-Tchervonenkis) est un résultat en théorie de probabilités proposée par Vladimir Vapnik et Alexeï Tchervonenkis. Au lieu de comparer la mesure empirique avec la mesure théorique (qui est souvent non connue) ce lemme permet de comparer cette mesure avec une copie indépendante d'elle-même.
Énoncé
Il existe différents énoncés de ce lemme : Pollard utilise la version de la symétrisation avec des processus stochastiques[1] mais il existe des versions faisant intervenir l'erreur de généralisation d'un échantillon[2]. Soit des processus stochastiques indépendants indexés par un ensemble . Supposons qu'il existe des constantes tel que
Alors,
En particulier en posant
- où est la mesure empirique et la loi des variables aléatoires indépendantes et identiquement distribuées sur laquelle la mesure empirique est basée, i.e.
et avec la fonction de répartition de Y ; - où est la mesure empirique basée sur une copie des variables précédentes ;
- ,
on obtient que
Démonstration
On note un élément de pour lequel (i.e. ). Puisqu'il dépend de est indépendant de et donc conditionnellement à il agit comme un élément de fixé :
En intégrant :
Références
- (en) David Pollard, Convergence of stochastic processes, Springer Series in Statistics, p. 14
- Massih-Reza Amini, Apprentissage machine de la théorie à la pratique, Eyrolles, p. 16-17
- Portail des mathématiques
- Portail des probabilités et de la statistique