Winsorisation

La winsorisation (winsorizing en anglais) est un procédé en statistiques visant à limiter l'impact de données aberrantes dans l'estimation d'un paramètre. Le nom winsorisation a été donné par John Tukey en l'honneur du biostatisticien Charles Winsor (en)[1].

Principe

Considérons un jeu de données numériques $X=(x_{1},...,x_{n})$ et une statistique $T(X)$ (la moyenne ou l'écart-type de $X$ par exemple). Winsoriser cette statistique revient à la calculer non pas sur le jeu de données original $X$ , mais sur un jeu de données modifié où une proportion $\alpha$ des valeurs les plus extrêmes sont "écrasées" sur les quantiles de niveaux ${\frac {\alpha }{2}}$ et $1-{\frac {\alpha }{2}}$ [2]. La proportion $\alpha$ doit être choisie par le statisticien en fonction de la robustesse souhaitée (un choix courant est $\alpha =0,05$ ).

Plus formellement, définissons $X'=(x'_{1},...,x'_{n})$ par

x'_{i}={\begin{cases}q_{\frac {\alpha }{2}}(X)&{\text{ si }}x_{i}<q_{\frac {\alpha }{2}}(X)\\x_{i}&{\text{ si }}q_{\frac {\alpha }{2}}<x_{i}<q_{1-{\frac {\alpha }{2}}}(X)\\q_{1-{\frac {\alpha }{2}}}(X)&{\text{ si }}x_{i}>q_{1-{\frac {\alpha }{2}}}(X)\end{cases}}

où $q_{\frac {\alpha }{2}}(X)$ et $q_{1-{\frac {\alpha }{2}}}(X)$ désignent les quantiles des données $X$ de niveaux ${\frac {\alpha }{2}}$ et $1-{\frac {\alpha }{2}}$ . Alors la statistique winsorisée de $T(X)$ est $T(X')$ .

Exemple

Prenons $\alpha =0,1$ et considérons le jeu de données suivant

X=(92;19;101;58;\mathbf {1053} ;91;26;78;10;13;\mathbf {-40} ;101;86;85;15;89;89;28;-5;41)

le quantile de $X$ à 5% est $-5$ et le quantile à 95% est $101$ .

Construisons le jeu de données :

X'=(92;19;101,58,\mathbf {101} ,91,26,78,10,13,\mathbf {-5} ,101,86,85,15,89,89,28,-5,41)

en remplaçant les valeurs inférieures à $-5$ par $-5$ et celles supérieures à $101$ par $101$ .

Pour calculer des statistiques sur $X$ winsorisées à 90%, il suffit alors de les calculer sur $X'$ :

la moyenne winsorisée à 90% de $X$ (c'est-à-dire la moyenne de $X'$ ) est de $55,65$ , alors que la moyenne non winsorisée de $X$ est de $101,5$ .

la variance winsorisée à 90% de $X$ (c'est-à-dire la variance de $X'$ ) est de $1545.6$ , alors que la variance non winsorisée de $X$ est de $51865,4$ .

la statistique T winsorisée à 90% pour effectuer un test de Student sur l'hypothèse $H_{0}:\mu =0$ est de ${\sqrt {20}}{\frac {55.65}{\sqrt {1545.6}}}=6.33$ et donne une p-value de $4,484\times 10^{-06}$ . Non winsorisée, la statistique T donne $1,9932$ et la p-value $0,0608$ . On remarque que les conclusions du test sont différentes pour un niveaux de 5% ou moins. Le test winsorisé est plus fiable dans ce cas, car il n'est pas souhaitable que deux observations seulement parmi les 20 puissent déterminer l'issue du test.

la médiane winsorisée à 90% de $X$ est de $68$ , de même que la médiane non winsorisée.

Propriétés

La statistique winsorisée est plus robuste que la statistique originale, au sens que sa valeur sera moins influencée par les valeurs extrêmes.

Il est aisé de voir que le point de rupture (en) d'une statistique winsorisée est de $\alpha$ [3].

En pratique

Différentes fonctions permettent de winsoriser des données :

sous R, la fonction Winsorize de la librarie DescTools.
sous Python, la fonction mstats.winsorize de la librairie scipy.stats.
sous Excel, la fonction WINSORIZE de la librairie Real Statistics Resource Pack.

Références

(en) Graham Upton et Ian Cook, Oxford Dictionnary of Statistics, 2014
(en) John W. Tukey, « The Future of Data Analysis », The Annals of Mathematical Statistics, vol. 33, n^o 1,‎ 1962, p. 1-67 (lire en ligne)
(en) W. J. Dixon, « Simplified Estimation from Censored Normal Samples », The Annals of Mathematical Statistics, vol. 31, n^o 2,‎ 1960, p. 385-391 (lire en ligne)

voir aussi

Liens externes

(en) Cecil Hastings, Jr., Frederick Mosteller, John W. Tukey et Charles P. Winsor, « Low Moments for Small Samples: A Comparative Study of Order Statistics », The Annals of Mathematical Statistics, vol. 18, n^o 3,‎ 1947, p. 413-426 (lire en ligne)

Portail des probabilités et de la statistique

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.

[1] (en) Graham Upton et Ian Cook, Oxford Dictionnary of Statistics, 2014

[2] (en) John W. Tukey, « The Future of Data Analysis », The Annals of Mathematical Statistics, vol. 33, n^o 1,‎ 1962, p. 1-67 (lire en ligne)

[3] (en) W. J. Dixon, « Simplified Estimation from Censored Normal Samples », The Annals of Mathematical Statistics, vol. 31, n^o 2,‎ 1960, p. 385-391 (lire en ligne)