Méthode médiane-médiane
La méthode médiane-médiane, également appelée droite robuste de Tukey (resistant line), est une méthode de régression linéaire à deux dimensions[1]. Le terme « robuste » provient du fait que la méthode utilise le calcul de médianes, qui, contrairement au carré de la distance utilisé dans la méthode des moindres carrés, est peu perturbé par la présence de points aberrants.
Historique
La première méthode de régression par les médianes est proposée par Wald en 1940[2]. La méthode consiste à
- Séparer l'échantillon en deux parties égale selon la médiane de x ; une à gauche et une à droite.
- Calculer le centre de gravité (isobarycentre) de chacune des parties, (xG, yG) et (xD, yD).
- La droite retenue passe par ces deux points.
En 1942, Nair et Shrivastava[3] proposent une méthode similaire mais en divisant l'échantillon en trois parties selon les terciles. Les barycentres sur la partie de gauche et celle de droite servent à déterminer la pente de la droite de régression, et le barycentre de la partie centrale sert à ajuster l'ordonnée à l'origine.
En 1951, Brown and Mood[4] reprennent la méthode de Wald, mais remplacent le barycentre par le calcul des médianes en x et en y. En 1971, Tukey[5] s'inspire de ces méthodes pour proposer sa « droite robuste ».
Exposé de la méthode
Considérons un nuage de points (xi, yi)1 ≤ i ≤ n, supposées corrélées linéairement :
- y = β0 + β1x + ε
Nous séparons ce nuage en trois parties égales selon les terciles des x. Pour chacune des trois régions, notées de gauche à droite I, II et III, nous calculons la médiane des x et des y, ce qui donne trois points notées , et .
Les points extrêmes MI et MIII servent à calculer la pente de la droite. On a donc
Puis, on considère la droite (MIMIII), et la droite parallèle à celle-ci mais passant par le point MII. La droite de régression que l'on retient passe entre ces deux droites, au tiers de la distance du côté de la droite (MIMIII). L'ordonnée à l'origine est donc :
Avantages et inconvénients
La méthode médiane-médiane peut être mise en œuvre de la manière suivante[1] : elle nécessite peu de calcul, essentiellement un système de classement. Après avoir rangé les points selon les valeurs croissantes de x, on découpe l'échantillon en trois parts de taille égale. Sur chaque part,on effectue deux découpages:
- le premier sur les valeurs de x (déjà rangées en ordre croissant) - on découpe la population en deux pour trouver le terme médian en x
- le seconde sur les valeurs de y (qu'il faut ranger en ordre croissant) - on découpe la population en deux pour trouver le terme médian en y
Elle est simple à comprendre et à mettre en œuvre quand l'échantillon est de petite taille, et donc peut être appliquée par des personnes ne possédant pas de notions de statistiques ; cela permet par exemple d'introduire la notion de régression linéaire assez tôt dans les études.
Comme déjà énoncé, cette méthode est peu perturbée par des points aberrants.
Par contre, elle ne s'applique qu'aux problèmes à deux variables, et ne permet pas de déterminer l'incertitude sur les valeurs β0 et β1 obtenues. En particulier, elle ne permet pas de faire les tests de non nullité.
Notes et références
- (en) Elizabeth J. Walters, Christopher H. Morrell et Richard E. Auer, « An Investigation of the Median-Median Method of Linear Regression », Journal of Statistics Education, vol. 14, no 2, (lire en ligne)
- Abraham Wald, « The Fitting of Straight Lines if Both Variables Are Subject to Error », Annals of Mathematical Statistics, no 11, , p. 282-300.
- K. R. Nair et M. P. Shrivastava, « On a Simple Method of Curve Fitting », Sankhaya, no 6, , p. 121-132
- G. W. Brown et A. M. Mood, « On Median Tests for Linear Hypotheses », Proceedings of the Second Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, University of California Press, , p. 159-166
- J. W. Tukey, Exploratory Data Analysis, Reading, Addison-Wesley,