Règle 68-95-99,7
En statistique, la règle 68-95-99,7 (ou règle des trois sigmas ou règle empirique) indique que pour une loi normale, presque toutes les valeurs se situent dans un intervalle centré autour de la moyenne et dont les bornes se situent à 3 écarts-types de part et d'autre.
Environ 68,27 % des valeurs se situent à moins d'un écart-type de la moyenne. De même, environ 95,45 % des valeurs se situent à moins de 2 écarts-types de la moyenne. La quasi-totalité (99,73 %) des valeurs se situent à moins de 3 écarts-types de la moyenne.
En notation mathématique, ces faits peuvent être exprimés comme suit, où x est une observation d'une distribution normale d'une variable aléatoire, μ est la moyenne de la distribution, et σ est son écart-type :
La règle des trois sigmas exprime une heuristique fréquemment utilisée : la plupart des valeurs se situent à moins de trois fois l'écart-type de la moyenne. Pour de nombreuses applications pratiques, ce pourcentage de 99,7 % peut être considéré comme une quasi-certitude. L'usage de cette heuristique dépend cependant du domaine : ainsi en sciences sociales, un résultat est considéré comme significatif si son intervalle de confiance est au moins de 95 %, soit de l'ordre de deux sigmas, alors qu'en physique des particules, le seuil de significativité se situe autour de cinq sigmas (soit un intervalle de confiance à 99,99994 %).
La règle des trois sigmas est également applicable à d'autres distributions que la loi normale. En effet, l'inégalité de Bienaymé-Tchebychev permet d'affirmer que pour toute variable aléatoire, au moins 88,8 % des réalisations se situent dans un intervalle de trois sigmas.
Ces valeurs numériques (68 %, 95 % et 99,7 %) proviennent de la fonction de répartition de la loi normale.
Test de normalité
La règle 68-95-99,7 est souvent utilisée comme approximation de la probabilité d'un phénomène à partir de l'écart-type, sous l’hypothèse que la variable aléatoire sous-jacente suit une loi normale. On peut également l'utiliser pour éliminer des données aberrantes (sous l’hypothèse de normalité) ou inversement comme test de normalité si l'on suspecte que la variable aléatoire ne suit pas la loi normale.
Pour une réalisation donnée, on calcule la différence par rapport à l'espérance si elle est connue, ou bien par rapport à une estimation de celle-ci, puis on divise par l'écart-type (ou un de ses estimateurs). Sur un échantillon, on peut ainsi calculer la distance de chaque valeur par rapport à la moyenne en nombre de sigmas. Les valeurs éloignées de plus de trois sigmas sont vraisemblablement aberrantes (sauf si l'échantillon est suffisamment grand pour que les chances d'obtenir de telles valeurs deviennent significatives ). À l'inverse, un grand nombre de valeurs éloignées de plus de trois sigmas laissent à penser que la distribution des valeurs ne suit pas une loi normale.
Par exemple, une réalisation à six sigmas de la moyenne correspond à environ une chance sur 500 millions. En d'autres termes, sur un événement à fréquence journalière, on s'attend en moyenne à une telle réalisation tous les 1.4 million d'années. En conséquence, si l'on constate une telle valeur en moins d'un million d'années, soit cette valeur est aberrante, soit la distribution sous-jacente n'est pas une distribution normale.
Valeurs numériques
Étant donnée la décroissance exponentielle des queues de la distribution normale, les chances des déviations élevées décroissent très rapidement. Ces valeurs sont données pour une distribution normale, avec les fréquences moyennes des événements hors intervalle données pour un événement aléatoire à réalisation journalière.
Intervalle | Proportion de la population dans l'intervalle | Probabilité approximative d'apparition d'un événement hors de l'intervalle | Fréquence approximative pour une réalisation journalière |
---|---|---|---|
μ ± 0.5σ | 0,382924922548026 | 2 sur 3 | Trois ou quatre fois par semaine |
μ ± σ | 0,682689492137086 | 1 sur 3 | Deux fois par semaine |
μ ± 1.5σ | 0,866385597462284 | 1 sur 7 | Une fois par semaine |
μ ± 2σ | 0,954499736103642 | 1 sur 22 | Une fois toutes les trois semaines |
μ ± 2.5σ | 0,987580669348448 | 1 sur 81 | Une fois par trimestre |
μ ± 3σ | 0,997300203936740 | 1 sur 370 | Une fois par an |
μ ± 3.5σ | 0,999534741841929 | 1 sur 2149 | Une fois tous les six ans |
μ ± 4σ | 0,999936657516334 | 1 sur 15 787 | Une fois tous les 43 ans (une à deux occurrences dans une vie) |
μ ± 4.5σ | 0,999993204653751 | 1 sur 147 160 | Une fois tous les 403 ans (une occurrence durant l'époque moderne) |
μ ± 5σ | 0,999999426696856 | 1 sur 1 744 278 | Une fois tous les 4776 ans (une occurrence depuis l'invention de l'écriture) |
μ ± 5.5σ | 0,999999962020875 | 1 sur 26 330 254 | Une fois tous les 72 090 ans (quatre occurrences depuis l'apparition d'Homo sapiens) |
μ ± 6σ | 0,999999998026825 | 1 sur 506 797 346 | Une fois tous les 1,38 million d'années (deux occurrences depuis Lucy) |
μ ± 6.5σ | 0,999999999919680 | 1 sur 12 450 197 393 | Une fois tous les 34 millions d'années (deux occurrences depuis la disparition des dinosaures) |
μ ± 7σ | 0,999999999997440 | 1 sur 390 682 215 445 | Une fois tous les 1,07 milliard d'années (quatre occurrences depuis la formation du Système solaire) |
μ ± xσ | 1 sur | Une fois tous les jours |
Références
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « 68–95–99.7 rule » (voir la liste des auteurs).
- Portail des probabilités et de la statistique