Règle 68-95-99,7

En statistique, la règle 68-95-99,7 (ou règle des trois sigmas ou règle empirique) indique que pour une loi normale, presque toutes les valeurs se situent dans un intervalle centré autour de la moyenne et dont les bornes se situent à 3 écarts-types de part et d'autre.

Illustration de la règle 68-95-99.7 (à partir d'une expérience réelle, ce qui explique l'asymétrie par rapport à la loi normale).

Environ 68,27 % des valeurs se situent à moins d'un écart-type de la moyenne. De même, environ 95,45 % des valeurs se situent à moins de 2 écarts-types de la moyenne. La quasi-totalité (99,73 %) des valeurs se situent à moins de 3 écarts-types de la moyenne.

En notation mathématique, ces faits peuvent être exprimés comme suit, où x est une observation d'une distribution normale d'une variable aléatoire, μ est la moyenne de la distribution, et σ est son écart-type :


La règle des trois sigmas exprime une heuristique fréquemment utilisée : la plupart des valeurs se situent à moins de trois fois l'écart-type de la moyenne. Pour de nombreuses applications pratiques, ce pourcentage de 99,7 % peut être considéré comme une quasi-certitude. L'usage de cette heuristique dépend cependant du domaine : ainsi en sciences sociales, un résultat est considéré comme significatif si son intervalle de confiance est au moins de 95 %, soit de l'ordre de deux sigmas, alors qu'en physique des particules, le seuil de significativité se situe autour de cinq sigmas (soit un intervalle de confiance à 99,99994 %).

La règle des trois sigmas est également applicable à d'autres distributions que la loi normale. En effet, l'inégalité de Bienaymé-Tchebychev permet d'affirmer que pour toute variable aléatoire, au moins 88,8 % des réalisations se situent dans un intervalle de trois sigmas.

Ces valeurs numériques (68 %, 95 % et 99,7 %) proviennent de la fonction de répartition de la loi normale.

Test de normalité

La règle 68-95-99,7 est souvent utilisée comme approximation de la probabilité d'un phénomène à partir de l'écart-type, sous l’hypothèse que la variable aléatoire sous-jacente suit une loi normale. On peut également l'utiliser pour éliminer des données aberrantes (sous l’hypothèse de normalité) ou inversement comme test de normalité si l'on suspecte que la variable aléatoire ne suit pas la loi normale.

Pour une réalisation donnée, on calcule la différence par rapport à l'espérance si elle est connue, ou bien par rapport à une estimation de celle-ci, puis on divise par l'écart-type (ou un de ses estimateurs). Sur un échantillon, on peut ainsi calculer la distance de chaque valeur par rapport à la moyenne en nombre de sigmas. Les valeurs éloignées de plus de trois sigmas sont vraisemblablement aberrantes (sauf si l'échantillon est suffisamment grand pour que les chances d'obtenir de telles valeurs deviennent significatives ). À l'inverse, un grand nombre de valeurs éloignées de plus de trois sigmas laissent à penser que la distribution des valeurs ne suit pas une loi normale.

Par exemple, une réalisation à six sigmas de la moyenne correspond à environ une chance sur 500 millions. En d'autres termes, sur un événement à fréquence journalière, on s'attend en moyenne à une telle réalisation tous les 1.4 million d'années. En conséquence, si l'on constate une telle valeur en moins d'un million d'années, soit cette valeur est aberrante, soit la distribution sous-jacente n'est pas une distribution normale.

Valeurs numériques

Étant donnée la décroissance exponentielle des queues de la distribution normale, les chances des déviations élevées décroissent très rapidement. Ces valeurs sont données pour une distribution normale, avec les fréquences moyennes des événements hors intervalle données pour un événement aléatoire à réalisation journalière.

IntervalleProportion de la population dans l'intervalle Probabilité approximative d'apparition d'un événement hors de l'intervalle Fréquence approximative pour une réalisation journalière
μ ± 0.5σ0,3829249225480262 sur 3Trois ou quatre fois par semaine
μ ± σ0,6826894921370861 sur 3Deux fois par semaine
μ ± 1.5σ0,8663855974622841 sur 7Une fois par semaine
μ ± 2σ0,9544997361036421 sur 22Une fois toutes les trois semaines
μ ± 2.5σ0,9875806693484481 sur 81Une fois par trimestre
μ ± 3σ0,9973002039367401 sur 370Une fois par an
μ ± 3.5σ0,9995347418419291 sur 2149Une fois tous les six ans
μ ± 4σ0,9999366575163341 sur 15 787Une fois tous les 43 ans (une à deux occurrences dans une vie)
μ ± 4.5σ0,9999932046537511 sur 147 160Une fois tous les 403 ans (une occurrence durant l'époque moderne)
μ ± 5σ0,9999994266968561 sur 1 744 278Une fois tous les 4776 ans (une occurrence depuis l'invention de l'écriture)
μ ± 5.5σ0,9999999620208751 sur 26 330 254Une fois tous les 72 090 ans (quatre occurrences depuis l'apparition d'Homo sapiens)
μ ± 6σ0,9999999980268251 sur 506 797 346Une fois tous les 1,38 million d'années (deux occurrences depuis Lucy)
μ ± 6.5σ0,9999999999196801 sur 12 450 197 393Une fois tous les 34 millions d'années (deux occurrences depuis la disparition des dinosaures)
μ ± 7σ0,9999999999974401 sur 390 682 215 445Une fois tous les 1,07 milliard d'années (quatre occurrences depuis la formation du Système solaire)
μ ± xσ1 sur Une fois tous les jours

Références

  • Portail des probabilités et de la statistique
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.