Hypothèse statistique
À la différence de l'exploration de données (data mining), les méthodes de statistiques classiques exigent de se fixer une hypothèse de façon préalable à tout travail. Cet article présente cette notion d’hypothèse et en donne quelques exemples.
Hypothèse générale
L’hypothèse est une explication anticipée, une affirmation provisoire qui décrit ou explique un phénomène. Elle est une prédiction consistant à mettre en relation une variable et un comportement. Elle s’exprimera toujours sous la forme « telle variable a tel effet sur tel comportement ». Cette prédiction peut naître soit de l’observation, soit de données précédemment recueillies, soit d’une théorie qu’elle va tenter de valider. Elle s’exprimera alors sous la forme suivante : « si telle théorie est juste dans telle situation il se produira tel phénomène ». Une bonne hypothèse est une prédiction précise qui peut être opérationnelle et de façon simple. Une hypothèse ne peut prédire une conséquence et son contraire. Une prédiction irréfutable ne saurait être une hypothèse scientifique. Avec Popper, il faut rappeler que la réfutabilité est la qualité de toutes hypothèse scientifique. La transcription statistique de l'hypothèse est souvent disposée de façon qu'on essaie de réfuter ce qu'on pense faux (H0). Exemple : si on croit que deux populations sont différentes sur un certain paramètre (la moyenne), l'hypothèse nulle sera H0: les deux moyennes sont égales. L'hypothèse nulle sera testée de manière statistique afin de décider si on la rejette (réfutation).
Hypothèse opérationnelle
L’hypothèse opérationnelle précise l’hypothèse générale. Elle se présente comme l’exemple concret d’application de l’hypothèse générale. Reprend le même schéma mais en précisant les variables et les comportements qui seront étudiés dans l'expérience. L'hypothèse opérationnelle consiste donc à prédire l'effet du ou des facteurs (variables indépendantes) manipulé(s) dans l'expérience sur le ou les indicateurs (variables dépendantes) du comportement étudié par le chercheur. La qualité principale d’une hypothèse générale est de pouvoir être opérationnalisée. Des hypothèses trop vagues ou trop générales ne pourront évidemment pas générer des hypothèses opérationnelles. Seules les hypothèses ayant des implications concrètes pouvant être l’objet d’observations pourront être retenues. Pour renforcer des hypothèses opérationnelles, il faut prendre des décisions. Ces décisions reviennent à donner une forme concrète avec force de l’hypothèse. On dit qu’il s’agit d’opérationnaliser les éléments théoriques. Pour cela il faut introduire la VI, la VD et une prédiction.
Exemples :
- « L’avancée en âge diminue les performances mnésiques »
- Les personnes de plus de 50 ans ont de moins bonnes performances à un test de rappel libre (mémorisation de 10 mots) que les personnes de moins de 50.
- Les personnes se situant dans la classe d’âge 50-70 ans ont de moins bonnes performances à une tâche de rappel d’informations spatiales (placer des points de repères sur une carte) que les personnes se situant dans la classe d’âge 20-40 ans.
- « Les voitures françaises sont moins chères que les voitures allemandes »
- Les Citroën sont moins chères que les BMW
- Les Peugeot sont moins chères que les Mercedes
Variable indépendante
La variable indépendante est contextuelle à la modélisation statistique. De façon générale c'est une variable ou facteur explicatif. Exemple, si nous essayons d'expliquer la taille des gens selon leur âge, nous dirons que l'âge est la variable indépendante pour cette analyse.
Variable dépendante
De la même façon que pour une variable indépendante, la notion de variable dépendante est relative au modèle statistique utilisé. La variable dépendante est la variable qu'on cherche à expliquer à l'aide de variables indépendantes.
Variable parasite
Le but de l’expérimentateur est de faire la preuve sans ambiguïté de l’effet de telle VI sur telle variable dépendante. Pour ce faire, il s’agirait d’avoir des groupes de sujets équivalents en tous points hormis les différences induites par les modalités de la variable indépendante. En d’autres termes, il faudrait manipuler une variable indépendante et maîtriser toutes les autres. Les variables indépendantes à maîtriser ou variable parasites (VP) sont très nombreuses et souvent inconnues. Ainsi on essaie de contrôler les variables parasites dont le chercheur sait ou présume l’effet sur la variable dépendante. Les variables parasites fréquemment contrôlées sont : - Les caractéristiques du sujets : le sexe, l’âge, appartenance religieuse, politique ou culturelle. - Variable « expérimentateur » : lorsque plusieurs expérimentateurs recueillent des données, lorsque le sujet fait plusieurs tâches ou plus généralement appartient à plusieurs groupes expérimentaux. Par exemple : si je m’intéresse aux performances dans différents tests de mémoire, il est important de conserver le même ordre de passage pour tous les sujets.
Comment éliminer les effets des variables parasites ? Les variables parasites contrôlées s’appellent variables contrôles. Toutefois, toutes les variables parasites ne peuvent être contrôlées. On peut, par exemple, maintenir son effet constant sur la variable dépendante c’est-à-dire en considérant qu’une seule de ses modalités.
Par exemple : si le sexe a un effet sur la performance mnésique à des tests spatiaux, ne prendre que des groupes homogènes, soit uniquement des hommes, soit uniquement des femmes.
- Portail des probabilités et de la statistique