Kappa de Fleiss
Kappa de Fleiss (nommé d'après Joseph L. Fleiss) est une mesure statistique qui évalue la concordance lors de l'assignation qualitative d'objets au sein de catégories pour un certain nombre d'observateurs. Cela contraste avec d'autres kappas tel que le Kappa de Cohen, qui ne fonctionne que pour évaluer la concordance entre deux observateurs. La mesure calcule le degré de concordance de la classification par rapport à ce qui pourrait être attendu si elle était faite au hasard. Il n'y a pas de mesure significative convenue, bien que certaines lignes directrices aient été données.
Le Kappa de Fleiss peut être utilisé pour la classification binaire ou nominale. Il n'y a pas de version disponible pour les classifications de type ordonnée telles que celle de Likert.
Introduction
Le kappa de Fleiss est une généralisation de la statistique du Pi de Scott, Scott, W. (1955)[1], une mesure statistique de concordance[2]. Il est également lié à l'indicateur kappa de Cohen. Mais tandis que le Pi de Scott et le kappa de Cohen fonctionnent pour seulement deux observateurs, le kappa de Fleiss fonctionne pour n'importe quel nombre d'observateurs donnant une classification nominale, à un nombre fixe d'éléments. Il peut être interprété comme exprimant à quel point la valeur de concordance observée parmi les observateurs dépasse ce qui aurait pu être attendu si tous les observateurs avaient fait leur classification totalement au hasard. Il est important de noter que tandis que le kappa de Cohen considère que les deux mêmes observateurs classent un ensemble d'éléments, le kappa de Fleiss considère spécifiquement que bien qu'il y ait un nombre fixe d'observateurs (par exemple 3) par élément, les observateurs classant chaque élément sont sélectionnés aléatoirement (Fleiss, 1971, p. 378). Cela signifie que l'élément 1 est classé par les Observateurs A, B et C; mais l'élément 2 pourrait être classé par les Observateurs D, E et F. A fortiori, les éléments ne peuvent pas avoir tous été classifiés par exactement les mêmes sujets[3]. La concordance peut être considérée comme suit, si un nombre fixe de personnes assigne des classes numériques à un nombre d'éléments, alors le kappa va donner une mesure de la fiabilité de la classification. Kappa, , peut être défini comme,
(1)
Le facteur donne le degré de concordance qui est réalisable au-delà du hasard, et, donne le degré de concordance réellement atteint au-dessus du hasard, si les observateurs sont en accord complet, alors . S'il n'y a pas de concordance parmi les observateurs (autre que ce qui aurait pu être atteint par hasard) alors .
Un exemple d'utilisation du Kappa de Fleiss peut être le suivant: Considérons qu'un groupe de m psychiatres (avec m>14) doivent observer 10 patients. Pour chacun des patients 14 des psychiatres donne un des cinq diagnostics possibles. Le kappa de Fleiss peut être calculé par la matrice (voir l'exemple ci-dessous) pour montrer le degré de concordance entre les psychiatres au-dessus du niveau de concordance attendu si réalisé au hasard.
Équations
Soit N le nombre total de sujets, soit n le nombre de classification par sujet, et soit k le nombre de catégorie dans laquelle les attributions sont faites. Les sujets sont indexés par i = 1, ... N les catégories sont indexées par j = 1, ... k. Soit nij qui représente le nombre d'observateurs qui attribuent le i-ème sujet à la j-ème catégorie.
Calculons d'abord pj, la proportion de toutes les attributions à la j-ème catégorie:
(2)
Calculons maintenant , qui représente à quel point les observateurs sont d'accord entre eux pour le i-ème sujet (c-à-d, combien d'observateurs--paires d'observateurs sont en accord comparativement au nombre total de l'ensemble des paires observateur-observateur possibles):
(3)
Maintenant calculons , la moyenne de 's, et utilisé dans la formule de :
(4)
(5)
Exemple d'utilisation
1 | 2 | 3 | 4 | 5 | ||
---|---|---|---|---|---|---|
1 | 0 | 0 | 0 | 0 | 14 | 1.000 |
2 | 0 | 2 | 6 | 4 | 2 | 0.253 |
3 | 0 | 0 | 3 | 5 | 6 | 0.308 |
4 | 0 | 3 | 9 | 2 | 0 | 0.440 |
5 | 2 | 2 | 8 | 1 | 1 | 0.330 |
6 | 7 | 7 | 0 | 0 | 0 | 0.462 |
7 | 3 | 2 | 6 | 3 | 0 | 0.242 |
8 | 2 | 5 | 3 | 2 | 2 | 0.176 |
9 | 6 | 5 | 2 | 1 | 0 | 0.286 |
10 | 0 | 2 | 2 | 3 | 7 | 0.286 |
Total | 20 | 28 | 39 | 21 | 32 | |
0.143 | 0.200 | 0.279 | 0.150 | 0.229 | ||
Dans l'exemple suivant, 10 "sujets" () se voient attribuer chacun par 14 observateurs () un total de 5 catégories (). Les catégories sont reprises dans les colonnes, tandis que les sujets sont présentés dans les lignes. Chaque case donne le nombre d'observateurs qui sont d'accord sur le fait qu'un sujet appartienne à une certaine catégorie.
Données
Voir le tableau à droite.
= 10, = 14, = 5
Somme des cases = 140
Somme de = 3.780
Calculs
Par exemple, en prenant la première colonne,
Et en prenant la seconde ligne,
Pour calculer , nous devons connaitre ,
À travers l'ensemble de la page,
Interprétation
Landis et Koch (1977) ont donné le tableau suivant pour interpréter la valeur de [4]. Cependant ce tableau n'est "en aucun cas universellement accepté. Il ne donne aucune preuve de soutenir cela, se basant plutôt sur des opinions personnelles. Il a été remarqué que ces lignes directrices pourraient être plus dangereuses qu'aidantes[5], puisque le nombre de catégories et de sujets vont affecter l'importance de la valeur. Le kappa va être supérieur quand il y a moins de catégories[6].
Interprétation | |
---|---|
< 0 | Pauvre concordance |
0.01 – 0.20 | Faible concordance |
0.21 – 0.40 | Légère concordance |
0.41 – 0.60 | Concordance moyenne |
0.61 – 0.80 | Concordance importante |
0.81 – 1.00 | Concordance presque parfaite |
Notes et références
- "Reliability of content analysis: The case of nominal scale coding." Public Opinion Quarterly, Vol. 19, No. 3, p. 321–325
- Fleiss, J. L. (1971) "Measuring nominal scale agreement among many raters." Psychological Bulletin, Vol. 76, No. 5 p. 378–382
- Kevin A. Hallgren, « Computing Inter-Rater Reliability for Observational Data: An Overview and Tutorial », Tutorials in Quantitative Methods for Psychology, vol. 8, , p. 23–34
- Landis, J. R. and Koch, G. G. (1977) "The measurement of observer agreement for categorical data" in Biometrics. Vol. 33, p. 159–174
- Gwet, K. (2001) Statistical Tables for Inter-Rater Agreement. (Gaithersburg : StatAxis Publishing)
- Sim, J. and Wright, C. C. (2005) "The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements" in Physical Therapy. Vol. 85, No. 3, p. 257–268
Lectures approfondies
- Fleiss, J. L. and Cohen, J. (1973) "The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability" in Educational and Psychological Measurement, Vol. 33 p. 613–619
- Fleiss, J. L. (1981) Statistical methods for rates and proportions. 2nd ed. (New York: John Wiley) p. 38–46
- Gwet, K. L. (2008) "Computing inter-rater reliability and its variance in the presence of high agreement", British Journal of Mathematical and Statistical Psychology, Vol. 61, p. 29–48
- Gwet, K. L. (2010) Handbook of Inter-Rater Reliability (2d Edition). (Gaithersburg : Advanced Analytics, LLC) (ISBN 978-0-9708062-2-2)
Liens externes
- Kappa: Pros and Cons contient une bonne bibliographie d'articles sur les coefficients.
- Online Kappa Calculator calcule les variations du kappa de Fleiss
- Online inter-rater agreement calculator inclus Fleiss' kappa.
- Portail des probabilités et de la statistique