Indice de Calinski-Harabasz

L'indice de Calinski-Harabasz est une mesure de qualité d'une partition d'un ensemble de données en classification automatique

C'est le rapport entre la variance inter-groupes et la variance intra-groupe.

Il se rapproche beaucoup du critère utilisé pour stopper certains algorithmes de partitionnement, comme les K-means. De tels algorithmes vont donc maximiser ce score, par construction.

Une alternative à l'indice de Calinski-Harabasz est l'indice de Dunn ou encore l'indice de Davies-Bouldin.

Expression

Position du problème

Si l'on note la matrice des données, dont chaque ligne correspond à un individu (ou observation) et chaque colonne correspond à un prédicteur (ou variable). On note le nombre d'individus et le nombre de prédicteurs :

Notons la dissimilarité entre les individus et (respectivement, ligne et de ). Notons le nombre de groupes que l'on souhaite former.

Un algorithme de partitionnement donnera une fonction d'attribution dont on cherche à évaluer la pertinence par un score. L'ensemble des points appartenant à un groupe est alors donné par .

Expression de l'indice de Calinski-Harabasz

Notons le point moyen du groupe et le point moyen de tout le nuage. L'indice (ou score) de Calinski-Harabasz, , se base sur la variance inter-groupes et les variances intra-groupes .

Il aura pour expression[1] :


Propriétés

Domaine de variation

L'indice de Calinski-Harabasz varie entre 0 (pire classification) et (meilleure classification). Il dépend fortement de (le nombre de points dans l'échantillon). Toutes choses égales par ailleurs, il croit linéairement avec . Par conséquent, son ordre de grandeur peut varier considérablement d'un jeu de données à l'autre.

Complexité


Notes et références

  1. (en) « Clustering Indices », sur cran.r-project.org (consulté le )

Voir aussi

  • Portail des mathématiques
  • Portail de l'informatique théorique
  • Portail des probabilités et de la statistique
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.