Réduction de la dimensionnalité
La réduction de la dimensionnalité (ou réduction de (la) dimension) est un processus étudié en mathématiques et en informatique, qui consiste à prendre des données dans un espace de grande dimension, et à les remplacer par des données dans un espace de plus petite dimension. Pour que l'opération soit utile il faut que les données en sortie représentent bien les données d'entrée.
Définition et buts
La réduction de dimensionnalité consiste à prendre des données dans un espace de grande dimension, et à les remplacer par des données dans un espace de plus petite dimension[1],[2].
La raison pour laquelle une telle opération est utile est que les données de plus petites dimension peuvent être traitées plus rapidement[1]. Cette opération est cruciale en apprentissage automatique par exemple, pour lutter contre le fléau de la dimension.
Approches
Il existe plusieurs approches pour faire cette opération, et plusieurs objectifs possibles à atteindre. Les méthodes classiques sont la sélection de caractéristiques qui consiste à sélectionner un ensemble de variables qui vont être conservées, et l'extraction de caractéristiques qui consiste à créer de nouvelles variables plus pertinentes[1]. Des méthodes plus récentes, qui se basent sur un processus de diffusion, permettent de réduire la dimension des données tout en préservant leurs structures locales et globales[3].
Notes et références
- Christian Gagné, « Réduction de la dimensionnalité », sur Université de Laval
- Hassan Chouaib, Sélection de caractéristiques : méthodes et applications (thèse de doctorat), (lire en ligne).
- (en) Kevin R. Moon, David van Dijk, Zheng Wang, Scott Gigante et al., « Visualizing structure and transitions in high-dimensional biological data », Nature Biotechnology, vol. 37, no 12, , p. 1482–1492 (ISSN 1546-1696, PMID 31796933, PMCID PMC7073148, DOI 10.1038/s41587-019-0336-3, lire en ligne, consulté le )
Articles connexes
- Portail de l'informatique théorique
- Portail des probabilités et de la statistique
- Portail des données