Maximum de parcimonie

Les méthodes de maximum de parcimonie, ou plus simplement méthodes de parcimonie ou encore parcimonie de Wagner, sont une méthode statistique non-paramétrique très utilisée, notamment pour l'inférence phylogénétique. Cette méthode permet de construire des arbres de classification hiérarchique après enracinement, lesquels permettent d'obtenir des informations sur la structure de parenté d'un ensemble de taxons. Sous l'hypothèse du maximum de parcimonie, l'arbre phylogénétique « préféré » est celui qui requiert le plus petit nombre de changements évolutifs. Ce mode de regroupement est aussi utilisé en écologie sur du matériel actuel ou fossile, ainsi qu'en synécologie entre autres [réf. nécessaire].

Concept

La parcimonie appartient à un ensemble de méthodes phylogénétiques fondées sur l'utilisation d'une matrice de caractères discrets qui permet d'inférer un ou plusieurs arbres optimaux pour un jeu de données, un ensemble de taxa donné (traditionnellement un ensemble d'espèces ou des populations isolées reproductivement, au sein d'une même espèce). Ces méthodes ont pour objet d'inférer des topologies phylogénétiques, fondées sur un critère d'optimalité explicite. Un score, est calculé pour chaque arbre et le, ou les arbres possédant les meilleurs scores sont retenus comme ceux fournissant la meilleure, la plus parcimonieuse, estimation des relations phylogénétiques entre les taxa inclus dans l'analyse. Le maximum de parcimonie est utilisé, ou peut être utilisé dans la plupart des analyses phylogénétiques. Jusqu'à une époque récente, c'était la seule méthode utilisée pour l'estimation phylogénétique pour des données morphologiques.

L'estimation phylogénétique n'est pas un problème simple. Un nombre exponentiel d'arbres aux topologies différentes est obtenu quand on augmente le nombre de taxa inclus dans l'analyse. Par exemple, plus de trois millions d'arbres non-racinés peuvent être obtenus à partir de dix espèces (10!=3 628 800). Selon le critère d'optimalité de la parcimonie, c'est-à-dire en cherchant à minimiser le nombre de changements évolutifs, le ou les arbres ajustant (best fit) au mieux les données sont recherchés. Cependant, les données elles-mêmes ne suivent pas une règle simple, arithmétique, d'évolution. La méthode de maximum de parcimonie, ne vise qu'à obtenir une topologie minimisant le nombre de pas évolutifs pour un jeu de données donné. Idéalement, nous devrions espérer que ces caractères (traits phénotypiques, allèles, etc.) s'accordent à un patron d'évolution donné. Dans ce cas, nous pourrions dire si deux organismes, ou deux taxa donnés, possèdent un caractère partagé, et donc s'ils sont plus proches deux à deux, qu'un tiers taxon qui ne possèderait pas ce caractère (si ce caractère est présent chez l'ancêtre commun, alors on parle de symplésiomorphie).

Par exemple, en utilisant ce critère de parcimonie on peut dire que les chauves-souris et les singes sont plus proches phylogénétiquement parlant que les poissons puisqu'ils possèdent tous deux des poils, phanères caractéristiques de la classe des Mammifères (c'est une synapomorphie). Cependant, on ne peut dire que les chauves-souris et les singes sont plus proches parents deux à deux, qu'ils ne le sont des baleines car l'ancêtre hypothétique commun de ces trois groupes possède également le caractère poil.

Cependant les phénomènes biens connus de convergence évolutive, d'évolution parallèle et de réversions évolutives - collectivement dénommés homoplasies - rajoutent un problème délicat pour l'inférence phylogénétique. Pour un grand nombre de raisons, un trait peut très bien ne pas être présent chez l'ancêtre commun : si nous prenons la présence d'un trait particulier comme preuve d'une relation évolutive, nous allons reconstruire un arbre incorrect. Les données phylogénétiques réelles incluent une proportion substantielle d'homoplasie, et différentes partitions du jeu de données suggèrent souvent des topologies et donc des relations phylogénétiques bien différentes. Les méthodes utilisées en inférence phylogénétique tendent explicitement à résoudre ces conflits dans le signal phylogénétique en ne retenant que le ou les arbres phylogénétiques qui ajustent (fittent) globalement l'intégralité des données, en acceptant que certaines composantes du jeu de données ne s'ajustent tout simplement pas aux relations, c'est-à-dire aux topologies phylogénétiques inférées.

Les données qui ne s'ajustent pas parfaitement à l'arbre phylogénétique obtenu, peuvent contenir autre chose qu'un simple bruit au sens statistique du terme. Dans l'exemple précédent des baleines, l'absence de poils est homoplastique : cela reflète un retour aux conditions « ancestrales » des amniotes, qui n'avaient pas de poils. Cette similarité est partagée avec l'ancêtre des amniotes, comprenant les mammifères, et est en conflit avec l'arbre que nous devons obtenir (c'est-à-dire celui faisant des Cétacés une famille de Mammifères), puisque sur la base de ce seul critère, nous devrions constituer un groupe évolutif excluant les Cétacés du groupe des mammifères à poils. Cependant parmi les Cétacés, cette réversion vers le caractère « absence de poils » est partagé entre différents membres de cétacés (par exemple, les dauphins).

La détermination de l'arbre « correct » et en particulier avec ce genre de données conflictuelles est un processus complexe. Le maximum de parcimonie est l'une des méthodes développées pour cela.

Type de données traitées par maximum de parcimonie

Les jeux de données de maximum de parcimonie sont sous la forme de caractères pour un ensemble de taxa donné. Il n'y a pas de consensus général sur ce qu'est un caractère phylogénétique, mais, pratiquement, un caractère peut être un attribut, un axe dans lequel les taxas observés varient. Ces attributs peuvent être morphologiques, moléculaires / génétiques, physiologiques, comportementaux, etc. Le seul consensus est de considérer des variations de caractères héritables, car l'on vise à inférer des patrons évolutifs entre les unités opérationnelles considérées. La question de savoir si cette héritabilité doit être directe (un allèle par exemple), ou indirecte (un comportement appris, ou culturel) n'est ni consensuelle, ni résolue.

Chaque caractère est divisé en catégories discrètes ou états de caractères, dans lesquelles les variations observées peuvent être catégorisées. Les états de caractères sont souvent descriptifs du substrat considéré pour le caractère. Par exemple, le caractère « couleur des yeux » peut avoir les états bleu, marron, noir, etc. Les caractères considérés peuvent avoir un ou plusieurs états (ils peuvent n'en posséder qu'un seul, mais dans ce cas précis aucune variation n'étant observable, aucune information ne peut en être extraite, et pour cette raison sont généralement exclus de l'analyse).

Les caractères d'une analyse phylogénétique ne sont pas une science exacte, et il y a souvent plusieurs façons de traiter le même jeu de données. Par exemple, deux taxa peuvent présenter le même état de caractère, s'ils sont entre eux extrêmement proches qu'ils ne le sont des autres taxa, dans leur ensemble. Il est problématique de coder certains états de caractères, dont l'attribution à telle ou telle classe est ambigüe, voire subjective (par exemple des yeux verts, dans l'exemple précédent). Souvent un codage, différent, mais approprié dans le contexte de l'étude peut permettre de résoudre sans ambiguïté ce problème, pour des états de caractères comme la couleur des yeux. Par exemple les yeux verts peuvent être classés dans une nouvelle catégorie yeux clairs, comprenant également les yeux bleus ; et l'on fera de même une nouvelle catégorie yeux foncés, qui regroupera noir, marron, etc.

Ce genre d'ambiguïtés pour des données morphologiques, ou continues, sont souvent une source majeure de querelle, de confusion et d'erreur dans le traitement du jeu de données. Pour pallier ce genre d'attributions, un nouvel état de caractère peut être défini, notons-le « ? ». L'algorithme qui traitera le jeu de donnée ne considèrera pas cet état de caractère, pour cet individu, et l'erreur possible, mais pas systématique, pourra être évitée. Le "?" prendra la valeur qui diminuera le nombre de pas sur l'arbre lorsqu'il sera traité dans l'analyse.

Les données moléculaires ou génétiques sont particulièrement adaptées pour l'analyse phylogénétique, par maximum de parcimonie. En effet les états de caractères d'une séquence nucléotidique sont discrets : 4 bases et éventuellement un 5e état de caractère : une insertion/délétion. Ainsi, les quatre états de caractères retrouvés seront les 4 bases nucléotidiques à savoir l'adénine, la thymine (ou l'uracile pour une séquence d'ARN), la guanine, et la cytosine. Une insertion délétion peut être observée lors de l'alignement de séquences, dans ce cas on code avec un 5e état de caractère, généralement noté « - ». Cet état de caractère ne doit pas être confondu avec le ? qui signale une incertitude ou une donnée manquante, ou une aberration, etc. Ici, un indel est une donnée évolutive à part entière, pouvant être héritée, partagée avec d'autres espèces dérivées, etc. Il n'y a pas de consensus strict sur la façon de coder les indels, cependant, on voit l'assignation pour chaque caractère (chaque position sur la séquence d'ADN ou d'ARN, d'un état, est rarement ambigüe).

Les états de caractères peuvent être traités en les ordonnant ou pas. Pour un caractère binaire, de type présence vs. absence, cela ne fait aucune différence. En revanche, si l'on considère un caractère multi-états, et si l'on dispose d'un contexte en termes de nombres de pas évolutifs, alors on peut coder cela. Par exemple, dans un groupe de plantes, si l'on sait que la séquence blanc → pourpre pour la corolle passe nécessairement par l'état de caractère rose, alors on peut tirer un signal phylogénétique substantif en considérant la transition blanc → rose comme un pas évolutif, comme pour la transition rose → pourpre . La transition blanc → pourpre sera donc plus coûteuse en termes évolutifs et coutera ici deux pas. Pour certains caractères, il est difficile de savoir s'il est préférable d'ordonner ou pas, et comment ordonner. Au contraire, pour les caractères représentant la discrétisation d'une variable continue (forme, taille, rapports), un ordonnancement linéaire est logique[1] et des simulations ont démontré que cela augmente la capacité à trouver les bons clades, tout en diminuant le nombre de clades artéfactuels.[2],[3],[4]

Échantillonnage

Le temps machine requis pour une analyse en maximum de parcimonie (comme pour les autres méthodes) est proportionnel au nombre de taxa et de caractères inclus dans l'analyse. Ainsi, puisque plus de taxa requièrent plus de branchements et de topologies à estimer, une plus grande incertitude doit être attendue dans les analyses de grande ampleur. L'échantillonnage des taxa (et leur séquençage a fortiori) est coûteux en temps et en argent, la plupart des analyses phylogénétiques n'incluent qu'une fraction des taxa qui auraient pu être échantillonnés.

Des études empiriques, théoriques et des simulations ont conduit à démontrer l'importance capitale d'un échantillonnage rigoureux et adéquat. Ceci peut être résumé dans l'énoncé suivant : une matrice phylogénétique a pour dimension nombre de taxa x nombre de caractères. Doubler le nombre de taxa, double la quantité d'informations présentes dans la matrice, comme en doublant le nombre de caractères. Chaque taxon représente un nouvel échantillon pour chacun des caractères, mais, plus important, il représente une nouvelle combinaison des états de caractères. Ces caractères peuvent ne pas déterminer uniquement se branche sur l'arbre phylogénétique le nouvel échantillon, mais peut influer sur l'analyse dans son intégralité, causant potentiellement des remaniements dans les relations évolutives précédemment obtenues sur les autres taxa, par exemple en changeant les patrons d'estimation des changements de caractères.

La plus évidente faiblesse des analyses en maximum de parcimonie est celle de l'attraction des longues branches (voir plus bas), particulièrement forte dans le cas d'un échantillonnage peu robuste (le cas extrême étant le cas d'un jeu de données de 4 taxa, minimum pour obtenir un arbre non raciné qui fasse sens). Cette attraction des longues branches représente le cas classique où l'ajout de caractères additionnels n'améliore pas la qualité de l'estimation. Quand l'on rajoute des taxa, les longues branches sont « rompues », en améliorant l'estimation des changements d'états de caractères, le long de ces branches phylogénétiques. En d'autres termes, il est possible dans certains cas d'obtenir une inférence phylogénétique satisfaisante, avec des centaines de taxa, en n'utilisant que quelques centaines de caractères.

Bien qu'un large nombre d'études aient été réalisées à ce sujet, il reste des progrès importants à réaliser en matière de stratégie d'échantillonnage. Avec l'augmentation des capacités de calcul informatiques et la décroissance des coûts (en temps et argent, grâce à l'automatisation des processus de séquençage) de l'obtention et du traitement d'un jeu de données important, les études traitant de centaines de taxa et de plusieurs milliers de paires de bases (kB) deviennent courantes. Les observations empiriques doublent les progrès réalisées en modélisation/simulation et les stratégies d'échantillonnage et d'analyse s'affinent d'année en année (pas uniquement pour le maximum de parcimonie).

Il est également possible en maximum de parcimonie d'appliquer des pondérations différentes à des caractères individuels. Traditionnellement on applique ces pondérations relativement à un « coût évolutif » unitaire. Certains caractères seront donc considérés comme un meilleur reflet des « vraies » relations évolutives entre taxa, et seront donc pondérés par 2 ou plus. Les changements de ces caractères seront comptabilisés comme 2 plutôt qu'un seul, dans le calcul du score (voir plus haut). La pondération des caractères a été source d'un large débat. Le cas le plus souvent observé est une pondération égale pour tous les caractères, bien que les exceptions soient courantes. Par exemple, la troisième position d'un codon est connue pour être particulièrement labile (à cause de la synonymie importante du code génétique, concernant cette position) et peut être sous pondéré à cause de cette considération (en raison de la forte homoplasie potentielle de ces 3èmes positions). Dans certains cas, bien que l'on puisse y voir un raisonnement circulaire, des analyses peuvent être conduites en repondérant les caractères suivant les degrés d'homoplasie que l'on trouve dans une première analyse.

Les changements de caractères peuvent être également pondérés individuellement. C'est souvent le cas pour les données de séquences nucléotidiques. Empiriquement, il a été montré que certaines occurrences de changements de bases étaient plus fréquentes que d'autres. Cette réalité trouve ses soubassements dans les natures biochimiques des bases et leurs réactions aux agents mutagènes, qu'ils soient transcriptionnels, physiques ou chimiques. On sait par exemple que des transitions entre purine et pyrimidine sont plus fréquentes que les transvertions, c'est-à-dire un changement de bases accompagné d'un changement de famille chimique.

Généralités

Avantages:

  • la parcimonie permet l'évaluation sur plusieurs arbres et donne des informations sur des séquences ancestrales ;
  • convergence et réversions sont acceptées ;
  • un état peut passer de 0 à 1 puis de 1 à 0 et ceci plusieurs fois ;
  • un état peut passer de 0 à 1 sur des branches différentes.

Inconvénients:

  • Le traitement avec la parcimonie est lent et coûteux si la recherche est menée sur l'intégralité des topologies possibles. Des recherches heuristiques peuvent réduire grandement le temps machine nécessaire pour fournir un arbre phylogénétique. Toutes les topologies n'auront pas été explorées, mais l'arbre (les arbres) obtenus, seront très proches du "vrai" arbre.

Notes et références

  1. (en) John J. Wiens, « Character Analysis in Morphological Phylogenetics: Problems and Solutions », Systematic Biology, vol. 50, no 5, , p. 689–699 (ISSN 1063-5157, DOI 10.1080/106351501753328811, lire en ligne, consulté le )
  2. (en) Anaïs Grand, Adèle Corvez, Lina Maria Duque Velez et Michel Laurin, « Phylogenetic inference using discrete characters: performance of ordered and unordered parsimony and of three-item statements », Biological Journal of the Linnean Society, vol. 110, no 4, , p. 914–930 (ISSN 0024-4066, DOI 10.1111/bij.12159, lire en ligne, consulté le )
  3. (en) Valentin Rineau, Anaïs Grand, René Zaragüeta et Michel Laurin, « Experimental systematics: sensitivity of cladistic methods to polarization and character ordering schemes », Contributions to Zoology, vol. 84, no 2, , p. 129–148 (ISSN 1875-9866 et 1383-4517, DOI 10.1163/18759866-08402003, lire en ligne, consulté le )
  4. (en) Valentin Rineau, René Zaragüeta i Bagils et Michel Laurin, « Impact of errors on cladistic inference: simulation-based comparison between parsimony and three-taxon analysis », Contributions to Zoology, vol. 87, no 1, , p. 25–40 (ISSN 1875-9866 et 1383-4517, DOI 10.1163/18759866-08701003, lire en ligne, consulté le )

Voir aussi

Bibliographie

  • Joe Felsenstein (1978), « Cases in which parsimony and compatibility methods will be positively misleading », Syst. Zool., numéro 27, pages 401-410.
  • B. Kolaczkowski et J. W. Thornton (2004), « Performance of maximum parsimony and likelihood phylogenetics when evolution is heterogeneous », Nature, numéro 4331, pages 980-984.
  • R. Page et E. Holmes (1998), Molecular evolution : a phylogenetic approach, 346 pages.

Articles connexes

  • Portail origine et évolution du vivant
  • Portail de la biologie
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.