Matrice de similarité
Les matrices de similarité ou matrices de substitution sont des matrices utilisées en bioinformatique pour réaliser des alignements de séquences biologiques reliées évolutivement. Elles permettent de donner un score de similarité ou de ressemblance entre deux acides aminés.
Ces matrices, M, sont des matrices 20 x 20 (pour les 20 acides aminés protéinogènes standards) qui recensent l'ensemble des scores M(a,b) obtenus lorsqu'on substitue l'acide aminé a à l'acide b dans un alignement. Plus le score M(a,b) est élevé, plus la similarité entre les deux acides aminés a et b est importante. Il existe plusieurs de ces matrices, basées sur des principes de construction différents. On peut citer les plus fréquemment utilisées :
- Les matrices de Dayhoff, appelées PAM (probability of acceptable mutations), basées sur des distances évolutives entre espèces
- Les matrices de Henikoff, appelées BLOSUM[1], basées sur le contenu en information des substitutions
Dans chaque famille, il existe plusieurs séries de matrices, de stringence variable, et donc plus ou moins tolérantes aux substitutions d'acides aminés.
Exemple
La matrice BLOSUM62 ci-dessous est calculée à partir des fréquences de substitution d'acides aminés dans des blocs de séquence conservés, sans insertion, présentant au moins 62 % de conservation de séquence. Les acides aminés sont indiqués par leur code à une lettre (nomenclature IUPAC-IUBMB). Les coefficients de la matrice sont exprimés en demi-bits d'information :
- une valeur nulle indique une substitution neutre ;
- un score positif correspond à une substitution sur-représentée et donc probablement favorable
- un score négatif correspond à une substitution sous-représentée et donc probablement défavorable.
A | R | N | D | C | Q | E | G | H | I | L | K | M | F | P | S | T | W | Y | V | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | 4 | -1 | -2 | -2 | 0 | -1 | -1 | 0 | -2 | -1 | -1 | -1 | -1 | -2 | -1 | 1 | 0 | -3 | -2 | 0 |
R | 5 | 0 | -2 | -3 | 1 | 0 | -2 | 0 | -3 | -2 | 2 | -1 | -3 | -2 | -1 | -1 | -3 | -2 | -3 | |
N | 6 | 1 | -3 | 0 | 0 | 0 | 1 | -3 | -3 | 0 | -2 | -3 | -2 | 1 | 0 | -4 | -2 | -3 | ||
D | 6 | -3 | 0 | 2 | -1 | -1 | -3 | -4 | -1 | -3 | -3 | -1 | 0 | -1 | -4 | -3 | -3 | |||
C | 9 | -3 | -4 | -3 | -3 | -1 | -1 | -3 | -1 | -2 | -3 | -1 | -1 | -2 | -2 | -1 | ||||
Q | 5 | 2 | -2 | 0 | -3 | -2 | 1 | 0 | -3 | -1 | 0 | -1 | -2 | -1 | -2 | |||||
E | 5 | -2 | 0 | -3 | -3 | 1 | -2 | -3 | -1 | 0 | -1 | -3 | -2 | -2 | ||||||
G | 6 | -2 | -4 | -4 | -2 | -3 | -3 | -2 | 0 | -2 | -2 | -3 | -3 | |||||||
H | 8 | -3 | -3 | -1 | -2 | -1 | -2 | -1 | -2 | -2 | 2 | -3 | ||||||||
I | 4 | 2 | -3 | 1 | 0 | -3 | -2 | -1 | -3 | -1 | 3 | |||||||||
L | 4 | -2 | 2 | 0 | -3 | -2 | -1 | -2 | -1 | 1 | ||||||||||
K | 5 | -1 | -3 | -1 | 0 | -1 | -3 | -2 | -2 | |||||||||||
M | 5 | 0 | -2 | -1 | -1 | -1 | -1 | 1 | ||||||||||||
F | 6 | -4 | -2 | -2 | 1 | 3 | -1 | |||||||||||||
P | 7 | -1 | -1 | -4 | -3 | -2 | ||||||||||||||
S | 4 | 1 | -3 | -2 | -2 | |||||||||||||||
T | 5 | -2 | -2 | 0 | ||||||||||||||||
W | 11 | 2 | -3 | |||||||||||||||||
Y | 7 | -1 | ||||||||||||||||||
V | 4 |
Notes et références
- (en) S Henikoff et J Henikoff, « Amino acid substitution matrices from protein blocks », Proceedings of the National Academy of Sciences of the United States of America, vol. 89, no 22, , p. 10915–9 (PMID 1438297, PMCID 50453, DOI 10.1073/pnas.89.22.10915, lire en ligne)
Voir aussi
- Portail de la biologie cellulaire et moléculaire
- Portail de l'informatique théorique