Complémentarité (acide nucléique)
En biologie moléculaire, la complémentarité de deux séquences d'acides nucléiques fait référence à la possibilité d'apparier les bases nucléiques qui constituent chacune d'elles. C'est typiquement le cas par exemple des deux brins formant une double hélice d'ADN. Cette propriété est à la base de la réplication de l'ADN, de sa réparation, de sa transcription en ARN, et de la traduction de ce dernier en protéines.
Les appariements canoniques entre bases nucléiques, formant des paires de bases dites « Watson-Crick », sont, d'une part, l'adénine avec la thymine (pour l'ADN) ou l'uracile (pour l'ARN), et, d'autre part, la guanine avec la cytosine (pour l'ADN et l'ARN). De plus, deux séquences d'acides nucléiques ne peuvent s'apparier que de façon antiparallèle, c'est-à-dire entre segments de sens opposés. Par conséquent, deux séquences d'acides nucléiques sont complémentaires lorsque les bases nucléiques de l'une peuvent s'apparier aux bases nucléiques de l'autre dans le sens opposé pour former deux segments appariés antiparallèles.
L'appariement sélectif de l'adénine (A) avec la thymine (T) ou l'uracile (U) et de la guanine (G) avec la cytosine (C) repose sur le nombre de liaisons hydrogène s'établissant entre l'une des bases puriques et l'une des bases pyrimidiques :
- deux liaisons hydrogène entre l'adénine (purine) et la thymine ou l'uracile (pyrimidines) ;
- trois liaisons hydrogène entre la guanine (purine) et la cytosine (pyrimidine).
Il ne se forme normalement pas de paires de purines, de paires de pyrimidines, de paire adénine–cytosine ni de paire guanine–thymine ou guanine–uracile. Cette sélectivité est cruciale pour un grand nombre de processus biochimiques faisant intervenir des acides nucléiques[1].
Il est également possible de définir des ambigrammes pour représenter les séquences complémentaires, par exemple en représentant la guanine par q, la cytosine par b, l'adénine par n et la thymine ou l'uracile par u :
- 5’-nuqbqbunqbubnuuu-3’
- 3’-unbqbqnubqnqunnn-5’
La complémentarité des séquences apparaît ainsi graphiquement de façon plus évidente[2].
L'analyse des séquences d'acides nucléiques rend parfois nécessaire de représenter une ou plusieurs bases nucléiques en fonction de caractéristiques particulières. À cette fin, l'IUPAC a défini une nomenclature précise :
Bases représentées | ||||||
---|---|---|---|---|---|---|
A | adénine | A | 1 | |||
C | cytosine | C | ||||
G | guanine | G | ||||
T | thymine | T | ||||
U | uracile | U | ||||
W | weak | A | T | 2 | ||
S | strong | C | G | |||
M | amino | A | C | |||
K | keto | G | T | |||
R | purine | A | G | |||
Y | pyrimidine | C | T | |||
B | pas A (B vient après A) | C | G | T | 3 | |
D | pas C (D vient après C) | A | G | T | ||
H | pas G (H vient après G) | A | C | T | ||
V | pas T (V vient après T et U) | A | C | G | ||
N ou - | any base | A | C | G | T | 4 |
Notes et références
- (en) Leroy Hood et David Galas, « The digital code of DNA », Nature, vol. 421, no 6921, , p. 444-448 (PMID 12540920, DOI 10.1038/nature01410, Bibcode 2003Natur.421..444H, lire en ligne)
- (en) David A. Rozak et Anthony J. Rozak, « Simplicity, function, and legibility in an enhanced ambigraphic nucleic acid notation », BioTechniques, vol. 44, no 6, , p. 811-813 (PMID 18476835, DOI 10.2144/000112727, lire en ligne)
- (en) Nomenclature Committee of the International Union of Biochemistry (NC-IUB), « Nomenclature for Incompletely Specified Bases in Nucleic Acid Sequences », sur IUBMB, (consulté le )
- Portail de la biologie cellulaire et moléculaire