Familia de proteínas
Una familia de proteínas es un grupo de proteínas relacionadas evolutivamente, y con frecuencia es prácticamente un sinónimo de familia génica. El término no se debe confundir con familia usado en el sentido taxonómico.
Las proteínas de una familia descienden de un antepasado común y típicamente poseen estructuras tridimensionales, funciones y secuencias similares. A pesar de que es difícil evaluar la significatividad de la similitud funcional o funcional, se ha desarrollado un marco aceptable para evaluar la significatividad de la similitud entre un grupo de secuencias empleando métodos de alineamiento de secuencias. Es muy improbable que las proteínas que no comparten un antepasado común muestren una similitud de secuencias estadísticamente significativa, lo que hace del alineamiento de secuencias una herramienta poderosa para identificar a los miembros de las familias de proteínas.
Actualmente se han definido más de 60 000 familias de proteínas,[1] aunque la ambigüedad en la definición de lo que es una "familia de proteínas" conduce a que los diferentes investigadores varíen ampliamente esta cifra.
Terminología y uso
Como sucede con muchos términos biológicos, el uso del término "familia de proteínas" depende en alguna medida del contexto. Puede indicar grandes grupos de proteínas con el menor nivel posible de similitud de secuencia detectable, o grupos muy reducidos de proteínas con secuencia prácticamente idéntica, función y estructura tridimensional, o cualquier grupo entre ambos extremos. Para distinguir entre estas situaciones, Dayhoff introdujo el concepto de superfamilia de proteínas.[2][3][4] Se han acuñado otros términos como "clase de proteínas", "grupo de proteínas" y "subfamilia de proteínas" a lo largo de los años, pero todos ellos sufren de las mismas ambigüedades de uso. Un uso corriente es que las superfamilias contienen familias, las cuales a su vez constan de subfamilias. Es improbable que se acuerde una definición exacta, y por tanto es una tarea del lector discernir cómo se usan exactamente estos términos dentro de un contexto particular.
Dominios proteicos y motivos conformacionales
El concepto de "familia de proteínas fue concebido en un momento en el que se conocían muy pocas estructuras y secuencias de proteínas. En aquellos tiempos, se trataba de proteínas primariamente pequeñas y de un solo dominio como la mioglobina, la hemoglobina y el citocromo c. Desde entonces se ha visto que muchas proteínas comprenden muchas unidades estructurales y funcionales independientes denominados dominios. Debido al "rearreglo evolutivo" (shuffling), los diferentes dominios de una proteína evolucionan de forma independiente. Esto ha conducido en los años recientes a prestar atención a las familias de proteínas. Se ha dedicado una cantidad de recursos en la red para identificar y catalogar estos dominios (ver un listado al final del presente artículo)
Las regiones de cada proteína tienen diferentes restricciones (rasgos críticos para la estructura y función de la proteína). Por ejemplo, el sitio activo de una enzima requiere que determinados residuos de aminoácidos tengan una orientación tridimensional precisa. Por otra parte, una interfaz de unión proteína-proteína puede constar de una amplia superficie con restricciones en la hidrofobicidad o polaridad de los residuos de aminoácidos. Las regiones funcionalmente restringidas de las proteínas evolucionan más lentamente que las regiones sin restricción, como bucles superficiales, dando lugar a bloques discernibles de secuencias conservadas cuando se compara las secuencias de una familia de proteínas. Esos bloques son habitualmente designados como "motivos, aunque se emplean muchos otros términos, (bloques, firmas, huellas, etc.) También existe un gran número de recursos en línea dedicados a identificar y catalogar motivos proteicos (ver una lista al final del artículo).
Uso e importancia de las familias de proteínas
A medida que aumenta el número de proteínas secuenciadas y aumenta el interés en el análisis proteómico, va en progreso el esfuerzo para organizar las proteínas en familias y describir los dominios y motivos que los componen. Una identificación de confianza de las familias de proteínas es crítica para el análisis filogenético, anotación funcional y exploración de la diversidad de la función de las proteínas en una rama filogénica dada. La Enzyme Function Initiative (EFI) está utilizando familias y superfamilias de proteínas como base para el desarrollo de una estrategia basada en secuencia/función para una asignación funcional a gran escala de enzimas de función desconocida.[5]
Los medios algorítmicos para establecer las familias de proteínas a gran escala se basan en una noción de la similitud. La mayor parte de las ocasiones, el único tipo de similitud al que se tiene acceso es al de secuencia.
Recursos el la investigación de familias de proteínas
Existen muchas bases de datos biológicas que registran ejemplos de familias de proteínas y permiten a los usuarios identificar las proteínas recientemente caracterizadas como pertenecientes a una familia conocida. He aquí algunos ejemplos.
- Pfam - Base de datos de alineamientos de familias estructurales y HMMs.
- PROSITE - Base de datos de dominios proteicos, familias y sitios funcionales.
- PIRSF - Sistema de clasificación de superfamilias.
- PASS2 -Alineamiento de proteínas como superfamilias estructurales. v2 - PASS2@NCBS[6]
- SUPERFAMILY - Biblioteca de HMMs que representan superfamilias y base de datos de anotaciones de familias y superfamilias de todos los organismos completamente secuenciados.
- SCOP y CATH - clasificaciones de estructuras proteicas en superfamilias, familias y dominios. si
Referencias
- Victor Kunin; Ildefonso Cases; Anton J. Enright; Victor de Lorenzo; Christos A. Ouzounis (28 de enero de 2003). «Myriads of protein families, and still counting». Genome Biology (en inglés) 4 (401). doi:10.1186/gb-2003-4-2-401.
- M. O. Dayhoff (diciembre de 1974). «Computer analysis of protein sequences». Fed Proc (en inglés) 33 (12). PMID 4435228.
- M. O. Dayhoff; P. J. McLaughlin; W. C. Barker; L. T. Hunt (abril de 1975). «Evolution of sequences within protein superfamilies». Naturwissenschaften (en inglés) 62: 154-161. doi:10.1007/BF00608697.
- M. O. Dayhoff (agosto de 1976). «The origin and evolution of protein superfamilies». Fed Proc (en inglés) 35 (10). PMID 181273.
- John A. Gerlt; Karen N. Allen; Steve C. Almo; Richard N. Armstrong; et. al. (14 de octubre de 2011). «The Enzyme Function Initiative». Biochemistry (en inglés) 50 (46): 9950-9962. doi:10.1021/bi201312u.
- A. Gandhimathi; Anu G. Nair; R. Sowdhamini (enero de 2012). «PASS2 version 4: an update to the database of structure-based sequence alignments of structural domain superfamilies». Nucleic Acids Research (en inglés) 40. ISSN 0305-1048. PMID 22123743.