Seudonimización
Seudonimización es un procedimiento de gestión de datos donde se reemplazan campos de información personal dentro de un registro de datos por uno o más identificadores artificiales o pseudónimos. Un pseudónimo único por cada campo reemplazado, o grupo de campos reemplazados, hace cada registro de datos menos identificable mientras se queda apto para análisis de datos y procesamiento de datos.
El Reglamento General de Protección de Datos[1] de la Unión Europea se refiere a seudonimización como algo demandado para cualquier almacenaje de datos personales sobre personas dentro del UE como alternativa a la otra opción de anonimización de datos.[2] Este proceso transforma los datos personales de tal forma que los datos resultantes no pueden atribuirse a un sujeto de datos específico sin el uso de información adicional. Un ejemplo de seudonimización es el cifrado, que hace que los datos originales sean ininteligibles y el proceso no se puede revertir sin el acceso a la clave de descifrado correcta. El Reglamento General de Protección de Datos requiere que esta información adicional (como la clave de descifrado) se guarde por separado de los datos seudonimizados. Se recomienda la seudonimización para reducir los riesgos para los interesados y para ayudar a los controladores y procesadores a cumplir sus obligaciones de protección de datos (considerando 28).
Aunque el Reglamento General de Protección de Datos fomenta el uso de seudónimos para "reducir los riesgos para los interesados" (considerando 28), los datos seudonimizados todavía se consideran datos personales (considerando 26) y, por lo tanto, siguen cubiertos por el Reglamento General de Protección de Datos.
La seudonimización se encuentra definida en el Art. 4.5) del Reglamento, como la información que, sin incluir los datos denominativos de un sujeto afectado –es decir aquellos que lo pueden identificar de manera directa-, sí que potencialmente permiten, a través de la asociación con información adicional, determinar quién es el individuo que está detrás de los datos seudonimizados.[3]
Métodos de seudonimización
La seudonimización se realiza mediante procedimientos como:
- Encriptado:[4] se sustituyen los datos personales por una clave secreta, de esta manera, solo se podrán conocer los datos originales si se conoce la clave.
- Funciones hash[5] de cualquier tipo: asignando códigos a datos para dificultar su identificación, esta función no es reversible.
- Cifrado determinista o función hash con clave de borrado: se realiza generando un número aleatorio que servirán como seudónimo para cada uno de los atributos de una base de datos, finalmente se procede a la eliminación de la tabla de correspondencia. Esta técnica permite que el riesgo de vincular los datos personales en un conjunto de datos con otros del mismo individuo almacenados en otro conjunto donde se haya usado un seudónimo distinto disminuya.
- Funciones con clave almacenada: se procede a usar una clave secreta como valor de entrada adicional, el que realiza el procedimiento tiene la posibilidad de imitar la ejecución de la función con el atributo y la clave secreta. La ventaja de esta técnica es que es difícil para un atacante reproducir la técnica sin conocer la clave secreta, pues el número de posibilidades que se pueden probar es muy grande y esto dificulta el procedimiento.
- Descomposición de Tokens: sustituyendo algún elemento de datos confidenciales por un elemento equivalente de menor sensibilidad (token). Se utiliza mayormente en el sector financiero con el objetivo de reemplazar los números de identificación de tarjetas por valores por tokens.
Campo de datos
La elección de que los campos de datos deben ser seudonimizados es parcialmente subjetiva. Campos menos selectivos como Birth Date o Postal Code son también a menudo incluidos porque usualmente estos están disponibles desde otras fuentes y por lo tanto, crear un registro fácil de identificar. Seudonimizar estos campos menos identificables elimina la mayoría de su valor analítico y como consecuencia, normalmente va acompañado de la introducción de nuevas formas derivadas y menos identificables, como el año de nacimiento o una región de código postal mayor.
Los campos de datos que son menos identificables, como lo son la fecha de asistencia, no son normalmente seudonimizados. Es importante darse cuenta de que, esto se da porque mucha de la utilidad estadística se pierde mientras se realiza, no porque los datos no se puedan identificar. Por ejemplo, dado el conocimiento anterior de unas pocas fechas de asistencia es fácil identificar los datos de alguien en un base de datos seudonimizados seleccionando solo aquellas personas con un patrón de datos de fechas. Esto es un ejemplo de ataque de interferencia.
La debilidad de los datos seudonimizados pre-RGPD para inferir ataques es comúnmente pasada por alto. Un ejemplo famoso es el AOL escándalo de datos de búsqueda. El ejemplo de AOL de re-identificación sin autorizar no requería acceso por separado, para guardar información adicional que estaba bajo el control de un controlador de datos como lo es ahora requerido por el RGPD.
Proteger datos seudonimizados estadísticamente útiles a partir de la reidentificación requiere:
1. Una base sólida de seguridad de información.
2. Controlar el riesgo de que los analistas, investigadores o otros trabajadores de datos causen una brecha de seguridad.
El seudónimo permite rastrear de vuelta los datos hasta sus orígenes, lo que distingue la seudonimización de la anonimización, donde todas las personas relacionadas con los datos que pueda permitir dar marcha atrás han sido eliminadas. La seudonimizacion presenta un problema, por ejemplo, con el paciente que debe transmitirse de forma segura entre centros clínicos.
La aplicación de la seudonimización al E-Salud[6] tiene como finalidad preservar la privacidad del paciente y la confidencialidad de los datos. Esto permite el uso primario de registros médicos por los proveedores de la salud autorizados y privacidad preservando el uso secundario de los investigadores.[7]
Un ejemplo de la aplicación de un procedimiento de seudonimización es la creación de bases de datos para re-identificar investigaciones remplazando palabras identificables con palabras de la misma categoría, sin embargo, en este caso no es posible en general rastrear de vuelta los datos a sus orígenes.
Referencias
- «L_2016119ES.01000101.xml». eur-lex.europa.eu. Consultado el 2 de marzo de 2018.
- Data science under GDPR with pseudonymization in the data pipeline Archivado el 18 de abril de 2018 en Wayback Machine. Publicado por Dativa, 17 de abril de 2018 (en inglés)
- «Periscopio Fiscal y Legal - Reglamento Europeo de Protección de Datos. La Seudonimización». Consultado el 18 de enero de 2018.
- «Cifrado (criptografía)»
|url=
incorrecta con autorreferencia (ayuda). Wikipedia, la enciclopedia libre. 1 de enero de 2022. Consultado el 16 de mayo de 2022. - «Función hash»
|url=
incorrecta con autorreferencia (ayuda). Wikipedia, la enciclopedia libre. 20 de enero de 2022. Consultado el 16 de mayo de 2022. - «ESalud»
|url=
incorrecta con autorreferencia (ayuda). Wikipedia, la enciclopedia libre. 2 de junio de 2021. Consultado el 16 de mayo de 2022. - Neubauer, Thomas; Heurix, Johannes (1 de marzo de 2011). «A methodology for the pseudonymization of medical data». International Journal of Medical Informatics (en inglés) 80 (3): 190-204. ISSN 1386-5056. doi:10.1016/j.ijmedinf.2010.10.016. Consultado el 16 de mayo de 2022.