Redundancia de sistemas
En análisis de sistemas, se conoce redundancia como la disposición de más de un recurso, normalmente de similares características a otro existente, para la ejecución de una misma tarea que se considera crítica o prioritaria. Se emplea en sistemas conocidos como sistemas de seguridad y sistemas de sistemas de alta disponibilidad.
No confundir con seguridad perimetral ó seguridad operativa que está relacionada con las intrusiones y las vulnerabilidades de los sistemas.
Fallo
Fallo es la interrupción en la función de un sistema, subsistema, parte, dispositivo, componente o elemento que lo forma.
Por su cuantía, un fallo puede ser simple o múltiple. Por su naturaleza un fallo puede ser visible o invisible.
Un fallo visible implica que la situación ha resultado en un error y este se ha detectado. Un error en un sistema es la representación o manifestación de un fallo cometido en el estado actual o en un estado anterior.
Un fallo invisible, es un fallo que no da como resultado un error, bien porque no hay error o porque el error no se ha detectado. Un doble fallo, puede dar como resultado una situación correcta, cuando en realidad el sistema es doblemente inseguro. Al tiempo que transcurre entre un fallo y la representación de su error, se denomina latencia del fallo.
Modo degradado
Generalmente un fallo, conduce a una situación que se denomina modo degradado de funcionamiento. Este modo establece unas limitaciones funcionales, operativas, técnicas o de seguridad que se establecen en tiempo de diseño.
Sistemas de seguridad
La seguridad es un concepto muy amplio que recoge todo lo necesario para establecer una relación de confianza entre el sistema y el operador.
- Seguridad en las comunicaciones.
- Seguridad en la operación.
- Seguridad en la protección de los datos.
- Seguridad perimetral y control de accesos.
- Seguridad en el almacenamiento de los datos.
- Seguridad basada en privilegios y perfiles.
- Seguridad de funcionamiento en ambientes peligrosos.
- Seguridad de uso.
En general podemos definir la seguridad a partir de un conjunto de situaciones que se deben evitar. Para ello se definen dichas situaciones y se analiza el sistema de manera matemática.
Los sistemas de seguridad en análisis de procesos, son sistemas en los que un proceso se ejecuta como una máquina de estados finitos, en la que se definen los estados que están permitidos. Los estados posibles implican seguridad en la operación, que significa conocer de antemano cual va a ser la situación futura de todos los recursos del sistema. El conocimiento de todas las variables del sistema y sus recursos asociados de manera anticipada, permite un aprovechamiento eficaz y una operación segura. Además en este modo de funcionamiento, el sistema dispone de los recursos necesarios para moverse entre los diferentes estados sin interrupciones, más allá de las que establecen las prioridades internas y/o externas del proceso que se está ejecutando. Además, un sistema de seguridad debe evitar fallos, y en los fallos que ocurren, poner los medios para que las consecuencias sean los mínimos daños como sea materialmente posible.
Un sistema de seguridad cuenta con la característica que permite que ante un fallo el sistema no cometa errores aún estando en un modo de funcionamiento degradado. Uno de los mecanismos que se emplean es detener la operación. En informática se considera que el ordenador más seguro es el ordenador apagado.
Generalmente los sistemas se protegen ante un fallo simple, pero hay arquitecturas que defienden al sistema de un fallo doble. A los sistemas de seguridad se les denomina comúnmente intrínsecamente seguros, no confundir con sistemas de seguridad intrínseca, ya que la seguridad es un parámetro funcional cuantificable como la velocidad, las dimensiones o la masa de un objeto, formando parte de su diseño y modo de funcionamiento.
Integridad
Un sistema es seguro cuando es capaz de mantener su integridad en favor de la seguridad. Se establecen criterios cuantitativos que valoran como de seguro es un sistema mediante los niveles SIL. Safety Integrity Level o Nivel de Integridad en la Seguridad.
Los mecanismos más habituales para mantener un nivel SIL son el mecanismo de fallo seguro. Este mecanismo consiste en que ante una eventualidad de fallo, el sistema pasa a un modo seguro, conocido y estable, de tal manera que no afecta a la seguridad de los sistemas de orden superior y en último caso a la seguridad en la operación.
Mantienen el nivel de seguridad dentro de unos márgenes que convencionalmente se admiten como tolerables.
Retorno
Si una máquina de procesos lógicos se encuentra en un modo de fallo protegido, cuenta con los recursos necesarios para cambiar de estado a un estado seguro. Los fallos protegidos, son alteraciones del proceso o arquitectura del sistema que ofrecen caminos de retorno desde un estado no seguro, de vuelta a un estado seguro. Estas modificaciones a la función normal otorgan al sistema integridad ante fallos.
Si una máquina de estados se encuentra en un fallo no protegido, no cuenta con los recursos propios para modificar la situación. La tarea de devolución a un estado seguro se denomina reparación y consiste en la sustitución de elementos en fallo por otros funcionalmente correctos.
En función de como se realiza la sustitución, puede ser:
Reemplazo en caliente, si no es necesario detener el servicio. Reemplazo en frío si es necesario desconectar la máquina o una de sus partes para la intervención.
Redundancia
Las redundancias son el empleo de recursos adicionales a los estrictamente necesarios.
Lingüística
Redundancias lingüísticas y repetición dan como resultado el énfasis. Este recurso resulta eficaz en la transmisión de órdenes o instrucciones entre personas.
Comprobación
Una comprobación es una verificación de un estado frente a un estado teórico, modelo o información de referencia.
Las comprobaciones son herramientas de mitigación de riesgos en procesos de seguridad de cualquier naturaleza, entendiendo como riesgo a la incertidumbre de que un evento negativo pueda ocurrir dentro de un ámbito espacio temporal. El análisis de los riesgos valora las amenazas posibles a un sistema, la criticidad de las consecuencias y los mecanismos necesarios para reducir o eliminar dichos riesgos.
La comprobación es un mecanismo natural de seguridad y de calidad consistente en emplear recursos para verificar la ausencia de desviaciones en un proceso o función respecto a la función que se considera normal en dicho sistema.
Secuencial
La comprobación secuencial consiste en emplear el recurso tiempo para volver a realizar una tarea, con el objeto de verificar que los resultados son los mismos.
Al hacer un cálculo matemático extenso, podemos volver a realizarlo para tener la certeza de que lo hemos hecho correctamente. La certeza en términos matemáticos es la probabilidad estadística de que cada una de las operaciones se haya realizado correctamente. Este es un mecanismo de autocomprobación en el que la probabilidad de cometer un mismo error en iteraciones diferentes se considera nula para una persona con experiencia en la tarea.
En ingeniería ferroviaria la comprobación secuencial es una tarea implícita de la seguridad, formando parte del vocabulario habitual de los sistemas de Mando y Señalización. El enclavamiento controla las agujas mediante interfaces de Mando y Comprobación, en los que cada orden de movimiento tiene una comprobación asociada.
En la operativa espacial se emplea la doble comprobación, que consiste en realizar una acción, comprobar que se ha hecho correctamente dos veces.
Simultánea
En aviación civil se emplea la comprobación cruzada o cross-check, que consiste en que dos tripulantes de cabina comprueban simultáneamente que su compañero/a ha realizado correctamente la tarea correspondiente a la instrucción de seguridad transmitida por el comandante.
Lógica
En la redundancia lógica se emplean recursos de control para realizar tareas e implementar las comprobaciones lógicas que dan como resultado una confirmación exhaustiva de que la tarea se ha realizado correctamente. En ingeniería ferroviaria se emplean redundancias lógicas conocidas como 2 de 2, y 2 de 3, en la que simultáneamente dos sistemas que trabajan en paralelo, deben ofrecer lecturas, informaciones y decisiones idénticas para que los movimientos se autoricen.
Redundancia Física
La redundancia física implica la reserva de más recursos de los necesarios para realizar una tarea. Es lo que se llama diseño de tolerancia a fallos. En este diseño se evita que el fallo en un nodo o en un enlace provoque un fallo en el servicio.
Se emplean mecanismos de redundancia para atender situaciones de:
- fallos propios. Cuando el sistema que diseñamos presenta fallos o daños.
- fallos de terceros. Las medidas a tomar cuando el fallo es de terceros, como el caso de los suministradores.
En ambos casos se elaboran los llamados Planes de Contingencia, que prevén las situaciones más desfavorables para aplicar los mecanismos de mitigación necesarios en función de la seguridad, disponibilidad y funcionalidad en modo degradado requeridas.
- redundancia paralelo serie
Como resultado se han creado diferentes mecanismos, para proteger topologías de empleo masivo como la red en árbol. Esta configuración permite alcanzar a un gran número de usuarios con pocos niveles jerárquicos. Estos diseños aíslan grupos enteros en caso de fallo de uno de los nodos o enlaces.
Enlaces redundantes
Una mejora a la disponibilidad para la configuración en árbol es el empleo de enlaces redundantes de tal manera que un fallo simple mantiene la funcionalidad. Esta funcionalidad aplica tanto a enlaces de energía, de comunicaciones, protecciones, transportes. Las redes de telecomunicaciones se organizan en torno a configuraciones malladas con enlaces redundantes. Las redes de energía crean mallas para la distribución segura del suministro. La existencia de enlaces redundantes, implica necesariamente la existencia de elementos que gestionan dichos enlaces.
- enlaces sin redundancia
- enlaces redundantes
Configuración en anillo
La configuración en anillo es un modelo de diseño que muestra una disposición tal que aparentemente genera un bucle infinito dentro de un proceso.
Asignación dinámica de enlaces
En estos sistemas los enlaces se modifican en tiempo real conforme a las condiciones de contorno. Los bucles se eliminan siendo el anillo un recurso teórico nemotécnico.
La configuración en anillo es un modelo de arquitectura dinámico en el que se establece un árbol con ramas variables dinámicamente.
- Topología en anillo. Concepto
- Topología en anillo. Modo principal de trabajo
- Topología en anillo. Evento de fallo
- Topología en anillo. Modo degradado de funcionamiento
La imagen Topología en anillo Funcionamiento en modo principal, muestra los nodos tal y como trabajan en modo normal en un sistema con asignación dinámica de enlaces. Ante la eventualidad de un fallo, existe una reordenación de los nodos a partir de enlaces alternativos o de reserva, quedando el fallo en un enlace inactivo en espera de una solución. El modo degradado implica generalmente un desequilibrio de las cargas y una reducción de la fiabilidad del sistema trabajando en este modo, ya que carece de protección para un segundo evento de fallo.
Anillos lineales
La configuración en línea de un sistema no implica necesariamente la topología en bus. Se implementan anillos llamados planos en los que los componentes del anillo disponen de la de enlaces que proporciona en anillo, dentro de una distribución lineal geográfica u organizativa dada.
- Topología Bus-Bus mejorado- Anillo Lineal
- Bus redundante. Tolerancia a fallo de enlace. No tolerancia a fallo de nodo
- Anillo lineal. Tolerancia a fallo simple
Asignación fija de enlaces
Hay sistemas que no disponen de configuración dinámica de enlaces, como los anillos de las redes de tierra, donde las conexiones están enterradas y son fijas.
Subsistemas redundantes
Estos sistemas pueden trabajar de manera simultánea o secuencial.
Según el funcionamiento del sistema redundante, pueden ser:
- De reserva activa. Si el funcionamiento del sistema secundario no implica inicio de la reserva.
- De reserva inactiva. Si el dispositivo se encuentra apagado y hay que iniciarlo. A esta configuración se le denomina comúnmente Hot-Standby (caliente-parado) por la relación entre el sistema principal y el sistema de reserva.
- De repuesto. Si el sistema de reserva se encuentra almacenado. El correcto proceso de realmacenamiento en el caso de los repuestos minimiza el MTTR o tiempo medio de reparación.
En función de la coordinación espacio temporal, pueden ser :
1 de n
Esta protección establece criterios para mitigar los fallos de terceros, como fallo en el suministro eléctrico. Dispone un punto receptor con n alternativas de suministro.
En esta redundancia, el sistema alternativo está generalmente:
- inactivo.
- activo en otras funciones. Esta funcionalidad es lo que se denomina reserva de capacidad
En función de su origen, la reserva de capacidad, puede ser:
- capacidad interna
El dispositivo dispone de más capacidad que la empleada en su funcionamiento normal. Esta característica, se consigue aplicando en tiempo de diseño un sobredimensionamiento que permite esta función. Estos sistemas mantienen la capacidad original de diseño o ligeramente menor, asegurando los movimientos necesarios e imprescindibles para retornar a un nivel de seguridad mayor. Se emplea cuando alguno de los subsistemas se encuentra inactivo por tareas de mantenimiento, o inactivo por un fallo.
- capacidad externa
El sistema se apoya en sistemas colaterales para realizar tareas que su funcionalidad dañada o inactiva no le permite realizar. cuando un sistema en funcionamiento reserva una capacidad física, funcional, operativa con recursos y procedimientos preasignados, para atender a la demanda por parte de clientes con requerimientos de alta disponibilidad.
Los suministros de energía de salas de ordenadores de función crítica, se configuran para que los fallos en cualquiera de las redes de suministro no supongan la indisponibilidad del sistema, sino que la existencia de suministros alternativos permita un funcionamiento en caso de fallos simples, incluso fallos múltiples. El sistema va bajando de una red de alta disponibilidad y alta eficiencia energética como es la red eléctrica convencional, a redes más limitadas e ineficientes como los generadores diesel con el objeto de mantener el servicio.
Según las redes de orden superior van retornando a la normalidad, el sistema va conmutando en sentido inverso hasta llegar a su situación inicial. Los cambios de red son transparentes para los subsistemas que componen el receptor. Esta palabra significa que el funcionamiento no se ve detenido ni afectado o modificado, al menos no de manera sustancial, si bien analíticamente, los cambios van asociados a los llamados micro cortes, que son pequeñas interrupciones del fluido eléctrico.[1]
A nivel organizativo, disponer de 2 o más suministradores cuando los recursos lo permiten, es un mecanismo de protección ante los eventos de indisponibilidad. Los sistemas de calidad recomiendan realizar ciertas tareas administrativas por triplicado en lo referente a suministradores, específicamente cuando se valora un suministro, presupuesto, cotización u oferta, para disponer siempre de más y mejores alternativas en esta función.
En sistemas con almacenamiento de fluidos o gases se diseñan puntos de evacuación redundantes, como alternativa a la obstrucción de una válvula principal.
1+1
En sistemas de información con reserva activa, esta configuración se denomina configuración en espejo. El sistema redundante dispone de la información del sistema principal para continuar con la función en caso de fallo. La eficiencia es del 50%, ya que se emplean el doble de recursos que para un sistema básico sin dicha protección.
Estos sistemas se denominan de reserva activa o reserva en caliente, ya que el dispositivo redundante está funcionando a la vez que el sistema principal.
n de m
Lo sistemas n de m, disponen m dispositivos de los cuales n deben funcionar, mientras que m-n pueden fallar de manera secuencial o incluso simultánea. La relación entre n y m viene dada por la redundancia que se aplica al proceso en sí mismo.
- n de m
El mecanismo de protección por redundancia más común es RAID Redundant Array of Independent Disks. Conjunto redundante de discos independientes. De este sistema depende que los centros de datos puedan tener fallos sin perder la información, gracias a la redundancia que consiste en fraccionar la información y emplear un espacio dentro de un disco para albergar información del resto de los discos, para reponer cualquiera de ellos en caso de fallo.
Este mecanismo es otro tipo de protección por reserva activa, que se aplica en sistemas que trabajan en paralelo de manera colaborativa, es decir, añadiendo capacidad al sistema total.
Las unidades de almacenamiento masivo tradicionalmente han consistido en elementos con partes móviles, que son una de las principales causas de fallo, averías y actuaciones por mantenimientos correctivos.
Los sistemas de paridad extendida, consisten en emplear datos adicionales que relacionan la información consigo misma. De esta manera, podemos implementar el rescate de datos perdidos sabiendo como de semejantes eran entre sí desde referencias externas.
En la imagen, se muestran elementos que se relacionan entre sí, con elementos que se añaden para añadir más relaciones que permitan la recuperación de datos.
El sistema memoriza las posiciones y las relaciones de tal manera que recuperar un dato es aplicar funciones lógicas con la información que ha quedado intacta.
- Paridad explicada con colores
A | B | C | D | |||||
---|---|---|---|---|---|---|---|---|
Unidad | ||||||||
1 | Azul Oscuro | Negro | Amarillo | Violeta | ||||
2 | Verde Oscuro | Gris | Azul Claro | Rojo | ||||
3 | Rojo Oscuro | Blanco | Verde | Naranja |
Operaciones aditivas con colores | |||||||
Color Origen | Operación | Color origen | Color Resultado | ||||
Blanco | + | Negro | = | Gris | |||
Rojo | + | Amarillo | = | Naranja | |||
Azul Claro | + | Negro | = | Azul Oscuro | |||
Rojo | + | Negro | = | Rojo Oscuro | |||
Verde Claro | + | Negro | = | Verde Oscuro | |||
Azul Claro | + | Rojo | = | Violeta |
Operaciones sustractivas con colores | |||||||
Color Origen | Operación | Color origen | Color Resultado | ||||
Gris | - | Negro | = | Blanco | |||
Gris | - | Blanco | = | Negro | |||
Naranja | - | Amarillo | = | Red | |||
Naranja | - | Rojo | = | Anarillo | |||
Violeta | - | Azul Claro | = | Rojo | |||
Violeta | - | Rojo | = | Azul Claro | |||
Verde Oscuro | - | Negro | = | Verde Claro | |||
Verde Oscuro | - | Verde Claro | = | Negro | |||
Rojo Oscuro | - | Negro | = | Rojo | |||
Rojo Oscuro | - | Rojo | = | Negro | |||
Azul Oscuro | - | Negro | = | Azul Claro |
Bit de redundancia
En las transmisiones de datos, añadir un bit que se llama de redundancia, permite conocer si la transmisión se ha realizado correctamente. Son los llamados sistemas de corrección de errores.
Temporizadores
Los temporizadores son sistemas que se añaden a los procesos para comprobar que el funcionamiento está dentro de los márgenes estadísticos normales. Se trata de sistemas independientes que funcionan con relojes propios y forman una capa de seguridad adicional a las ya existentes. Sistemas como los Watchdog establecen el criterio de que las funciones toman un tiempo determinado en desarrollar su contenido.
Sistemas de emergencia
Los sistemas de emergencia son una parte vital de los sistemas de seguridad. Son sistemas adicionales pensados para mantenerse a la escucha y actuar solo en condiciones específicas de riesgo declarado.
Por su función permiten tres tareas principalmente.
Parada de emergencia
La redundancia generalmente trabaja a favor de la operación. Sin embargo muchos sistemas trabajan para detener la operación en caso de peligro cuando hay datos contrastables de que la operación resultaría en daños.
Su función es detener un sistema que está funcionando incorrectamente para evitar daños mayores. Estos sistemas aseguran la detención de los procesos sean cuales sean las condiciones del fallo.
Los sistemas de emergencia emplean recursos externos al sistema que protegen, para actuar de manera independiente realizando tareas como freno, corte de fluido, interrupción de suministro, denegación de acceso. La detención puede ser automática o manual. El sistema puede sustituir las decisiones humanas cuando la decisión depende de numerosas variables a la vez y debe ser tomada en tiempos pequeños. Son herramientas de protección ante un fallo inminente y se usan en situación de peligro.
Los termostatos de emergencia son comunes en recipientes a presión instrumentalizados. Están regulados para funcionar por encima de la temperatura de un termostato normal de trabajo. Esta función es una función de protección serie, tal que cualquiera de las intervenciones detiene el fluido, lo cual evita que un contacto genere una situación contra la seguridad.
Las actuaciones de emergencia, son manifestaciones de un riesgo declarado, por lo que tras la intervención, el sistema suele requerir un rearme, ya que la actuación del sistema de emergencia, implica que los sistemas de operación no han cumplido con su fiabilidad requerida.
Freno de emergencia en ferrocarriles, freno y descenso de emergencia en ascensores, frenada de emergencia en vehículos, parada de emergencia en escaleras mecánicas, parada de emergencia en líneas de producción automáticas. Generalmente todos los sistemas con un movimiento asociado disponen de un mecanismo de parada de emergencia.
Bypass
Suelen establecer rutas alternativas ante el fallo de los sistemas principales. Generalmente inhabilitan las funciones del sistema principal para poder realizar funciones de manera manual o semi automática, pero dirigida desde un control manual. También se emplea el término override.
Evacuación
Permiten implementar tareas de evacuación a un estado seguro tras un fallo. Apertura de puertas, liberación de cierres electromagnéticos, accionamiento de motores mediante mecanismos manuales, botes salvavidas en embarcaciones, salidas de emergencia.
Pruebas funcionales
Los sistemas redundantes disponen de una serie de pruebas funcionales llamadas puesta en servicio o comissioning. Estas pruebas verifican que el sistema principal toma los recursos de la reserva de manera correcta, en los intervalos estimados, retornando a la normalidad cuando el fallo se ha restablecido. Estas pruebas verifican todos los estados posibles y los rangos de todas las variables.
Las pruebas funcionales en ocasiones se repiten de manera sistemática, para verificar que los sistemas mantienen su funcionalidad, específicamente en los sistemas de emergencia cuya correcta función se verifica en los protocolos y simulacros que se llevan a cabo conforme a los planes de emergencia.
Resiliencia
La resiliencia es una característica propia de un sistema funcionalmente activo, por la cual el propio sistema dispone de los recursos suficientes para recuperarse de fallos volviendo de una reserva activa en modo degradado a un sistema principal sin intervención externa. Dado el carácter extensivo de la palabra sistema, puede aplicar a un material, en lo que se conoce como comportamiento elástico, a una persona como la capacidad para superar adversdidades, a una organización como la capacidad para reponerse tras situaciones desfavorables, o al medio ambiente . En un sistema la resiliencia implica que el propio sistema dispone de mecanismos de autoconfiguración y autochequeo para restablecer el servicio sin intervención.
Redundancia como origen de fallos
Hay redundancias que podrían ser origen de fallos en sistemas.
Fuente primaria
La duplicidad en la información implica emplear un recurso escaso como el almacenamiento o la memoria, para mantener la información necesaria para un proceso.
Los sistemas de calidad establecen que la información dentro del proceso debe tener fuentes primarias, de tal manera que exista un único origen de la información. Esta precondición permite el ahorro de espacio, las revisiones periódicas, mejoras y una actualización en árbol, donde una revisión en la fuente actualiza todo el contenido.
Un ejemplo de Fuente primaria es la Integridad referencial que se emplea en árboles de datos tipo SQL, donde un conjunto de datos es accesible gracias a una combinación de referencias o claves que se organizan en árbol y donde la clave primaria permite el acceso a toda la información del conjunto de datos. Una clave secundaria permite el acceso solo a una parte del conjunto de datos. La no existencia de dos claves iguales, ya sean primarias, secundarias o n-arias, es competencia y tarea original del/la diseñador/a en primera instancia y del motor de la base de datos durante la operación.
Equilibrio de redundancias
El equilibrio de redundancias es un mecanismo que permite a un sistema en modo conjunto desempeñar mejor su función.
Si Fn es la fiabilidad del sistema n-ésimo de una cadena y FT la fiabilidad total. FT=F1*F2*F3*f4. Empleando sistemas con la redundancia no equilibrada, el sistema tiene siempre una fiabilidad inferior al sistema con menos fiabilidad.
F1 | F2 | FT |
---|---|---|
0,9 | 0,6 | 0,54 |
0,99 | 0,6 | 0,594 |
0,999 | 0,6 | 0,5994 |
0,9999 | 0,6 | 0,59994 |
0,99999 | 0,6 | 0,599994 |
0,999999 | 0,6 | 0,5999994 |
Esta condición implica que fortalecer un segmento de una cadena no es eficiente habiendo segmentos más débiles.
F1 | F2 | FT |
---|---|---|
F1 | F2 | FT |
0,9 | 0,69 | 0,621 |
0,9 | 0,79 | 0,711 |
0,9 | 0,79 | 0,711 |
0,99 | 0,99 | 0,9801 |
0,999 | 0,999 | 0,998001 |
0,9999 | 0,9999 | 0,99980001 |
0,99999 | 0,99999 | 0,9999800001 |
Empleando los recursos en mejorar los sistemas menos fiables, el sistema gana en fiabilidad general.
Referencias
- «Micro cortes». Consultado el 16 de octubre de 2022.