Red de estado de eco
Una red de estado de eco (echo state network o ESN en inglés)[1][2] es un tipo de computador de reservoir que utiliza una red neuronal recurrente con una capa oculta conectada dispersamente (con una conectividad típica del 1%). La conectividad y los pesos de las neuronas ocultas son fijos y se asignan aleatoriamente. Los pesos de las neuronas de salida pueden aprenderse para que la red pueda producir o reproducir patrones temporales específicos. El principal interés de esta red es que, aunque su comportamiento es no lineal, los únicos pesos que se modifican durante el entrenamiento son los de las sinapsis que conectan las neuronas ocultas con las neuronas de salida. Así, la función de error es cuadrática con respecto al vector de parámetros y puede diferenciarse fácilmente a un sistema lineal.
Alternativamente, se puede considerar una formulación bayesiana no paramétrica de la capa de salida, bajo la cual: (i) se impone una distribución a priori sobre los pesos de salida; y (ii) los pesos de salida se marginan en el contexto de la generación de predicciones, dados los datos de entrenamiento. Esta idea ha sido demostrada mediante el uso de distribuciones a priori gaussianas,[3] con lo que se obtiene un modelo de proceso gaussiano con función kernel impulsada por ESN. Se ha demostrado que esta solución supera a las ESN con conjuntos de pesos entrenables (finitos) en varias pruebas comparativas.
Algunas implementaciones de ESN disponibles públicamente son: (i) aureservoir: una biblioteca C++ eficiente para varios tipos de redes de estados de eco con enlaces python/numpy; y (ii) Matlab code: un matlab eficiente para una red de estados de eco, (iii) ReservoirComputing.jl: una implementación eficiente basada en Julia de varios tipos de redes de estados de eco, y (iv) pyESN: redes de estados de eco simples en Python.
Antecedentes
La Red de Estado de Eco (ESN)[4] pertenece a la familia de las Redes Neuronales Recurrentes (RNN) y proporciona su arquitectura y principio de aprendizaje supervisado. A diferencia de las Redes Neuronal Prealimentadas, las Redes Neuronales Recurrentes son sistemas dinámicos y no funciones. Las Redes Neuronales Recurrentes se utilizan típicamente para:
- Aprender procesos dinámicos: tratamiento de señales en ingeniería y telecomunicaciones, análisis de vibraciones, sismología, control de motores y generadores.
- Predicción y generación de señales: texto, música, señales eléctricas, señales caóticas.[5]
- Modelado de sistemas biológicos, neurociencias (neurodinámica cognitiva), modelado de memoria, interfaces cerebro-ordenador (BCI), filtrado y procesos de Kalman, usos militares, modelado de volatilidad, etc.
Para el entrenamiento de las RNN se dispone de varios algoritmos de aprendizaje: retropropagación a través tiempo, aprendizaje recurrente en tiempo real. La convergencia no está garantizada debido a fenómenos de inestabilidad y bifurcación.[4]
El enfoque principal de la ESN es, en primer lugar, operar una red neuronal aleatoria, grande, fija y recurrente con la señal de entrada, lo que induce una señal de respuesta no lineal en cada neurona dentro de esta red "reservoir". Y, en segundo lugar, conectar una señal de salida deseada mediante una combinación lineal entrenable de todas estas señales de respuesta.[2]
Otra característica de las ESN es su funcionamiento autónomo en la predicción: si la Red de Estado de Eco se entrena con una entrada que es una versión inversa de la salida, puede utilizarse para la generación/predicción de señales utilizando la salida anterior como entrada.[4][5]
La idea principal de las ESN está vinculada a las Máquinas de Estado Líquido (Liquid state machine o LSM en inglés) que Wolfgang Maassen desarrolló de forma independiente y simultánea con las ESN.[6] Las LSM, las ESN y la recientemente investigada regla de aprendizaje de decorrelación de retropropagación para RNN[7] se resumen cada vez más bajo el nombre de Reservoir Computing.
Schiller y Steil[7] también demostraron que en los enfoques de entrenamiento convencionales para las RNN, en los que se adaptan todos los pesos (no sólo los de salida), los cambios dominantes se producen en los pesos de salida. En neurociencia cognitiva, Peter F. Dominey analizó un proceso relacionado con el modelado del procesamiento de secuencias en el cerebro de los mamíferos, en particular el reconocimiento del habla en el cerebro humano.[8]
La idea básica también incluía un modelo de discriminación temporal de la entrada en redes neuronales biológicas.[9] Una primera formulación clara de la idea del reservoir computing se debe a K. Kirby, que reveló este concepto en una contribución a una conferencia[10]. La primera formulación de la idea de reservoir computing conocida hoy en día procede de L. Schomaker,[11] que describió cómo se puede obtener una salida deseada de una RNN al aprender a combinar señales de un conjunto de redes neuronales de impulsos configuradas aleatoriamente.[2]
Variantes
Las redes de estado de eco pueden construirse de diferentes maneras. Pueden configurarse con o sin conexiones de entrada-salida directamente entrenables, con o sin retroalimentación de la reserva de salida, con diferentes neurotipos, diferentes patrones de conectividad interna de reservoir, etc. El peso de salida puede calcularse por regresión lineal con todos los algoritmos, ya sea que estén online o no. Para determinar los valores de salida se utilizan, además de las soluciones para errores con mínimos cuadrados, criterios de maximización de márgenes, denominados máquinas de vectores de soporte de entrenamiento.[12] Otras variantes de las redes de estado de eco intentan cambiar la formulación para ajustarse mejor a los modelos comunes de los sistemas físicos, como los que suelen definirse mediante ecuaciones diferenciales. En este ámbito, los proyectos incluyen redes de estado de eco que parcialmente incluyen modelos físicos,[13] redes de estado de eco híbridas,[14] y redes de estados de eco de tiempo continuo.[15]
La RNN fija actúa como un medio aleatorio no lineal cuya respuesta dinámica, el "eco", se utiliza como base de la señal. La combinación lineal de esta base puede entrenarse para reconstruir la salida deseada minimizando algunos criterios de error.[2]
Importancia
Las RNN apenas se utilizaban en la práctica antes de la introducción de la ESN, debido a la complejidad que entrañaba el ajuste de sus conexiones (por ejemplo, la falta de autodiferenciación, la susceptibilidad a la desaparición/explosión de gradientes, etc.). Los algoritmos de entrenamiento de las RNN eran lentos y a menudo vulnerables a problemas como los errores de ramificación,[16] por lo que no se podía garantizar la convergencia. Por otro lado, el entrenamiento de ESN no tiene el problema de la ramificación y es fácil de implementar. En los primeros estudios, las ESN mostraron un buen rendimiento en tareas de predicción de series temporales a partir de conjuntos de datos sintéticos.[1][17]
Sin embargo, hoy en día muchos de los problemas que hacían que las RNN fueran lentas y propensas a errores se han solucionado con la llegada de las bibliotecas de autodiferenciación (aprendizaje profundo), así como con arquitecturas más estables como LSTM y GRU, por lo que se ha perdido el argumento de que las ESN son únicas. Además, las RNN han demostrado su eficacia en varios ámbitos prácticos, como el procesamiento de lenguaje. Para hacer frente a tareas de complejidad similar utilizando métodos de cálculo de reservoir, se necesitaría una memoria de tamaño excesivo.
Sin embargo, las ESN se utilizan en algunos ámbitos, como muchas aplicaciones de procesamiento de señales. En particular, se han utilizado ampliamente como principio de computación que combina bien con sustratos informáticos no digitales. Dado que las ESN no necesitan modificar los parámetros de la RNN, permiten utilizar muchos objetos diferentes como su reservoir no lineal. Por ejemplo: microchips ópticos, nanoosciladores mecánicos, mezclas de polímeros o incluso miembros blandos artificiales.[2]
Referencias
- Jaeger, H.; Haas, H. (2004). «Harnessing Nonlinearity: Predicting Chaotic Systems and Saving Energy in Wireless Communication». Science 304 (5667): 78-80. Bibcode:2004Sci...304...78J. PMID 15064413. S2CID 2184251. doi:10.1126/science.1091277.
- Jaeger, Herbert (2007). «Echo state network». Scholarpedia 2 (9): 2330. Bibcode:2007SchpJ...2.2330J. doi:10.4249/scholarpedia.2330.
- Chatzis, S. P.; Demiris, Y. (2011). «Echo State Gaussian Process». IEEE Transactions on Neural Networks 22 (9): 1435-1445. PMID 21803684. S2CID 8553623. doi:10.1109/TNN.2011.2162109.
- Jaeger, Herbert (2002). A tutorial on training recurrent neural networks, covering BPPT, RTRL, EKF and the "echo state network" approach. Germany: German National Research Center for Information Technology. pp. 1-45.
- Antonik, Piotr; Gulina, Marvyn; Pauwels, Jaël; Massar, Serge (2018). «Using a reservoir computer to learn chaotic attractors, with applications to chaos synchronization and cryptography». Phys. Rev. E 98 (1): 012215. Bibcode:2018PhRvE..98a2215A. PMID 30110744. S2CID 3616565. arXiv:1802.02844. doi:10.1103/PhysRevE.98.012215.
- Maass W., Natschlaeger T., and Markram H. (2002). «Real-time computing without stable states: A new framework for neural computation based on perturbations». Neural Computation 14 (11): 2531-2560. PMID 12433288. S2CID 1045112. doi:10.1162/089976602760407955.
- Schiller U.D. and Steil J. J. (2005). «Analyzing the weight dynamics of recurrent learning algorithms». Neurocomputing 63: 5-23. doi:10.1016/j.neucom.2004.04.006.
- Dominey P.F. (1995). «Complex sensory-motor sequence learning based on recurrent state representation and reinforcement learning». Biol. Cybernetics 73 (3): 265-274. PMID 7548314. S2CID 1603500. doi:10.1007/BF00201428.
- Buonomano, D.V. and Merzenich, M.M. (1995). «Temporal Information Transformed into a Spatial Code by a Neural Network with Realistic Properties». Science 267 (5200): 1028-1030. Bibcode:1995Sci...267.1028B. PMID 7863330. S2CID 12880807. doi:10.1126/science.7863330.
- Kirby, K. (1991). «Context dynamics in neural sequential learning. Proc». Florida AI Research Symposium: 66-70.
- Schomaker, L. (1992). «A neural oscillator-network model of temporal pattern generation». Human Movement Science 11 (1–2): 181-192. doi:10.1016/0167-9457(92)90059-K.
- Schmidhuber J., Gomez F., Wierstra D., and Gagliolo M. (2007). «Training recurrent networks by evolino». Neural Computation 19 (3): 757-779. PMID 17298232. S2CID 11745761. doi:10.1162/neco.2007.19.3.757.
- Doan N, Polifke W, Magri L (2020). «Physics-Informed Echo State Networks». Journal of Computational Science 47: 101237. S2CID 226246385. arXiv:2011.02280. doi:10.1016/j.jocs.2020.101237.
- Pathak J, Wikner A, Russel R, Chandra S, Hunt B, Girvan M, Ott E (2018). «Hybrid Forecasting of Chaotic Processes: Using Machine Learning in Conjunction with a Knowledge-Based Model». Chaos 28 (4): 041101. Bibcode:2018Chaos..28d1101P. PMID 31906641. S2CID 3883587. arXiv:1803.04779. doi:10.1063/1.5028373.
- Anantharaman, Ranjan; Ma, Yingbo; Gowda, Shashi; Laughman, Chris; Shah, Viral; Edelman, Alan; Rackauckas, Chris (2020). «Accelerating Simulation of Stiff Nonlinear Systems using Continuous-Time Echo State Networks». .
- Doya K. (1992). «Bifurcations in the learning of recurrent neural networks». In Proceedings of 1992 IEEE Int. Symp. On Circuits and Systems 6: 2777-2780. ISBN 0-7803-0593-0. S2CID 15069221. doi:10.1109/ISCAS.1992.230622.
- Jaeger H. (2007). «Discovering multiscale dynamical features with hierarchical echo state networks». Technical Report 10, School of Engineering and Science, Jacobs University.