Aprendizaje por Refuerzo Cuántico
El Aprendizaje por Refuerzo Cuántico es un área de investigación, en la que se aprovechan las propiedades de la mecánica cuántica de cara a optimizar el aprendizaje por refuerzo. La forma de abordar los problemas principales del aprendizaje automático mediante la computación cuántica permite construir una estrategia por exploración (basada en un criterio de recompensas a aprender por el agente) cuadráticamente más rápida respecto del aprendizaje por refuerzo clásico.
El aprendizaje por refuerzo cuántico permitirá abordar problemas de complejidad superior a los resueltos clásicamente, como por ejemplo la teoría de juegos, teorías de control óptimo, investigación de operaciones y Teoría de la información.
Los algoritmos relacionados con el aprendizaje por refuerzo cuántico se basan en emplear la propiedad de la superposición cuántica, para expresar la acción del agente y estado del medio-ambiente con el que interacciona como una combinación lineal de auto-acciones y de estados del medio-ambiente, pesados con sus respectivos pesos probabilísticos.[1]
Problemas que pueden resolverse con Aprendizaje por Refuerzo Cuántico
Existen diferentes tipos de Aprendizajes Automáticos:[2] el supervisado, el no supervisado y el aprendizaje por refuerzo. Cada uno de ellos sirve para abordar diferentes problemas. Concretamente, el Aprendizaje por Refuerzo, es lo que más se parece a "aprender". Dadas unas condiciones de reglas y metas, el agente consigue recompensas con un valor equivalente a la acción que ha tomado. Si el agente ha escogido una estrategia buena, tendrá mayor recompensa que una estrategia mala. Es entonces cuando el agente "aprende" a tomar mejores o peores acciones de cara al siguiente episodio (estudio de una nueva estrategia). Los problemas que se abordan con aprendizaje supervisado y no supervisado son en general problemas de agrupamiento de datos y análisis de datos (data-learning),[3][4] sin embargo, el aprendizaje por refuerzo es útil para aplicaciones relacionadas con la Inteligencia Artificial.[5][6]
El aprendizaje por refuerzo cuántico no ha recibido la misma atención que el aprendizaje supervisado y no supervisado cuántico. Sin embargo es un tema que se ha estudiado a fondo: por ejemplo se sugiere que QIP (Quantum Information Processing) podría nuevas maneras para evaluar políticas,[7] y se ha demostrado, por primera vez en el Aprendizaje por Refuerzo cuántico, una ventaja cuadrática utilizando un algoritmo cuántico sobre el algoritmo clásico de Aprendizaje por Refuerzo, Projective Simulation.[8]
El estudio de estrategias, como lo hace la Teoría de Juegos y la investigación de operaciones es optimizado aplicando un algoritmo cuántico, aprovechando las propiedades de la mecánica cuántica. Esquemáticamente, el aprendizaje por refuerzo automático estudia en cada episodio una posible estrategia, evaluándose al final la bondad de la estrategia en función de la recompensa obtenida consecuencia de la interacción entre el agente y el medio en cada acción. El aprendizaje por refuerzo cuántico estudia las posibles estrategias (entre un estado y otro) una vez interactúa, conociendo todas las recompensas que podría haber obtenido. Esto refleja claramente que el proceso de elección de una acción por parte del agente de cara a buscar la mejor estrategia, se agiliza.[9]
Principios básicos
Superposición de auto-acciones (auto-estados)
En la computación cuántica podemos expresar un cúbit en superposición como combinación lineal de estados . Si tenemos un sistema de n-cúbits expresamos el estado como un productorio tensorial de cúbits, . Empleando estas propiedades básicas, se puede expresar un número finito de auto-acciones y auto-estados como:
Los coeficientes y se corresponden con las amplitudes de probabilidad del estado del entorno y de la acción, respectivamente. Son números complejos y la suma algebraica de sus módulos al cuadrado debe de ser 1 por la regla de conservación de probabilidad.
Este enfoque permite acelerar el procedimiento usual del aprendizaje por refuerzo clásico, ya que implementa un algoritmo cuántico que actúa sobre un estado del entorno, evaluando todas las posibles acciones en superposición sobre el mismo estado, que posteriormente evoluciona al estado .
Política de selección para la acción
En el aprendizaje por refuerzo cuántico el agente debe de aprender una política , que maximiza la recompensa obtenida por cada acción para cada estado entorno. Podemos traducir esto como el mapeo de los estados a las acciones posibles desde este estado:
Cuando se mide , el agente colapsa a una de las auto-acciones con una probabilidad . El objetivo es entonces amplificar la probabilidad de las acciones con mayor recompensa.
Amplificación de la amplitud de probabilidad
Acorde con el postulado de colapso cuántico, la elección de una acción se hace acorde con la medida de la misma para un estado , obteniéndose una auto-acción con probabilidad . Es claro que mediante un procedimiento de prueba y error, se busca el con mayor recompensa, para el cual su amplitud de probabilidad debe ser amplificada, mediante un algoritmo de Grover. Primero se prepara una acción combinación lineal de auto-acciones con los mismos pesos probabilísticos tal que:
Este estado se construye aplicando n puertas de Hadamard en secuencia a n cúbits independientes con estados iniciales :
Para construir el algoritmo de Grover combinamos dos reflexiones, y , que se definen de la siguiente forma:
Donde es la identidad y es el oráculo del algoritmo de Grover. Una iteración del algoritmo de Grover se construye combinando estos dos operadores: .
Algoritmo de aprendizaje por refuerzo cuántico
El algoritmo de aprendizaje por refuerzo cuántico sigue el siguiente protocolo:
- Inicializamos un estado con m cúbits y con n acciones posibles para una función criterio arbitraria.
- Repetimos para cada episodio el siguiente procedimiento:
- Para todos los estados en se observa y se obtiene .
- Tomando la acción se observa el estado , por la cual se obtiene una recompensa r, entonces:
- Se actualiza la función criterio .
- Se actualizan las amplitudes de probabilidad, repitiendo L veces.
Para una tolerancia dada (), el algoritmo se detendrá cuando la función criterio converja tal que .
El aprendizaje se basa en la predicción de diferencia temporal para la actualización de la función criterio . Como el aprendizaje es estrictamente positivo y decreciente, se asegura la convergencia de la Cadena de Markov al valor óptimo con probabilidad 1 mediante un proceso de política de exploración si se cumplen las siguientes propiedades del índice de aprendizaje :
Los criterios de convergencia para un algoritmo estocástico como es el anteriormente explicado fueron probados por Bertsekas y Tsitsiklis.[10] Muchos algoritmos del aprendizaje por refuerzo clásico son estocásticos. Sin embargo, este algoritmo presenta las siguientes diferencias (que permiten comparar la convergencia del algoritmo cuántico respecto del clásico, mientras la anterior condición se satisfaga):
- La política de exploración se basa en el postulado del colapso cuántico al medir.
- Este algoritmo se basa en el paralelismo cuántico (que no viola el teorema de no-clonación), lo que se traduce como que se actualizan todos los estados simultáneamente y se sincroniza con el aprendizaje.[11]
Véase también
Referencias
- Vedran Dunjko, Jacob M. Taylor, Hans J. Briegel. [arXiv:1811.08676v1 «Advances in Quantum Reinforcement Learning»]. V. Dunjko, J. M. Taylor, H. J. Briegel, Advances in quantum reinforcement learning, IEEE SMC, Banff, AB, pp. 282-287 (2017). doi:10.1109/SMC.2017.8122616.
- M. Schuld, I. Sinayskiy, F. Petruccione. [arXiv:1409.3097 «An introduction to quantum machine learning»]. Contemporary Physics, 56:2, 172-185 (2015). doi:10.1080/00107514.2014.964942.
- Wittek, P. (2014). Quantum Machine Learning: What Quantum Computing Means to Data Mining. Academic Press, 2014.
- Lloyd, S., Mohseni, M. and Rebentrost, P. (2013). [ArXiv:1307.0411 (2013) «Quantum algorithms for supervised and unsupervised machine learning.»]. ,.
- Amira Abbas, David Sutter, Christa Zoufal, Aurélien Lucchi, Alessio Figalli, Stefan Woerner. [arXiv:2011.00027 «The power of quantum neural networks»]. Nat Comput Sci 1, 403-409 (2021). doi:10.1038/s43588-021-00084-1.
- Hsin-Yuan Huang, Michael Broughton, Masoud Mohseni, Ryan Babbush, Sergio Boixo, Hartmut Neven, Jarrod R. McClean. [arXiv:2011.01938v2 «Power of data in quantum machine learning»]. Nature Communications, Vol.12, No. 2631 (2021). doi:10.1038/s41467-021-22539-9.
- Dong, D., Chunlin, C. and Zonghai, C. (2005). Quantum Reinforcement Learning. Advances in Natural Computation Lecture Notes in Computer Science. p. 686-689.
- Paparo, Giuseppe Davide; Dunjko, Vedran; Makmal, Adi; Martin-Delgado, Miguel Angel; Briegel, Hans J. (8 de julio de 2014). «Quantum Speedup for Active Learning Agents». Physical Review X 4 (3): 031002. doi:10.1103/PhysRevX.4.031002. Consultado el 28 de febrero de 2022.
- Daoyi Dong, Chunlin Chen, Hanxiong Li, Tzyh-Jong Tarn (21 de octubre de 2008). [arXiv:0810.3828 «Quantum Reinforcement Learning»]. IEEE Transactions on Systems Man and Cybernetics Part B: Cybernetics, Vol. 38, No. 5, pp.1207-1220, 2008. doi:10.1109/TSMCB.2008.925743.
- D. P. Bertsekas and J. N. Tsitsiklis. Neuro-Dynamic Programming. Belmont, MA: Athena Scientific, 1996.
- M. A. Nielsen and I. L. Chuang. Quantum Computation and Quantum Information. Cambridge, England: Cambridge University Press, 2000.
Bibliografía
- Lucas Lamata. Basic protocols in quantum reinforcement learning with superconducting circuits. Scientific Reports | 7: 1609 | DOI:10.1038/s41598-017-01711-6 2.
- L. P. Kaelbling, M. L. Littman and A. W. Moore, Reinforcement learning: A survey, Journal of Artificial Intelligence Research, vol.4, pp.237-287, 1996.
- R. Sutton, Learning to predict by the methods of temporal difference, Machine Learning, vol.3, pp.9-44, 1988.