OpenAI Five
OpenAI Five es un programa informático de OpenAI que juega al videojuego de cinco contra cinco Dota 2. Su primera aparición pública tuvo lugar en 2017, donde fue probado en una partida en vivo de uno contra uno contra el jugador profesional Dendi, que perdió contra él. Al año siguiente, el sistema había avanzado hasta el punto de actuar como un equipo completo de cinco personas, y empezó a jugar contra equipos profesionales y a demostrar su capacidad para derrotarlos.
Al elegir un juego tan complejo como Dota 2 para estudiar el aprendizaje automático, OpenAI pensó que podría capturar con mayor precisión la imprevisibilidad y la continuidad que se observan en el mundo real, construyendo así sistemas de resolución de problemas más generales. Los algoritmos y el código utilizados por OpenAI Five acabaron siendo tomados prestados por otra red neuronal en desarrollo por la empresa, una que controlaba una mano robótica física. ¡OpenAI Five se ha comparado con otros casos similares de inteligencia artificial (IA) que juega contra humanos y los derrota, como AlphaStar en el videojuego StarCraft II, AlphaGo en el juego de mesa Go, Deep Blue en ajedrez y Watson en el programa de televisión Jeopardy!
Historia
El desarrollo de los algoritmos utilizados para los bots comenzó en noviembre de 2016. OpenAI decidió utilizar Dota 2, un videojuego competitivo de cinco contra cinco, como base debido a su popularidad en la plataforma de retransmisión en directo Twitch, a su compatibilidad nativa con Linux y a que disponía de una interfaz de programación de aplicaciones (API)[1]. Antes de convertirse en un equipo de cinco, la primera demostración pública tuvo lugar en The International 2017 en agosto, el principal torneo anual del juego, donde Dendi, un jugador profesional ucraniano, perdió contra un bot de OpenAI en un enfrentamiento en directo de uno contra uno.[2][3] Tras el enfrentamiento, el director técnico Greg Brockman explicó que el bot había aprendido jugando contra sí mismo durante dos semanas en tiempo real, y que el software de aprendizaje era un paso en la dirección de crear software que pueda manejar tareas complejas "como ser un cirujano".[4][5] OpenAI utilizó una metodología llamada aprendizaje por refuerzo, ya que los bots aprenden con el tiempo jugando contra sí mismos cientos de veces al día durante meses, en los que son recompensados por acciones como matar a un enemigo y destruir torres.[6][7][8]
En junio de 2018, la capacidad de los bots se amplió para jugar juntos como un equipo completo de cinco personas y fueron capaces de derrotar a equipos de jugadores aficionados y semiprofesionales.[9][6][10][11] En The International 2018, OpenAI Five jugó en dos partidas contra equipos profesionales, una contra el equipo brasileño paiN Gaming y la otra contra un equipo de estrellas formado por antiguos jugadores chinos.[12][13] Aunque los bots perdieron ambos partidos, OpenAI siguió considerándolo una aventura exitosa, afirmando que jugar contra algunos de los mejores jugadores de Dota 2 les permitió analizar y ajustar sus algoritmos para futuras partidas.[14] La demostración pública final de los bots tuvo lugar en abril de 2019, donde ganaron una serie al mejor de tres contra los campeones de The International 2018, OG, en un evento en vivo en San Francisco.[15] Ese mismo mes tuvo lugar un evento en línea de cuatro días para jugar contra los bots, abierto al público.[16] Allí, los bots jugaron en 42 729 partidas públicas, ganando el 99,4% de esas partidas.[17]
Arquitectura
Cada bot de OpenAI Five es una red neuronal que contiene una sola capa con una Memoria a corto plazo de 4096 unidades[18] que observa el estado actual del juego extraído de la API del desarrollador de Dota. La red neuronal realiza acciones a través de numerosas cabezas de acción posibles (no hay datos humanos implicados), y cada cabeza tiene un significado. Por ejemplo, el número de ticks para retrasar una acción, qué acción seleccionar, la coordenada X o Y de esta acción en una cuadrícula alrededor de la unidad. Además, las cabezas de acción se calculan de forma independiente. El sistema de IA observa el mundo como una lista de 20.000 números y realiza una acción llevando a cabo una lista de ocho valores de enumeración. Además, selecciona diferentes acciones y objetivos para comprender cómo codificar cada acción y observar el mundo.[19]
OpenAI Five se ha desarrollado como un sistema de formación de aprendizaje por refuerzo de uso general en la infraestructura "Rapid". Rapid consta de dos capas: hace girar miles de máquinas y las ayuda a "hablar" entre sí, y una segunda capa ejecuta software. En 2018, OpenAI Five había jugado alrededor de 180 años de juegos de aprendizaje por refuerzo ejecutados en 256 GPU y 128 000 núcleos de CPU,[20] utilizando Proximal Policy Optimization, un método de gradiente de políticas.[19][21]
OpenAI 1v1 bot (2017) | OpenAI Five (2018) | |
---|---|---|
CPU | 60.000 núcleos de CPU en Microsoft Azure | 128.000 núcleos de CPU preferentes en Google Cloud Platform (GCP) |
GPU | 256 GPU K80 en Azure | 256 GPU P100 en el GCP |
Experiencia adquirida | ~300 años por día | ~180 años por día |
Tamaño de la observación | ~3,3kB | ~36.8kB |
Observaciones por segundo de juego | 10 | 7.5 |
Tamaño del lote | 8.388.608 observaciones | 1.048.576 observaciones |
Lotes por minuto | ~20 | ~60 |
Comparaciones con otros sistemas de juegos de IA
Antes de OpenAI Five, ya se habían utilizado con éxito otros experimentos y sistemas de IA contra humanos, como Jeopardy! con Watson, ajedrez con Deep Blue y Go con AlphaGo.[22][23][24] En comparación con otros juegos que han utilizado sistemas de IA para jugar contra jugadores humanos, Dota 2 difiere como se explica a continuación:[19]
Vista de larga duración: Los bots funcionan a 30 fotogramas por segundo durante un tiempo medio de partido de 45 minutos, lo que se traduce en 80.000 ticks por partida. OpenAI Five observa cada cuatro fotogramas, lo que genera 20.000 movimientos. En comparación, el ajedrez suele terminar antes de 40 movimientos, mientras que el Go lo hace antes de 150.
Estado del juego parcialmente observado: Los jugadores y sus aliados sólo pueden ver el mapa directamente a su alrededor. El resto está cubierto por una niebla de guerra que oculta las unidades enemigas y sus movimientos. Por lo tanto, jugar a Dota 2 requiere hacer inferencias basadas en estos datos incompletos, así como predecir lo que su oponente podría estar haciendo al mismo tiempo. En comparación, el Ajedrez y el Go son "juegos de información completa", ya que no ocultan elementos al jugador contrario.[25]
Espacio de acción continua: Cada personaje jugable en una partida de Dota 2, conocido como héroe, puede realizar docenas de acciones dirigidas a otra unidad o a una posición. Los desarrolladores de OpenAI Five dejan el espacio en 170.000 acciones posibles por héroe. Sin contar los aspectos perpetuos del juego, hay una media de ~1.000 acciones válidas cada tick. En comparación, la media de acciones en ajedrez es de 35 y de 250 en Go.
Espacio de observación continuo: Dota 2 se juega en un gran mapa con diez héroes, cinco en cada equipo, junto con docenas de edificios y unidades de personajes no jugadores (PNJ). El sistema OpenAI observa el estado de una partida a través de la API bot de los desarrolladores, como 20.000 números que constituyen toda la información a la que un humano puede acceder. Un tablero de ajedrez se representa como unas 70 listas, mientras que un tablero de Go tiene unas 400 enumeraciones.
Recepción
OpenAI Five han recibido el reconocimiento de la comunidad de la IA, la tecnología y los videojuegos en general. El fundador de Microsoft, Bill Gates, lo calificó de "gran cosa", ya que sus victorias "requirieron trabajo en equipo y colaboración".[8][26] El ajedrecista Garry Kasparov, que perdió contra la IA Deep Blue en 1997, declaró que, a pesar de su derrota en The International 2018, los robots acabarían "llegando, y antes de lo esperado".[27]
En una conversación con MIT Technology Review, los expertos en IA también consideraron el sistema OpenAI Five como un logro significativo, ya que señalaron que Dota 2 era un "juego extremadamente complicado", por lo que incluso vencer a jugadores no profesionales era impresionante[25] PC Gamer escribió que sus victorias contra jugadores profesionales era un acontecimiento significativo en el aprendizaje automático.[28] Por el contrario, Motherboard escribió que la victoria era "básicamente una trampa" debido a la simplificación de los grupos de héroes en ambos bandos, así como al hecho de que los bots tuvieran acceso directo a la API, en lugar de utilizar la visión por ordenador para interpretar los píxeles de la pantalla.[29] The Verge escribió que los bots eran la prueba de que el enfoque de la compañía sobre el aprendizaje por refuerzo y su filosofía general sobre la IA estaban "produciendo hitos".[16]
En 2019, DeepMind dio a conocer un bot similar para Starcraft II, AlphaStar. Al igual que OpenAI Five, AlphaStar utilizó el aprendizaje por refuerzo y el juego automático. The Verge informó que "el objetivo con este tipo de investigación de IA no es solo aplastar a los humanos en varios juegos solo para demostrar que se puede hacer. Por el contrario, se trata de demostrar que, con tiempo, esfuerzo y recursos suficientes, un sofisticado software de IA puede superar a los humanos en prácticamente cualquier desafío cognitivo competitivo, ya sea un juego de mesa o un videojuego moderno". Añadieron que las victorias de DeepMind y OpenAI eran también un testimonio del poder de ciertos usos del aprendizaje por refuerzo.[30]
La esperanza de OpenAI era que la tecnología pudiera tener aplicaciones fuera del ámbito digital. En 2018, pudieron reutilizar los mismos algoritmos de aprendizaje por refuerzo y el código de entrenamiento de OpenAI Five para Dactyl, una mano robótica similar a la humana con una red neuronal construida para manipular objetos físicos.[31] En 2019, Dactyl resolvió el cubo de Rubik.[32]
Véase también
Referencias
- «OpenAI Five defeats Dota 2 world champions». openai.com (en inglés estadounidense). Consultado el 7 de julio de 2023.
- Savov, Vlad (14 de agosto de 2017). «My favorite game has been invaded by killer AI bots and Elon Musk hype». The Verge (en inglés estadounidense). Consultado el 7 de julio de 2023.
- «OpenAI's bot beats top Dota 2 player so badly that he quits | VentureBeat | AI | by Blair Hanley Frank». web.archive.org. 12 de agosto de 2017. Consultado el 7 de julio de 2023.
- «"Dota 2"».
- «More on Dota 2».
- Simonite, Tom. «Can Bots Outwit Humans in One of the Biggest Esports Games?». Wired (en inglés estadounidense). ISSN 1059-1028. Consultado el 7 de julio de 2023.
- «A Bot Backed by Elon Musk Has Made an AI Breakthrough in Video Game World». Bloomberg.com (en inglés). 25 de junio de 2018. Consultado el 7 de julio de 2023.
- Clifford, Catherine (28 de junio de 2018). «Bill Gates says gamer bots from Elon Musk-backed nonprofit are 'huge milestone' in A.I.». CNBC (en inglés). Consultado el 7 de julio de 2023.
- «"OpenAI Five Benchmark».
- Vincent, James (25 de junio de 2018). «AI bots trained for 180 years a day to beat humans at Dota 2». The Verge (en inglés estadounidense). Consultado el 7 de julio de 2023.
- Savov, Vlad (6 de agosto de 2018). «The OpenAI Dota 2 bots just defeated a team of former pros». The Verge (en inglés estadounidense). Consultado el 7 de julio de 2023.
- Simonite, Tom. «Pro-‘Dota 2’ Players Fend off Elon Musk-Backed AI Bots—for Now». Wired (en inglés estadounidense). ISSN 1059-1028. Consultado el 7 de julio de 2023.
- Quach, Katyanna. «Game over, machines: Humans defeat OpenAI bots once again at video games Olympics». www.theregister.com (en inglés). Consultado el 7 de julio de 2023.
- «The International 2018: Results».
- «OpenAI Five defeats professional Dota 2 team, twice». VentureBeat (en inglés estadounidense). 13 de abril de 2019. Consultado el 8 de julio de 2023.
- Statt, Nick (13 de abril de 2019). «OpenAI’s Dota 2 AI steamrolls world champion e-sports team with back-to-back victories». The Verge (en inglés estadounidense). Consultado el 8 de julio de 2023.
- «OpenAI’s Dota 2 bot defeated 99.4% of players in public matches». VentureBeat (en inglés estadounidense). 22 de abril de 2019. Consultado el 8 de julio de 2023.
- «Understanding LSTM Networks -- colah's blog». colah.github.io. Consultado el 8 de julio de 2023.
- «OpenAI Five».
- «Why are AI researchers so obsessed with games?». Quartz (en inglés). 4 de agosto de 2018. Consultado el 8 de julio de 2023.
- Schulman, John; Wolski, Filip; Dhariwal, Prafulla; Radford, Alec; Klimov, Oleg (2017). Proximal Policy Optimization Algorithms.
- Gabbatt, Adam (17 de febrero de 2011). «IBM computer Watson wins Jeopardy clash». The Guardian (en inglés británico). ISSN 0261-3077. Consultado el 10 de julio de 2023.
- Edwards, Jim. «Chess grandmaster Garry Kasparov on what happens when machines 'reach the level that is impossible for humans to compete'». Business Insider (en inglés estadounidense). Consultado el 10 de julio de 2023.
- Vincent, James (18 de octubre de 2017). «DeepMind’s Go-playing AI doesn’t need human help to beat us anymore». The Verge (en inglés estadounidense). Consultado el 10 de julio de 2023.
- «A team of AI algorithms just crushed humans in a complex computer game». MIT Technology Review (en inglés). Consultado el 10 de julio de 2023.
- Hamilton, Isobel Asher. «Bill Gates hails 'huge milestone' for AI as bots work in a team to destroy humans at video game 'Dota 2'». Business Insider (en inglés estadounidense). Consultado el 10 de julio de 2023.
- «https://twitter.com/Kasparov63/status/1033108573151092736». Twitter. Consultado el 10 de julio de 2023.
- published, Morgan Park (11 de agosto de 2018). «How the OpenAI Five tore apart a team of Dota 2 pros». PC Gamer (en inglés). Consultado el 10 de julio de 2023.
- Gault, Matthew (17 de agosto de 2018). «OpenAI Is Beating Humans at ‘Dota 2’ Because It’s Basically Cheating». Vice (en inglés). Consultado el 10 de julio de 2023.
- Statt, Nick (30 de octubre de 2019). «DeepMind’s StarCraft 2 AI is now better than 99.8 percent of all human players». The Verge (en inglés estadounidense). Consultado el 10 de julio de 2023.
- OpenAI; Andrychowicz, Marcin; Baker, Bowen; Chociej, Maciek; Józefowicz, Rafał; McGrew, Bob; Pachocki, Jakub; Petron, Arthur; Plappert, Matthias; Powell, Glenn; Ray, Alex; Schneider, Jonas; Sidor, Szymon; Tobin, Josh; Welinder, Peter; Weng, Lilian; Zaremba, Wojciech (2019) "Learning Dexterous In-Hand Manipulation"
- OpenAI; Akkaya, Ilge; Andrychowicz, Marcin; Chociej, Maciek; Litwin, Mateusz; McGrew, Bob; Petron, Arthur; Paino, Alex; Plappert, Matthias; Powell, Glenn; Ribas, Raphael (2019). "Solving Rubik's Cube with a Robot Hand"
Enlaces externos
- https://openai.com/five/ Sitio web oficial
- https://blog.openai.com/openai-five/ Blog oficial