OpenAI Codex
OpenAI Codex es un modelo de inteligencia artificial desarrollado por OpenAI. Analiza el lenguaje natural y genera código como respuesta. Impulsa GitHub Copilot, una herramienta de autocompletado de programación para IDE (entorno de desarrollo integrado) seleccionados, como Visual Studio Code y Neovim[1]. Codex es un descendiente del modelo GPT-3 de OpenAI, perfeccionado para su uso en aplicaciones de programación.
OpenAI lanzó una API para Codex en beta cerrada.[1] En marzo de 2023, OpenAI cerró el acceso a Codex.[2] Debido a los llamamientos públicos de los investigadores, OpenAI dio marcha atrás.[3] El modelo Codex todavía puede ser utilizado por los investigadores del Programa de Acceso a la Investigación de OpenAI.[4]
Capacidades
Basado en GPT-3, una red neuronal entrenada en texto, Codex fue entrenado adicionalmente en 159 gigabytes de código Python de 54 millones de repositorios de GitHub.[5][6] Un caso de uso típico de Codex es que un usuario escriba un comentario, como "//calcular la media móvil de una matriz para un tamaño de ventana dado"
, y luego utilizar la IA para sugerir un bloque de código que satisfaga ese comentario.[7] OpenAI declaró que Codex puede completar aproximadamente el 37% de las solicitudes y está destinado a hacer la programación humana más rápida en lugar de sustituirla. Según el blog de OpenAI, Codex destaca sobre todo a la hora de "asignar... problemas sencillos al código existente", lo que describen como "probablemente la parte menos divertida de la programación".[8][9] Jeremy Howard, cofundador de Fast.ai, afirmó que "Codex es una forma de escribir código sin tener que escribir tanto código" y que "no siempre es correcto, pero se acerca lo suficiente".[10] Según un artículo escrito por investigadores de OpenAI, cuando Codex intentó cada caso de prueba 100 veces, generó soluciones que funcionaban para el 70,2% de las preguntas.[11]
OpenAI afirma que Codex puede crear código en más de una docena de lenguajes de programación, incluidos Go, JavaScript, Perl, PHP, Ruby, Shell, Swift y TypeScript, aunque es más eficaz en Python[1]. Según VentureBeat, las demostraciones subidas por OpenAI mostraron impresionantes capacidades de resolución de coreferencias. Los demostradores fueron capaces de crear un juego de navegador en JavaScript y generar gráficos de ciencia de datos utilizando matplotlib.[9]
OpenAI demostró que Codex puede interactuar con servicios y aplicaciones como Mailchimp, Microsoft Word, Spotify y Google Calendar.[9][12] Al parecer, Microsoft estaría interesada en explorar
las capacidades de Codex.[12]
Cuestiones relacionadas
Las demostraciones de OpenAI mostraron fallos como código ineficiente y peculiaridades puntuales en muestras de código. En una entrevista con The Verge, el director de tecnología de OpenAI, Greg Brockman, dijo que "a veces [Codex] no sabe exactamente lo que le estás pidiendo" y que puede requerir un poco de ensayo y error.[12] Los investigadores de OpenAI descubrieron que Codex tiene problemas con las instrucciones de varios pasos y de alto nivel
, y que a menudo falla o muestra un comportamiento contraintuitivo. Además, plantearon varios problemas de seguridad, como el exceso de confianza de los programadores novatos, los sesgos basados en los datos de entrenamiento y los impactos de seguridad debidos al código vulnerable.[11]
VentureBeat afirmó que, dado que Codex se entrena con datos públicos, podría ser vulnerable al "envenenamiento de datos" mediante cargas intencionadas de código malicioso.[9] Según un estudio realizado por investigadores de la Universidad de Nueva York, aproximadamente el 40% del código generado por GitHub Copilot (que utiliza Codex) en escenarios relevantes para los Enumeración de debilidades comunes (CWE) de alto riesgo incluía fallos u otros defectos de diseño explotables.[13]
Derechos de autor
La Free Software Foundation expresó su preocupación por que los fragmentos de código generados por Copilot y Codex pudieran violar los derechos de autor, en particular la condición de la GPL que exige que las obras derivadas se licencien en términos equivalentes.[14] Las cuestiones que plantearon incluyen si la formación en repositorios públicos entra dentro del uso justo o no, cómo podrían descubrir los desarrolladores el código generado infractor, si los modelos de aprendizaje automático formados podrían considerarse código fuente modificable o una compilación de los datos de formación, y si los propios modelos de aprendizaje automático podrían estar protegidos por derechos de autor y por quién.[14][15] Un estudio interno de GitHub descubrió que aproximadamente el 0,1% del código generado contenía copias directas de los datos de formación. En un ejemplo, el modelo mostraba el código de los datos de entrenamiento que implementaba el algoritmo de la raíz cuadrada inversa rápida, incluyendo comentarios y un aviso de copyright incorrecto.[7]
En respuesta, OpenAI declaró que "la inseguridad jurídica sobre las implicaciones en materia de derechos de autor del entrenamiento de sistemas de IA impone costes sustanciales a los desarrolladores de IA, por lo que debe resolverse con autoridad".[7]
Los problemas de derechos de autor del Codex se han comparado con el caso judicial Authors Guild, Inc. contra Google, Inc., en el que los jueces dictaminaron que el uso por Google Books de fragmentos de texto de millones de libros escaneados constituía un uso legítimo.[7][16]
Véase también
Referencias
- «OpenAI Codex». openai.com (en inglés estadounidense). Consultado el 10 de julio de 2023.
- Kemper, Jonathan (22 de marzo de 2023). «OpenAI kills its Codex code model, recommends GPT3.5 instead». THE DECODER (en inglés estadounidense). Consultado el 10 de julio de 2023.
- «https://twitter.com/OfficialLoganK/status/1638336152800206858». Twitter. Consultado el 10 de julio de 2023.
- «Researcher Access Program application». openai.com (en inglés estadounidense). Consultado el 10 de julio de 2023.
- «OpenAI warns AI behind GitHub’s Copilot may be susceptible to bias». VentureBeat (en inglés estadounidense). 8 de julio de 2021. Consultado el 10 de julio de 2023.
- «OpenAI Announces 12 Billion Parameter Code-Generation AI Codex». InfoQ (en inglés). Consultado el 10 de julio de 2023.
- Anderson, Tim. «GitHub Copilot auto-coder snags emerge, from seemingly spilled secrets to bad code, but some love it». www.theregister.com (en inglés). Consultado el 10 de julio de 2023.
- Dorrier, Jason (15 de agosto de 2021). «OpenAI's Codex Translates Everyday Language Into Computer Code». Singularity Hub (en inglés estadounidense). Consultado el 10 de julio de 2023.
- «What to expect from OpenAI’s Codex API». VentureBeat (en inglés estadounidense). 16 de agosto de 2021. Consultado el 10 de julio de 2023.
- Metz, Cade (9 de septiembre de 2021). «A.I. Can Now Write Its Own Computer Code. That’s Good News for Humans.». The New York Times (en inglés estadounidense). ISSN 0362-4331. Consultado el 10 de julio de 2023.
- Chen, Mark; Tworek, Jerry; Jun, Heewoo; Yuan, Qiming; Pinto, Henrique Ponde de Oliveira; Kaplan, Jared; Edwards, Harri; Burda, Yuri; Joseph, Nicholas; Brockman, Greg; Ray, Alex (2021-07-14). "Evaluating Large Language Models Trained on Code"
- Vincent, James (10 de agosto de 2021). «OpenAI can translate English into code with its new machine learning software Codex». The Verge (en inglés estadounidense). Consultado el 11 de julio de 2023.
- Pearce, Hammond; Ahmad, Baleegh; Tan, Benjamin; Dolan-Gavitt, Brendan; Karri, Ramesh (2021-12-16). "Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions".
- Krill, Paul (2 de agosto de 2021). «GitHub Copilot is ‘unacceptable and unjust,’ says Free Software Foundation». InfoWorld (en inglés). Consultado el 11 de julio de 2023.
- «FSF-funded call for white papers on philosophical and legal questions around Copilot: Submit before Monday, August 23, 2021 — Free Software Foundation — Working together for free software». www.fsf.org. Consultado el 11 de julio de 2023.
- Barber, Gregory. «GitHub’s Commercial AI Tool Was Built From Open Source Code». Wired (en inglés estadounidense). ISSN 1059-1028. Consultado el 11 de julio de 2023.