Ingeniería rápida

La ingeniería rápida o ingeniería de instrucciones[1] (prompt engineering en inglés) es un concepto en inteligencia artificial (IA), en particular del procesamiento del lenguaje natural (PNL). En la ingeniería de instrucciones, la descripción de la tarea que se supone que debe realizar la IA está incrustada en la entrada, por ejemplo, como una pregunta, en lugar de que se proporcione explícitamente. La ingeniería rápida generalmente funciona convirtiendo una o más tareas en un conjunto de datos basado en mensajes y entrenando un modelo de lenguaje con lo que se ha llamado "aprendizaje basado en mensajes" o simplemente "aprendizaje rápido".

Historia

Los modelos de lenguaje GPT-2 y GPT-3 fueron pasos muy importantes en la ingeniería de instrucciones. En 2021, multitarea la ingeniería rápida que utiliza múltiples conjuntos de datos de NLP mostró un buen rendimiento en nuevas tareas. En un método llamado indicaciones de cadena de pensamiento (chain-of-thought - CoT), se le dieron al modelo de lenguaje algunos ejemplos de tareas los cuales mejoraron su capacidad de razonar. La amplia accesibilidad de estas herramientas fue impulsada por la publicación de varios cuadernos de código abierto y proyectos dirigidos por la comunidad para la síntesis de imágenes.[2]

Una descripción para el manejo de instrucciones o prompts informó que más de 2000 avisos públicos para alrededor de 170 conjuntos de datos estaban disponibles en febrero de 2022.

Técnicas

Ajuste de prefijo (Prefix-tuning)

La ingeniería de instrucciones puede funcionar a partir de un modelo de lenguaje grande (LLM), que está "congelado" (en el sentido que está preentrenado), donde solo se aprende la representación del aviso (en otras palabras, se optimiza), utilizando métodos como por ejemplo "prefix-tuning" o "prompt tuning".

Cadena de pensamiento (Chain-of-thought)

Las indicaciones de cadena de pensamiento (CoT) mejoran la capacidad de razonamiento de los LLM al incitarlos a generar una serie de pasos intermedios que conducen a la respuesta final de un problema de varios pasos. [3] La técnica, por primera vez, fue propuesta por los investigadores de Google en 2022. [4] [5]

Referencias

  1. «Prompt Engineering: todo lo que debes saber | Blog EAE». www.eaeprogramas.es. Consultado el 21 de agosto de 2023.
  2. Liu, Vivian; Chilton, Lydia (2022). Design Guidelines for Prompt Engineering Text-to-Image Generative Models. Association for Computing Machinery. p. ACM Digital Library |página= y |páginas= redundantes (ayuda). ISBN 9781450391573. doi:10.1145/3491102.3501825. Consultado el 26 de octubre de 2022.
  3. McAuliffe, Zachary. «Google's Latest AI Model Can Be Taught How to Solve Problems». CNET (en inglés). Consultado el 10 de marzo de 2023.
  4. Wei, Jason; Wang, Xuezhi; Schuurmans, Dale; Bosma, Maarten; Ichter, Brian; Xia, Fei; Chi, Ed H.; Le, Quoc V. et al. (31 de octubre de 2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (en inglés). arXiv:2201.11903.
  5. Wei, Jason. «Language Models Perform Reasoning via Chain of Thought». ai.googleblog.com (en inglés). Consultado el 10 de marzo de 2023.
Este artículo ha sido escrito por Wikipedia. El texto está disponible bajo la licencia Creative Commons - Atribución - CompartirIgual. Pueden aplicarse cláusulas adicionales a los archivos multimedia.