LLM (modelo grande de lenguaje)

Un modelo de lenguaje colosal[1] o LLM (siglas en inglés para Large Language Model), también llamado modelo de lenguaje de gran tamaño, es un modelo de lenguaje que consta de una red neuronal con muchos parámetros (normalmente miles de millones o más), entrenados en grandes cantidades de texto sin etiquetar mediante aprendizaje autosupervisado o aprendizaje semisupervisado.[2] Los LLM surgieron alrededor de 2018 y se desempeñan bien en una amplia variedad de tareas. Esto ha cambiado el enfoque de la investigación del procesamiento del lenguaje natural alejándose del paradigma anterior de entrenar modelos supervisados especializados para tareas específicas.

Aunque el término modelo grande de lenguaje no tiene una definición formal, a menudo se refiere a modelos de aprendizaje profundo que tienen un recuento de parámetros del orden de miles de millones o más. Los LLM son modelos de propósito general que se destacan en una amplia gama de tareas, en lugar de estar capacitados para una tarea específica (como el análisis de sentimientos, el reconocimiento de entidades nombradas o el razonamiento matemático).[3] La habilidad con la que realizan las tareas y la gama de tareas de las que son capaces parece ser una función de la cantidad de recursos (datos, tamaño de los parámetros, potencia de cálculo) que se les dedican, de una manera que no depende sobre avances adicionales en el diseño.[4]

Aunque entrenados en tareas simples como predecir la siguiente palabra en una oración, se encuentran modelos de lenguaje neuronal con suficiente entrenamiento y conteo de parámetros para capturar gran parte de la sintaxis y la semántica del lenguaje humano. Además, los modelos de lenguaje grande demuestran un conocimiento general considerable sobre el mundo y son capaces de "memorizar" una gran cantidad de hechos durante el entrenamiento.

Propiedades

Conjuntos de datos de preentrenamiento

Los LLM están pre-entrenados en grandes conjuntos de datos textuales. Algunos conjuntos de datos textuales de uso común son Common Crawl, The Pile, MassiveText,[5] Wikipedia y GitHub. Los conjuntos de datos tienen un tamaño de hasta 10 billones de palabras.

El almacén de datos lingüísticos de alta calidad está dentro de los 4,6 a 17 billones de palabras, que está dentro de un orden de magnitud para los conjuntos de datos textuales más grandes.[6]

Leyes de escala

En general, un LLM se puede describir de manera incompleta con cuatro parámetros:[cita requerida] tamaño del modelo, tamaño del conjunto de datos de entrenamiento, costo de entrenamiento y rendimiento después del entrenamiento. Cada una de estas cuatro variables se puede definir con precisión en un número real, y empíricamente se encuentra que están relacionadas por leyes estadísticas simples, llamadas "leyes de escala".

Una ley de escala particular ("escala Chinchilla") para LLM entrenados autorregresivamente para una época, con un programa de tasa de aprendizaje logarítmico, establece que:[7]

donde las variables son:

es el costo de entrenar el modelo, en FLOPs.
es el número de parámetros en el modelo.
es el número de tokens en el conjunto de entrenamiento.
es la pérdida promedio de probabilidad logarítmica negativa por token (nats /token), lograda por el LLM capacitado en el conjunto de datos de prueba.

y los parámetros estadísticos son:

, lo que significa que cuesta 6 FLOP por parámetro entrenar en un token. Obsérvese que el costo de capacitación es mucho más alto que el costo de inferencia, donde cuesta de 1 a 2 FLOP por parámetro inferir en un token.
.

Habilidades emergentes

En una serie de puntos de referencia del lenguaje natural que involucran tareas como responder preguntas, los modelos no se desempeñan mejor que el azar hasta que alcanzan una cierta escala (en este caso, medida por cómputo de entrenamiento), momento en el cual su rendimiento aumenta considerablemente. Estos son ejemplos de habilidades emergentes.

Si bien generalmente se puede extrapolar el rendimiento de los modelos grandes en varias tareas en función del rendimiento de modelos más pequeños similares, a veces los modelos grandes experimentan un "cambio de fase discontinuo" en el que el modelo adquiere repentinamente habilidades sustanciales que no se ven en modelos más pequeños. Estas se conocen como "habilidades emergentes" y han sido objeto de un estudio sustancial. Los investigadores señalan que tales habilidades "no se pueden predecir simplemente extrapolando el rendimiento de modelos más pequeños".[3] Estas habilidades se descubren en lugar de programarse o diseñarse, en algunos casos solo después de que el LLM se haya implementado públicamente.[4] Se han descrito cientos de habilidades emergentes. Los ejemplos incluyen aritmética de varios pasos, aprobar exámenes de nivel universitario, identificar el significado previsto de una palabra,[3] indicaciones de cadena de pensamientos,[3] decodificar el Alfabeto Fonético Internacional, descifrar las letras de una palabra, identificar contenido ofensivo en párrafos de Hinglish (una combinación de hindi e inglés), y generando un equivalente en inglés similar a los proverbios en kiswahili.[8]

Alucinación

Se ha observado que los LLM generativos afirman con confianza afirmaciones de hecho que no parecen estar justificadas por sus datos de entrenamiento, un fenómeno que se ha denominado "alucinación".[9]

Arquitectura

Los modelos de lenguajes grandes han utilizado con mayor frecuencia la arquitectura de transformadores, que, desde 2018, se ha convertido en la técnica de aprendizaje profundo estándar para datos secuenciales (anteriormente, las arquitecturas recurrentes como LSTM eran las más comunes).

Tokenización

Los LLM son funciones matemáticas cuya entrada y salida son listas de números. En consecuencia, las palabras deben convertirse en números.

En general, un LLM usa un tokenizador separado. Un tokenizador es una función biyectiva que mapea entre textos y listas de enteros. El tokenizador generalmente se adapta primero a todo el conjunto de datos de entrenamiento y luego se congela antes de que se entrene el LLM. Una opción común es la codificación de pares de bytes.

Otra función de los tokenizadores es la compresión de texto, que ahorra cómputo. Las palabras o frases comunes como "dónde está" se pueden codificar en un token, en lugar de 7 caracteres. La serie OpenAI GPT utiliza un tokenizador donde 1 token se asigna a alrededor de 4 caracteres, o alrededor de 0,75 palabras, en texto común en inglés.[10] El texto en inglés poco común es menos predecible, por lo tanto, menos comprimible, por lo que requiere más tokens para codificar.

Un tokenizador no puede generar enteros arbitrarios. Por lo general, solo generan números enteros en el rango , dónde se llama su tamaño de vocabulario.

Algunos tokenizadores son capaces de manejar texto arbitrario (generalmente al operar directamente en Unicode), pero otros no. Al encontrar texto no codificable, un tokenizador generaría un token especial (a menudo 0) que representa "texto desconocido". Esto a menudo se escribe como [UNK], como en el documento BERT.

Otro token especial que se usa comúnmente es [PAD] (a menudo 1), para "relleno". Esto se usa porque los LLM generalmente se usan en lotes de texto a la vez, y estos textos no se codifican con la misma longitud. Dado que los LLM generalmente requieren que la entrada sea una matriz que no sea irregular, los textos codificados más cortos deben rellenarse hasta que coincidan con la longitud del más largo.

Output

El output de un LLM es una distribución de probabilidad sobre su vocabulario. Esto generalmente se implementa de la siguiente manera:

  • Al recibir un texto, la mayor parte del LLM genera un vector dónde es su tamaño de vocabulario (definido arriba).
  • el vector se pasa a través de una función softmax para obtener .

En el proceso, el vector generalmente se llama el vector logit no normalizado, y el vector se llama vector de probabilidad. Dado que el vector tiene entradas, todas no negativas, y suman 1, podemos interpretarlo como una distribución de probabilidad sobre —es decir, es una distribución de probabilidad sobre el vocabulario del LLM.

Considerar que la función softmax se define matemáticamente sin parámetros para variar. En consecuencia, no está entrenada.

Entrenamiento

La mayoría de los LLM se entrenan mediante preentrenamiento generativo, es decir, dado un conjunto de datos de entrenamiento de tokens de texto, el modelo predice los tokens en el conjunto de datos. Hay dos estilos generales de preentrenamiento generativo:[11]

  • autorregresivo (estilo GPT, "predecir la siguiente palabra"): Dado un segmento de texto como "Me gusta comer", el modelo predice los siguientes tokens, como "helado".
  • enmascarado ("estilo BERT",[12] "prueba cloze"): dado un segmento de texto como "Me gusta [MASCARILLA] [MASCARILLA] crema", el modelo predice los tokens enmascarados, como "comer helado".

Los LLM pueden recibir capacitación en tareas auxiliares que prueban su comprensión de la distribución de datos, como la predicción de la siguiente oración (NSP), en la que se presentan pares de oraciones y el modelo debe predecir si aparecen consecutivamente en el corpus de capacitación.[12]

Por lo general, los LLM están capacitados para minimizar una función de pérdida específica: la probabilidad logarítmica negativa promedio por token (también llamada pérdida de entropía cruzada).[13] Por ejemplo. si un modelo autorregresivo, dado "Me gusta comer", predice una distribución de probabilidad entonces la pérdida de probabilidad logarítmica negativa en este token es .

Durante el entrenamiento, la pérdida de regularización también se utiliza para estabilizar el entrenamiento. Sin embargo, la pérdida de regularización generalmente no se usa durante las pruebas y la evaluación. También hay muchos más criterios de evaluación más allá de la probabilidad logarítmica negativa.

Los primeros LLM se formaron en un corpus linguítico que tenía una dimensión de miles de millones de palabras.

GPT-1, el primer modelo de la serie numerada de modelos de transformadores preentrenados generativos de OpenAI, se entrenó en 2018 en BookCorpus, que consta de 985 millones de palabras.[14] En el mismo año, BERT se capacitó en una combinación de BookCorpus y Wikipedia en inglés, con un total de 3300 millones de palabras.[12] Desde entonces, los corpus de capacitación para LLM han aumentado en órdenes de magnitud, llegando a billones de tokens.[12]

Costo de entrenamiento

Los LLM son computacionalmente costosos de entrenar. Un estudio de 2020 estimó el costo de entrenar un modelo de 1500 millones de parámetros (2 órdenes de magnitud más pequeño que el estado del arte en ese momento) en $1,6 millones. Los avances en software y hardware han reducido sustancialmente el costo, con un documento de 2023 que informa un costo de 72,300 A100-GPU -horas para entrenar un modelo de 12 mil millones de parámetros.[15]

Para los LLMs basados en transformers, cuesta 6 FLOP por parámetro entrenar en un token. Debe considerarse que el costo de capacitación es mucho más alto que el costo de inferencia, donde cuesta de 1 a 2 FLOP por parámetro inferir en un token.[cita requerida]

Aplicación a tareas posteriores (downstream tasks)

Entre 2018 y 2020, el método estándar para preparar un LLM para una tarea específica de procesamiento del lenguaje natural (NLP) fue ajustar el modelo con capacitación adicional específica para la tarea. Posteriormente, se descubrió que los LLM más potentes, como GPT-3, pueden resolver tareas sin capacitación adicional a través de técnicas de "incitación", en las que el problema a resolver se presenta al modelo como un mensaje de texto, posiblemente con algunos ejemplos textuales de similares problemas y sus soluciones.

Ajuste fino (Fine-tuning)

El ajuste fino es la práctica de modificar un modelo de lenguaje previamente entrenado entrenándolo (de manera supervisada) en una tarea específica (por ejemplo, análisis de sentimientos, reconocimiento de entidades nombradas o etiquetado de partes del discurso).[16][17] Es una forma de transferencia de aprendizaje. Por lo general, implica la introducción de un nuevo conjunto de pesos (weights) [18] que conectan la capa final del modelo de lenguaje con el resultado de la tarea posterior. Los pesos originales del modelo de lenguaje pueden "congelarse", de modo que solo se aprenda la nueva capa de pesos que los conecta con la salida durante el entrenamiento. Alternativamente, los pesos originales pueden recibir pequeñas actualizaciones (posiblemente con capas anteriores congeladas).[12]

Indicaciones (prompting)

En el paradigma de indicaciones, popularizado por GPT-3,[3] el problema a resolver se formula a través de un mensaje de texto, que el modelo debe resolver proporcionando una finalización (a través de la inferencia). En las "indicaciones de pocas oportunidades", la indicación incluye una pequeña cantidad de ejemplos de pares similares (problema, solución). Por ejemplo, una tarea de análisis de opinión de etiquetar la opinión de una reseña de una película podría solicitarse de la siguiente manera:[3]

Reseña: Esta película apesta.
Sentimiento: negativo

Reseña: ¡Esta película es fantástica!
Sentimiento:

Si el modelo da como resultado "positivo", entonces ha resuelto correctamente la tarea. En las indicaciones de disparo cero (zero-shot),[Notas 1][19][20] no se proporcionan ejemplos de resolución. Un ejemplo de un aviso de disparo cero para la misma tarea de análisis de sentimiento sería "El sentimiento asociado con la reseña de la película '¡Esta película es fantástica!' ".

Se ha demostrado que el rendimiento de pocos disparos de los LLM logra resultados competitivos en tareas de PNL, a veces superando los enfoques de ajuste fino de última generación. Ejemplos de tales tareas de PNL son la traducción, la respuesta a preguntas, las tareas de cloze [Notas 2], descifrar palabras y usar una palabra nueva en una oración. La creación y optimización de dichos avisos se denomina ingeniería de avisos.

Ajuste de instrucciones

El ajuste de instrucciones es una forma de ajuste fino diseñado para facilitar interacciones de indicaciones de tiro cero más naturales y precisas. Dada una entrada de texto, un modelo de lenguaje previamente entrenado generará una terminación que coincida con la distribución del texto en el que fue entrenado. Un modelo de lenguaje ingenuo dado el mensaje "Escribe un ensayo sobre los temas principales de Hamlet ". podría proporcionar una finalización como "Se aplicará una multa por retraso del 10% por día a las presentaciones recibidas después del 17 de marzo". En el ajuste de instrucciones, el modelo de lenguaje se entrena en muchos ejemplos de tareas formuladas como instrucciones en lenguaje natural, junto con las respuestas apropiadas.

En la práctica se han aplicado diversas técnicas para la puesta punto de instrucciones.[20] Un ejemplo, "autoinstrucción", ajusta el modelo de lenguaje en un conjunto de ejemplos de entrenamiento que son generados por un LLM (arrancado a partir de un pequeño conjunto inicial de ejemplos generados por humanos).

Aprendizaje reforzado

El protocolo InstructGPT [21] de OpenAI implica un ajuste fino supervisado en un conjunto de datos de pares generados por humanos (solicitud, respuesta), seguido de un aprendizaje reforzado a partir de la retroalimentación humana (RLHF),[22] en el que se supervisó y aprendió un modelo de recompensa en un conjunto de datos de preferencias humanas, luego este modelo de recompensa se utilizó para capacitar al propio LLM mediante la optimización de políticas proximales.

Evaluación

Perplejidad

La medida más utilizada del rendimiento de un modelo de lenguaje es su perplejidad en un corpus de texto dado. La perplejidad es una medida del acierto con el que un modelo puede predecir el contenido de un conjunto de datos; cuanto mayor sea la probabilidad que el modelo asigna al conjunto de datos, menor será la perplejidad. Matemáticamente, la perplejidad se define como el exponencial de la probabilidad logarítmica negativa promedio por token:

aquí es el número de tokens en el corpus de texto, y el "contexto para el token i" depende del tipo específico de LLM utilizado. Si el LLM es autorregresivo, entonces el "contexto para el token i" es el segmento de texto que aparece antes del token i. Si el LLM está enmascarado, entonces el "contexto para el token i" es el segmento de texto que rodea al token i.[23]

Debido a que los modelos de lenguaje pueden sobreajustarse a sus datos de entrenamiento, los modelos generalmente se evalúan por su perplejidad en un conjunto de prueba de datos no vistos.[12] Esto presenta desafíos particulares para la evaluación de grandes modelos de lenguaje. A medida que se entrenan en corpus de texto cada vez más grandes extraídos en gran parte de la web, es cada vez más probable que los datos de entrenamiento de los modelos incluyan inadvertidamente partes de cualquier conjunto de prueba dado.[20]

Conjuntos de datos y puntos de referencia específicos de la tarea

También se ha desarrollado una gran cantidad de conjuntos de datos de prueba y puntos de referencia para evaluar las capacidades de los modelos de lenguaje en tareas posteriores más específicas. Las pruebas pueden diseñarse para evaluar una variedad de capacidades, incluido el conocimiento general, el razonamiento de sentido común y la resolución de problemas matemáticos.

Una amplia categoría de conjuntos de datos de evaluación son los conjuntos de datos de preguntas y respuestas, que consisten en pares de preguntas y respuestas correctas, por ejemplo, ("¿Han ganado los San Jose Sharks la Copa Stanley?"). , "No").[24] Una tarea de respuesta a una pregunta se considera un "libro abierto" si el mensaje del modelo incluye texto del que se puede derivar la respuesta esperada (por ejemplo, la pregunta anterior podría ir acompañada de algún texto que incluya la oración "Los Shraks han avanzado a la Copa Stanley finales una vez, perdiendo ante los Pittsburgh Penguins en 2016").[24] De lo contrario, la tarea se considera "libro cerrado" y el modelo debe basarse en el conocimiento retenido durante el entrenamiento.[25] Algunos ejemplos de conjuntos de datos de respuesta a preguntas de uso común incluyen TruthfulQA, Web Questions, TriviaQA y SQuAD.[25]

Los conjuntos de datos de evaluación también pueden tomar la forma de finalización de texto, haciendo que el modelo seleccione la palabra o la oración más probable para completar un mensaje, por ejemplo: "Alice era amiga de Bob. Alice fue a visitar a su amiga, ___".[20]

También se han desarrollado algunos puntos de referencia compuestos que combinan una diversidad de diferentes conjuntos de datos y tareas de evaluación. Los ejemplos incluyen GLUE, SuperGLUE, MMLU, BIG-bench y HELM.[26][25]

Anteriormente, era estándar informar los resultados en una parte retenida de un conjunto de datos de evaluación después de realizar un ajuste fino supervisado en el resto. Ahora es más común evaluar un modelo previamente entrenado directamente a través de técnicas de indicación, aunque los investigadores varían en los detalles de cómo formulan las indicaciones para tareas particulares, particularmente con respecto a cuántos ejemplos de tareas resueltas se adjuntan a la indicación (es decir, el valor de n en la solicitud de n disparos).

Evaluaciones construidas adversarialmente

Debido al rápido ritmo de mejora de los grandes modelos de lenguaje, los puntos de referencia de evaluación han sufrido una vida útil corta, con modelos de última generación que "saturan" rápidamente los puntos de referencia existentes, superando el rendimiento de los anotadores humanos, lo que lleva a esfuerzos para reemplazar o aumentar el punto de referencia con tareas más desafiantes.[27]

Algunos conjuntos de datos se han construido de manera contradictoria, centrándose en problemas particulares en los que los modelos de lenguaje existentes parecen tener un rendimiento inusualmente bajo en comparación con los humanos. Un ejemplo es el conjunto de datos TruthfulQA, un conjunto de datos de respuesta a preguntas que consta de 817 preguntas cuyos modelos de lenguaje son susceptibles de responder incorrectamente al imitar falsedades a las que fueron expuestos repetidamente durante el entrenamiento. Por ejemplo, un LLM puede responder "No" a la pregunta "¿Puedes enseñarle trucos nuevos a un perro viejo?" Debido a su exposición al idioma inglés , no puedes enseñarle nuevos trucos a un perro viejo,[28] aunque esto no es literalmente cierto.[29]

Otro ejemplo de un conjunto de datos de evaluación contradictorio es Swag y su sucesor, HellaSwag, colecciones de problemas en los que se debe seleccionar una de múltiples opciones para completar un pasaje de texto. Las finalizaciones incorrectas se generaron mediante el muestreo de un modelo de lenguaje y el filtrado con un conjunto de clasificadores. Los problemas resultantes son triviales para los humanos, pero en el momento en que se crearon los conjuntos de datos, los modelos de lenguaje de última generación tenían poca precisión. Por ejemplo:

Vemos un cartel de un gimnasio. Luego vemos a un hombre hablando a la cámara y sentado y acostado sobre una pelota de ejercicios. El hombre... a) demuestra cómo aumentar el trabajo de ejercicio eficiente corriendo pelotas hacia arriba y hacia abajo. b) mueve todos sus brazos y piernas y desarrolla mucho músculo. c) luego toca la pelota y vemos una demostración de gráficos y poda de setos. d) realiza abdominales mientras tiene la pelota y habla.[30]

BERT selecciona b) como la finalización más probable, aunque la respuesta correcta es d).[30]

Lista de modelos grandes de lenguaje

Lista de modelos grandes de lenguaje
Nombre Fecha[Notas 3] Empresa Número de parámetros[Notas 4] Tamaño Licencia[Notas 5] Notas
BERT 2018 Google 340 millones [31] 3.3 miles de millones de palabras [31]Sí Apache 2.0[32] Un modelo de lenguaje temprano e influyente, pero solo codificador y, por lo tanto, no está diseñado para ser impulsado (prompted) o generativo.[33]
XLNet 2019 Google ~340 millones[34] 33 miles de millones de palabras Una alternativa a BERT, diseñado solo como codificador[35][36]
GPT-2 2019 OpenAI 1.5 miles de millones 40GB[37] (~10 miles de millones tokens)[38]Sí MIT[39] Modelo de propósito general basado en la arquitectura del transformer
GPT-3 2020 OpenAI 175 miles de millones [40] 499 miles de millones tokens[38]API web pública Una variante mejorada de GPT-3, denominada GPT-3.5, se puso a disposición del público a través de una interfaz web llamada ChatGPT en 2022.[41]
GPT-Neo Marzo de 2021 EleutherAI 2.7 miles de millones [42] 825 GiB [43]Sí MIT [44] La primera de una serie de alternativas gratuitas de GPT-3 lanzadas por EleutherAI. GPT-Neo superó a un modelo GPT-3 de tamaño equivalente en algunos puntos de referencia, pero fue significativamente peor que el GPT-3 más grande.[44]
GPT-J Junio de 2021 EleutherAI 6 miles de millones[45] 825 GiB [46] Sí Apache 2.0 Modelo de lenguaje de estilo GPT-3
Megatron-Turing NLG Octubre de 2021[47] Microsoft y Nvidia 530 miles de millones [48] 338.6 miles de millones tokens [48]No Acceso web restringido Arquitectura estándar pero entrenada en un clúster de supercomputación.
Ernie 3.0 Titan Diciembre de 2021 Baidu 260 miles de millones[49] 4 TbNo Patentado LLM de idioma chino. Ernie Bot se basa en este modelo.
Claude[50] Diciembre de 2021 Anthropic 52 miles de millones [51] 400 miles de millones tokens [51] Beta cerrada Ajustado para el comportamiento deseable en las conversaciones.[52]
GLaM (Generalist Language Model) Diciembre de 2021 Google 1.2 trillion [53] 1.6 trillion tokens [53]No Patentado Modelo reducido de expertos, lo que hace que sea más costoso entrenar pero más barato ejecutar inferencias en comparación con GPT-3.
Gopher Diciembre de 2021 DeepMind 280 miles de millones[54] 300 mil millones de tokens [55] No Patentado
LaMDA (Language Models for Dialog Applications) Enero de 2022 Google 137 miles de millones [56] 1.56T de palabras, 168 miles de millones tokens [57] No Patentado Especializado para la generación de respuestas en conversaciones. Se utiliza en el chatbot Google Bard.
GPT-NeoX Febrero de 2022 EleutherAI 20 miles de millones[58] 825 GiB [59] Sí Apache 2.0 Basado en la arquitectura Megatron
Chinchilla Marzo de 2022 DeepMind 70 miles de millones [60] 1.4 trillion tokens [60]No Patentado Modelo de parámetros reducidos entrenado con más datos. Usado en el bot Sparrow.
PaLM (Pathways Language Model) Abril de 2022 Google 540 miles de millones [61] 768 miles de millones tokens [60]No Patentado Destinado a alcanzar los límites prácticos de la escala del modelo
OPT (Open Pretrained Transformer) Mayo de 2022 Meta 175 miles de millones[62] 180 miles de millones tokensInvestigación no comercial[63] Arquitectura GPT-3 con algunas adaptaciones de Megatron
YaLM 100B Junio de 2022 Yandex 100 miles de millones[64] 1.7TB[64] Sí Apache 2.0 Modelo inglés-ruso basado en Megatron-LM de Microsoft.
Minerva Junio de 2022 Google 540 miles de millones [65] 38.5B tokens de páginas web filtradas para contenido matemático y de artículos enviados al servidor de preimpresión arXiv [65]No Patentado LLM capacitado para resolver "cuestiones matemáticas y científicas utilizando el razonamiento paso a paso".[66] Minerva se basa en el modelo PaLM, más capacitado en datos matemáticos y científicos.
BLOOM Julio de 2022 Gran colaboración liderada por Hugging Face 175 miles de millones [67] 350 miles de millones tokens (1.6TB)[68]Sí IA responsable Esencialmente GPT-3 pero entrenado en un corpus multilingüe (30% inglés excluyendo lenguajes de programación)
Galactica Noviembre de 2022 Meta 120 miles de millones 106 miles de millones tokens [69]CC-BY-NC-4.0 Entrenado en texto científico y modalidades.
AlexaTM (Teacher Models)Noviembre de 2022Amazon20 billion [70]1.3 trillion[71]API web pública [72] arquitectura bidireccional de secuencia a secuencia
LLaMA (Large Language Model Meta AI) Febrero de 2023 Meta 65 miles de millones [73] 1.4 trillion [73] Capacitado en un gran corpus de 20 idiomas para apuntar a un mejor rendimiento con menos parámetros. Investigadores de la Universidad de Stanford entrenaron un modelo afinado basado en pesos LLaMA, llamado Alpaca.[74]
GPT-4 Marzo de 2023 OpenAI Número exacto desconocido, aproximadamente 1 billón [Notas 6][75] DesconociAPI web pública Disponible para usuarios de ChatGPT Plus y utilizado en varios productos.
Cerebras-GPT Marzo de 2023 Cerebras 13 miles de millones[76] Sí Apache 2.0 Entrenado con la fórmula de Chinchilla.
Falcon Marzo de 2023 Technology Innovation Institute 40 miles de millones[77] 1 Trillion tokens (1TB)[77]No Patentado Se afirma que el modelo usa solo el 75% del cálculo de entrenamiento de GPT-3, el 40% de Chinchilla y el 80% de PaLM-62B.
BloombergGPT Marzo de 2023 Bloomberg L.P. 50 miles de millones 363 miles de millones token conjunto de datos basado en las fuentes de datos de Bloomberg, plus 345 miles de millones tokens de conjuntos de datos de propósito general[78]No Patentado LLM entrenado en datos financieros de fuentes patentadas, que "supera a los modelos existentes en tareas financieras por márgenes significativos sin sacrificar el rendimiento en los puntos de referencia generales de LLM" [78]
PanGu-Σ Marzo de 2023 Huawei 1.085 billones 329 miles de millones tokens[79]No Patentado
OpenAssistant[80] Marzo de 2023 LAION 17 miles de millones 1.5 trillion tokensSí Apache 2.0 Entrenado en datos abiertos de colaboración colectiva

Véase también

Referencias

  1. Large (wordreference)
  2. Goled, Shraddha (7 de mayo de 2021). «Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ». Analytics India Magazine.
  3. Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten et al. (31 de agosto de 2022). «Emergent Abilities of Large Language Models». Transactions on Machine Learning Research (en inglés). ISSN 2835-8856.
  4. Bowman, Samuel R. Eight Things to Know about Large Language Models.
  5. «Papers with Code - MassiveText Dataset». paperswithcode.com (en inglés). Consultado el 26 de abril de 2023.
  6. Villalobos, Pablo; Sevilla, Jaime; Heim, Lennart; Besiroglu, Tamay; Hobbhahn, Marius; Ho, Anson (25 de octubre de 2022). «Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning». arXiv:2211.04325 [cs].
  7. Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne et al. (29 de marzo de 2022). «Training Compute-Optimal Large Language Models». arXiv:2203.15556 [cs].
  8. Ornes, Stephen (16 de marzo de 2023). «The Unpredictable Abilities Emerging From Large AI Models». Quanta Magazine.
  9. Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin et al. (November 2022). «Survey of Hallucination in Natural Language Generation» (pdf). ACM Computing Surveys (Association for Computing Machinery) 55 (12): 1-38. arXiv:2202.03629. doi:10.1145/3571730. Consultado el 15 de enero de 2023.
  10. «OpenAI API». platform.openai.com (en inglés). Archivado desde el original el 23 de abril de 2023. Consultado el 30 de abril de 2023.
  11. Zaib, Munazza; Sheng, Quan Z.; Emma Zhang, Wei (4 de febrero de 2020). «A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP». Proceedings of the Australasian Computer Science Week Multiconference: 1-4. ISBN 9781450376976. arXiv:2104.10810. doi:10.1145/3373017.3373028.
  12. Jurafsky, Dan; Martin, James H. (7-1-2023). «Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition». Consultado el 8-5-2023.
  13. Cybenko, George; O'Leary, Dianne P.; Rissanen, Jorma (7 de diciembre de 1998). The Mathematics of Information Coding, Extraction and Distribution (en inglés). Springer Science & Business Media. ISBN 978-0-387-98665-4. Consultado el 8 de mayo de 2023.
  14. Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (December 2015). «Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books». 2015 IEEE International Conference on Computer Vision (ICCV): 19-27. ISBN 978-1-4673-8391-2. arXiv:1506.06724. doi:10.1109/ICCV.2015.11. Consultado el 11 de abril de 2023.
  15. Biderman, Stella; Schoelkopf, Hailey; Anthony, Quentin; Bradley, Herbie; Khan, Mohammad Aflah; Purohit, Shivanshu; Prashanth, USVSN Sai (April 2023). «Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling». .
  16. Quinn, Joanne (2020). Dive into deep learning: tools for engagement. Thousand Oaks, California. p. 551. ISBN 978-1-5443-6137-6. Archivado desde el original el 10 de enero de 2023. Consultado el 10 de enero de 2023.
  17. «CS231n Convolutional Neural Networks for Visual Recognition». cs231n.github.io. Consultado el 8-5-2023.
  18. «What is Weight (Artificial Neural Network)?». DeepAI (en inglés). Consultado el 8-5-2023.
  19. Xian, Yongqin; Lampert, Christoph H.; Schiele, Bernt; Akata, Zeynep (2020-09-23). «Zero-Shot Learning -- A Comprehensive Evaluation of the Good, the Bad and the Ugly». .
  20. Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (Dec 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. «Language Models are Few-Shot Learners». Curran Associates, Inc. 33: 1877–1901. Consultado el 8-5-2023.
  21. Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe (4-3-2022). «Training language models to follow instructions with human feedback» (en inglés). Consultado el 8-5-2023.
  22. «Illustrating Reinforcement Learning from Human Feedback (RLHF)» (en inglés). 9-12-2022. Consultado el 8-5-2023.
  23. «Perplexity in Language Models» (en inglés). Consultado el 8-5-2023.
  24. Clark, Christopher; Lee, Kenton; Chang, Ming-Wei; Kwiatkowski, Tom; Collins, Michael; Toutanova, Kristina (24 de mayo de 2019). «BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions». arXiv:1905.10044 [cs]. Consultado el 8 de mayo de 2023.
  25. Zhao, Wayne Xin; Zhou, Kun; Li, Junyi; Tang, Tianyi; Wang, Xiaolei; Hou, Yupeng; Min, Yingqian; Zhang, Beichen et al. (28 de abril de 2023). «A Survey of Large Language Models». arXiv:2303.18223 [cs]. Consultado el 8 de mayo de 2023.
  26. Chip Huyen (19 de octubre de 2019). «Evaluation Metrics for Language Modeling». The Gradient (en inglés). Consultado el 8 de mayo de 2023.
  27. Srivastava, Aarohi; Rastogi, Abhinav; Rao, Abhishek; Shoeb, Abu Awal Md; Abid, Abubakar; Fisch, Adam; Brown, Adam R.; Santoro, Adam et al. (10 de junio de 2022). «Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models». arXiv:2206.04615 [cs, stat]. Consultado el 8 de mayo de 2023.
  28. «you can't teach an old dog new tricks». Consultado el 9-5-2023.
  29. Lin, Stephanie; Hilton, Jacob; Evans, Owain (7 de mayo de 2022). «TruthfulQA: Measuring How Models Mimic Human Falsehoods». arXiv:2109.07958 [cs]. Consultado el 8 de mayo de 2023.
  30. Zellers, Rowan; Holtzman, Ari; Bisk, Yonatan; Farhadi, Ali; Choi, Yejin (19 de mayo de 2019). «HellaSwag: Can a Machine Really Finish Your Sentence?». arXiv:1905.07830 [cs]. Consultado el 8 de mayo de 2023.
  31. Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (24 de mayo de 2019). «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding». arXiv:1810.04805 [cs]. Consultado el 8 de mayo de 2023.
  32. «BERT». 13 de marzo de 2023 via GitHub.
  33. Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin; Callison-Burch, Chris (2022). «Bidirectional Language Models Are Also Few-shot Learners». ArXiv (en inglés).
  34. «BERT, RoBERTa, DistilBERT, XLNet: Which one to use?».
  35. Naik, Amit Raja (23 de septiembre de 2021). «Google Introduces New Architecture To Reduce Cost Of Transformers». Analytics India Magazine.
  36. Yang, Zhilin; Dai, Zihang; Yang, Yiming; Carbonell, Jaime; Salakhutdinov, Ruslan; Le, Quoc V. (2 de enero de 2020). «XLNet: Generalized Autoregressive Pretraining for Language Understanding». arXiv:1906.08237 [cs]. Consultado el 5 de mayo de 2023.
  37. «Better language models and their implications». openai.com.
  38. «OpenAI's GPT-3 Language Model: A Technical Overview». lambdalabs.com (en inglés).
  39. «gpt-2». GitHub. Consultado el 13 de marzo de 2023.
  40. Wiggers, Kyle (28 de abril de 2022). «The emerging types of language models and why they matter». TechCrunch (en inglés estadounidense). Consultado el 8 de mayo de 2023.
  41. «Introducing ChatGPT». openai.com (en inglés estadounidense). Consultado el 8 de mayo de 2023.
  42. GPT Neo, EleutherAI, 8 de mayo de 2023, consultado el 8 de mayo de 2023.
  43. Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace et al. (31 de diciembre de 2020). «The Pile: An 800GB Dataset of Diverse Text for Language Modeling». arXiv:2101.00027 [cs]. Consultado el 8 de mayo de 2023.
  44. «GPT-3’s free alternative GPT-Neo is something to be excited about». VentureBeat (en inglés estadounidense). 15 de mayo de 2021. Consultado el 8 de mayo de 2023.
  45. «GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront». www.forefront.ai (en inglés). Consultado el 28 de febrero de 2023.
  46. Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace et ál. (2020-12-31). «The Pile: An 800GB Dataset of Diverse Text for Language Modeling». .
  47. Alvi, Ali (11 de octubre de 2021). «Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model». Microsoft Research.
  48. Smith, Shaden; Patwary, Mostofa; Norick, Brandon; LeGresley, Patrick; Rajbhandari, Samyam; Casper, Jared; Liu, Zhun; Prabhumoye, Shrimai et al. (4 de febrero de 2022). «Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model». arXiv:2201.11990 [cs]. Consultado el 8 de mayo de 2023.
  49. Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu; Gong, Weibao; Feng, Shikun; Shang, Junyuan et al. (23 de diciembre de 2021). ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation. arXiv:2112.12731.
  50. «Product». Anthropic (en inglés). Consultado el 14 de marzo de 2023.
  51. Askell, Amanda; Bai, Yuntao; Chen, Anna et ál. (2021-12-09). «A General Language Assistant as a Laboratory for Alignment». .
  52. Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan et ál. (2022-12-15). «Constitutional AI: Harmlessness from AI Feedback». .
  53. «More Efficient In-Context Learning with GLaM». ai.googleblog.com (en inglés). Consultado el 8 de mayo de 2023.
  54. «Language modelling at scale: Gopher, ethical considerations, and retrieval». www.deepmind.com (en inglés). Consultado el 20 de marzo de 2023.
  55. Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne et al. (29 de marzo de 2022). «Training Compute-Optimal Large Language Models». arXiv:2203.15556 [cs]. Consultado el 8 de mayo de 2023.
  56. «LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything». ai.googleblog.com (en inglés). Consultado el 8 de mayo de 2023.
  57. Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur et ál. (2022-03-29). «Training Compute-Optimal Large Language Models». .
  58. . Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models. Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models. 1 de mayo de 2022. pp. 95-136.
  59. Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace et ál. (2020-12-31). «The Pile: An 800GB Dataset of Diverse Text for Language Modeling». .
  60. Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Laurent Sifre (12-4-2022). «An empirical analysis of compute-optimal large language model training». www.deepmind.com (en inglés). Consultado el 8 de mayo de 2023.
  61. Sharan Narang and Aakanksha Chowdhery (4-4-2022). «Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance». ai.googleblog.com (en inglés). Consultado el 8 de mayo de 2023.
  62. «Democratizing access to large-scale language models with OPT-175B». ai.facebook.com (en inglés).
  63. The smaller models including 66B are publicly available, while the 175B model is available on request.
  64. Khrushchev, Mikhail; Vasilev, Ruslan; Petrov, Alexey; Zinov, Nikolay (22 de junio de 2022), YaLM 100B, consultado el 18 de marzo de 2023.
  65. Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk; Ramasesh, Vinay; Slone, Ambrose; Anil, Cem et al. (30 de junio de 2022). «Solving Quantitative Reasoning Problems with Language Models». arXiv:2206.14858 [cs]. Consultado el 8 de mayo de 2023.
  66. Ethan Dyer and Guy Gur-Ari (30 de junio de 2022). «Minerva: Solving Quantitative Reasoning Problems with Language Models». ai.googleblog.com (en inglés). Consultado el 8 de mayo de 2023.
  67. Ananthaswamy, Anil (8 de marzo de 2023). «In AI, is bigger always better?». Nature (en inglés) 615 (7951): 202-205. doi:10.1038/d41586-023-00641-w. Consultado el 8 de mayo de 2023.
  68. «bigscience/bloom · Hugging Face». huggingface.co.
  69. Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor et al. (16 de noviembre de 2022). «Galactica: A Large Language Model for Science». arXiv:2211.09085 [cs, stat]. Consultado el 8 de mayo de 2023.
  70. "20B-parameter Alexa model sets new marks in few-shot learning". Amazon Science. 2 de agosto de 2022.
  71. Soltan, Saleh; Ananthakrishnan, Shankar; FitzGerald, Jack et ál. (2022-08-03). «AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model». .
  72. "AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog". aws.amazon.com. 17 de noviembre de 2022. Consultado el 8 de mayo de 2023.
  73. «Introducing LLaMA: A foundational, 65-billion-parameter language model». ai.facebook.com. Consultado el 8 de mayo de 2023.
  74. «Stanford CRFM». crfm.stanford.edu.
  75. "GPT-4 Technical Report" (PDF). OpenAI. 2023. Archived (PDF) from the original on March 14, 2023. Retrieved March 14, 2023.
  76. Dey, Nolan (28 de marzo de 2023). «Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models». Cerebras.
  77. «Abu Dhabi-based TII launches its own version of ChatGPT». tii.ae.
  78. Wu, Shijie; Irsoy, Ozan; Lu, Steven; Dabravolski, Vadim; Dredze, Mark; Gehrmann, Sebastian; Kambadur, Prabhanjan; Rosenberg, David et al. (30 de marzo de 2023). BloombergGPT: A Large Language Model for Finance. arXiv:2303.17564.
  79. Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda et al. (19 de marzo de 2023). PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing. arXiv:2303.10845.
  80. Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh et al. (14 de abril de 2023). «OpenAssistant Conversations -- Democratizing Large Language Model Alignment». arXiv:2304.07327 [cs].

Notas

    1. El aprendizaje de disparo cero (ZSL) es una configuración de problemas en el aprendizaje automático donde, en el momento de la prueba, un alumno observa muestras de clases que no se observaron durante el entrenamiento y necesita predecir la clase a la que pertenece. Los métodos de tiro cero generalmente funcionan asociando clases observadas y no observadas a través de alguna forma de información auxiliar, que codifica las propiedades distintivas observables de los objetos.
    2. Una prueba de cloze (también prueba de eliminación de cloze o prueba de oclusión) es un ejercicio, prueba o evaluación que consiste en una parte del idioma con ciertos elementos, palabras o signos eliminados (texto cloze), donde se le pide al participante que reemplace el elemento faltante.
    3. Esta es la fecha en que se publicó por primera vez la documentación que describe la arquitectura del modelo.
    4. En muchos casos, los investigadores publican o informan sobre múltiples versiones de un modelo que tiene diferentes tamaños. En estos casos, aquí se indica el tamaño del modelo más grande.
    5. Esta es la licencia de los modelos pre-entrenados. En casi todos los casos, el código de entrenamiento en sí es de código abierto o se puede replicar fácilmente.
    6. Como se indica en el Informe técnico: "Dado el panorama competitivo y las implicaciones de seguridad de los modelos a gran escala como GPT-4, este informe no contiene más detalles sobre la arquitectura (incluido el tamaño del modelo), el hardware, el cálculo de entrenamiento, la construcción de conjuntos de datos, el entrenamiento método ..." Número aproximado en el cuadro de comparación que compara el almacenamiento relativo, del mismo informe.


      Este artículo ha sido escrito por Wikipedia. El texto está disponible bajo la licencia Creative Commons - Atribución - CompartirIgual. Pueden aplicarse cláusulas adicionales a los archivos multimedia.