BERT (modelo de lenguaje)
BERT (Bidirectional Encoder Representations from Transformers) o Representación de Codificador Bidireccional de Transformadores es una técnica basada en redes neuronales para el pre-entrenamiento del procesamiento del lenguaje natural (PLN) desarrollada por Google.[1] BERT fue creado y publicado en 2018 por Jacob Devlin y sus compañeros en Google.[2][3] Google está aprovechando BERT para comprender mejor las búsquedas de los usuarios.[4]
El modelo BERT original se creó usando dos corpus de lengua inglesa: BookCorpus y Wikipedia en inglés.
Rendimiento
Cuando se publicó BERT, logró un rendimiento de vanguardia en una serie de tareas de comprensión del lenguaje natural :
- Conjunto de tareas GLUE (Evaluación de comprensión del lenguaje general) (que consta de 9 tareas)
- SQuAD (Stanford Question Answering Dataset) v1.1 y v2.0.
- SWAG (situaciones con generaciones adversas)
Análisis
Aún no se conocen bien los motivos del rendimiento de vanguardia de BERT en estas tareas de comprensión del lenguaje natural.[5][6] La investigación actual se ha centrado en investigar la relación detrás de la salida de BERT como resultado de secuencias de entrada cuidadosamente elegidas,[7] [8] análisis de representaciones internas de vectores a través de clasificadores de prueba,[9] [10] y las relaciones representadas por los pesos de atención .
Historia
BERT tiene su origen en los modelos de pre-entrenamiento para representación de contexto, incluido el aprendizaje de secuencia semi-supervisado.[11] Ejemplos de estos modelos son: ELMo, desarrollado por una colaboración entre investigadores del Instituto Allen para la Inteligencia Artificial (de Microsoft) y la Universidad de Washington[12] y ULMFit (Ajuste del modelo de idioma universal para la clasificación de textos).[13]
No obstante, a diferencia de los modelos anteriores, BERT es una representación de lenguaje bidireccional (es decir que se juzgan las palabras ubicadas a la izquierda y a la derecha de cada uno de los términos),[14] sin supervisión (es decir, que no requiere un corpus con las respuestas correctas sino que se infieren directamente), pre-entrenada usando solo un corpus de texto plano.
Por otro lado, los modelos como word2vec o GloVe generan una representación de una sola palabra para cada palabra en el vocabulario, mientras que BERT tiene en cuenta el contexto para cada aparición de una palabra determinada. Por ejemplo, mientras que el vector para palabras polisémicas como "estrella" tendrá la misma representación vectorial de word2vec para sus dos ocurrencias en las oraciones "Es una estrella de rock" y "El sol es una estrella", BERT proporciona una representación diferente para cada oración.
El 25 de octubre de 2019, Google Search anunció que habían comenzado a aplicar modelos BERT para consultas de búsqueda en inglés dentro de Estados Unidos.[15] El 9 de diciembre de 2019, se informó que BERT había sido integrado a Google Search para más de 70 idiomas.[16]
Una encuesta de literatura de 2020 concluyó que "en poco más de un año, BERT se ha convertido en una línea de base omnipresente en los experimentos de procesamiento de lenguaje natural (NLP) que cuenta con más de 150 publicaciones de investigación que analizan y mejoran el modelo".[17]
Reconocimientos
BERT ganó el Premio al Mejor Artículo Largo en la Conferencia Anual (2019) del Capítulo de América del Norte de la Asociación de Lingüística Computacional (NAACL).[18]
Véase también
- Word2vec
- Document-term matrix
- Feature extraction
- Feature learning
- Neural network language models
- Vector space model
- Thought vector
- fastText
- GloVe
- TensorFlow
Referencias
- Martínez, Merche (5 de noviembre de 2019). «Google BERT: actualización para entender el lenguaje natural». Human Level. Consultado el 28 de julio de 2020.
- «Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing». Google AI Blog (en inglés). Consultado el 27 de noviembre de 2019.
- Cathal Horan (19 de abril de 2023). «Unmasking BERT: The Key to Transformer Model Performance» [Desenmascarando BERT: la clave para el rendimiento del modelo de transformador]. Neptune.ai (en inglés). Consultado el 9-5-2023.
- «Understanding searches better than ever before». Google (en inglés). 25 de octubre de 2019. Consultado el 27 de noviembre de 2019.
- Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna (November 2019). «Revealing the Dark Secrets of BERT». Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (en inglés estadounidense). pp. 4364-4373. doi:10.18653/v1/D19-1445.
- Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (2019). «What Does BERT Look at? An Analysis of BERT's Attention». Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Stroudsburg, PA, USA: Association for Computational Linguistics): 276-286. doi:10.18653/v1/w19-4828.
- Khandelwal, Urvashi; He, He; Qi, Peng; Jurafsky, Dan (2018). «Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context». Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (Stroudsburg, PA, USA: Association for Computational Linguistics): 284-294. Bibcode:2018arXiv180504623K. arXiv:1805.04623. doi:10.18653/v1/p18-1027.
- Gulordava, Kristina; Bojanowski, Piotr; Grave, Edouard; Linzen, Tal; Baroni, Marco (2018). «Colorless Green Recurrent Networks Dream Hierarchically». Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers) (Stroudsburg, PA, USA: Association for Computational Linguistics): 1195-1205. Bibcode:2018arXiv180311138G. arXiv:1803.11138. doi:10.18653/v1/n18-1108.
- Giulianelli, Mario; Harding, Jack; Mohnert, Florian; Hupkes, Dieuwke; Zuidema, Willem (2018). «Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information». Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Stroudsburg, PA, USA: Association for Computational Linguistics): 240-248. Bibcode:2018arXiv180808079G. arXiv:1808.08079. doi:10.18653/v1/w18-5426.
- Zhang, Kelly; Bowman, Samuel (2018). «Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis». Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Stroudsburg, PA, USA: Association for Computational Linguistics): 359-361. doi:10.18653/v1/w18-5448.
- Dai, Andrew M.; Le, Quoc V. (4 de noviembre de 2015). «Semi-supervised Sequence Learning». arXiv:1511.01432 [cs]. Consultado el 28 de julio de 2020.
- Peters, Matthew E.; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Zettlemoyer, Luke (22 de marzo de 2018). «Deep contextualized word representations». arXiv:1802.05365 [cs]. Consultado el 28 de julio de 2020.
- Howard, Jeremy; Ruder, Sebastian (23 de mayo de 2018). «Universal Language Model Fine-tuning for Text Classification». arXiv:1801.06146 [cs, stat]. Consultado el 28 de julio de 2020.
- Meijomil, Susana. «Guía avanzada de Google BERT: qué es, cómo funciona y en qué te afecta». www.inboundcycle.com. Consultado el 28 de julio de 2020.
- Nayak, Pandu (25 de octubre de 2019). «Understanding searches better than ever before». Google Blog. Consultado el 10 de diciembre de 2019.
- Montti, Roger (10 de diciembre de 2019). «Google's BERT Rolls Out Worldwide». Search Engine Journal. Search Engine Journal. Consultado el 10 de diciembre de 2019.
- Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). «A Primer in BERTology: What We Know About How BERT Works». Transactions of the Association for Computational Linguistics 8: 842-866. S2CID 211532403. arXiv:2002.12327. doi:10.1162/tacl_a_00349.
- «Best Paper Awards». NAACL. 2019. Consultado el 28 de marzo de 2020.