Apprentissage auto-supervisé

L'apprentissage auto-supervisé ("self-supervised learning" en anglais) (SSL) est une méthode d' apprentissage automatique . Il apprend à partir d'échantillons de données non étiquetés. Il peut être considéré comme une forme intermédiaire entre l'apprentissage supervisé et non supervisé. Il est basé sur un réseau de neurones artificiels . [1] Le réseau de neurones apprend en deux étapes. Tout d'abord, la tâche est résolue sur la base de pseudo-étiquettes qui aident à initialiser les poids du réseau. [2],[3] Deuxièmement, la tâche réelle est effectuée avec un apprentissage supervisé ou non supervisé. [4],[5],[6] L'apprentissage auto-supervisé a produit des résultats prometteurs ces dernières années et a trouvé une application pratique dans le traitement audio et est utilisé par Facebook et d'autres pour la reconnaissance vocale . [7] Le principal attrait du SSL est que la formation peut se produire avec des données de qualité inférieure, plutôt que d'améliorer les résultats finaux. L'apprentissage auto-supervisé imite de plus près la façon dont les humains apprennent à classifier les objets. [8]

Les types

Pour une tâche de classification binaire, les données d'apprentissage peuvent être divisées en exemples positifs et en exemples négatifs. Les exemples positifs sont ceux qui correspondent à la cible. Par exemple, si vous apprenez à identifier les oiseaux, les données d'entraînement positives sont les images qui contiennent des oiseaux. Les exemples négatifs sont ceux qui n'en contiennent pas. [9]

SSL contrasté

Le SSL contrasté utilise à la fois des exemples positifs et négatifs. La fonction de perte de l'apprentissage contrasté minimise la distance entre les échantillons positifs tout en maximisant la distance entre les échantillons négatifs. [9]

SSL non contrasté (NCSSL )

Le SSL non contrasté n'utilise que des exemples positifs. Contre-intuitivement, le NCSSL converge vers un minimum local utile plutôt que d'atteindre une solution triviale, avec une perte nulle. Pour l'exemple de la classification binaire, il faudrait trivialement apprendre à classer chaque exemple comme positif. Un NCSSL efficace nécessite un prédicteur supplémentaire du côté en ligne qui ne se propage pas du côté cible[9].

Comparaison avec d'autres formes d'apprentissage automatique

Le SSL appartient aux méthodes d'apprentissage supervisé dans la mesure où le but est de générer une sortie classifiée à partir de l'entrée. En même temps, cependant, il ne nécessite pas l'utilisation explicite de paires entrée-sortie étiquetées. Au lieu de cela, les corrélations, les métadonnées intégrées dans les données ou les connaissances du domaine présentes dans l'entrée sont extraites implicitement et automatiquement des données. [10] Ces signaux de supervision, générés à partir des données, peuvent ensuite être utilisés pour la formation[8].

Le SSL est similaire à l'apprentissage non supervisé en ce sens qu'il ne nécessite pas d'étiquettes dans les exemples de données. Contrairement à l'apprentissage non supervisé, cependant, l'apprentissage ne se fait pas à l'aide de structures de données inhérentes. [10]

L'apprentissage semi-supervisé combine l'apprentissage supervisé et non supervisé, ne nécessitant que l'étiquetage d'une petite partie des données d'apprentissage[3].

Dans l'apprentissage par transfert, un modèle conçu pour une tâche est réutilisé pour une tâche différente[11].

Exemples

L'apprentissage auto-supervisé est particulièrement adapté à la reconnaissance vocale. Par exemple, Facebook a développé wav2vec, un algorithme auto-supervisé, pour effectuer la reconnaissance vocale à l'aide de deux réseaux de neurones à convolution profonde qui s'appuient l'un sur l'autre[7].

Le modèle BERT ( Bidirectional Encoder Representations from Transformers ) de Google est utilisé pour mieux comprendre le contexte des requêtes de recherche[12].

Le GPT-3 d' OpenAI est un modèle de langage autorégressif qui peut être utilisé dans le traitement du langage. Il peut être utilisé pour traduire des textes ou répondre à des questions, entre autres. [13]

Bootstrap Your Own Latent est un NCSSL qui a produit d'excellents résultats sur ImageNet et sur les benchmarks de transfert et semi-supervisés. [14]

DirectPred est un NCSSL qui définit directement les poids des prédicteurs au lieu de l'apprendre via la mise à jour du gradient[9] .

Références

  1. (en) Abshire, « Self-Supervised Learning: A Key to Unlocking Self-Driving Cars? », Medium, (consulté le )
  2. Doersch et Zisserman, « Multi-task Self-Supervised Visual Learning », 2017 IEEE International Conference on Computer Vision (ICCV), IEEE, , p. 2070–2079 (ISBN 978-1-5386-1032-9, DOI 10.1109/iccv.2017.226, arXiv 1708.07860, S2CID 473729, lire en ligne)
  3. Beyer, Zhai, Oliver et Kolesnikov, « S4L: Self-Supervised Semi-Supervised Learning », 2019 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE, , p. 1476–1485 (ISBN 978-1-7281-4803-8, DOI 10.1109/iccv.2019.00156, arXiv 1905.03670, S2CID 167209887, lire en ligne)
  4. Doersch, Gupta et Efros, « Unsupervised Visual Representation Learning by Context Prediction », 2015 IEEE International Conference on Computer Vision (ICCV), IEEE, , p. 1422–1430 (ISBN 978-1-4673-8391-2, DOI 10.1109/iccv.2015.167, arXiv 1505.05192, S2CID 9062671, lire en ligne)
  5. Zheng, Wang, Wang et Liu, « Fast and robust segmentation of white blood cell images by self-supervised learning », Micron, vol. 107, , p. 55–71 (ISSN 0968-4328, PMID 29425969, DOI 10.1016/j.micron.2018.01.010, lire en ligne)
  6. Gidaris, Bursuc, Komodakis et Perez, « Boosting Few-Shot Visual Learning With Self-Supervision », 2019 IEEE/CVF International Conference on Computer Vision (ICCV), IEEE, , p. 8058–8067 (ISBN 978-1-7281-4803-8, DOI 10.1109/iccv.2019.00815, arXiv 1906.05186, S2CID 186206588, lire en ligne)
  7. (en) « Wav2vec: State-of-the-art speech recognition through self-supervision », ai.facebook.com (consulté le )
  8. (en) Bouchard, « What is Self-Supervised Learning? | Will machines ever be able to learn like humans? », Medium, (consulté le )
  9. (en) « Demystifying a key self-supervised learning technique: Non-contrastive learning », ai.facebook.com (consulté le )
  10. R. et L., « Problem Based Learning a Shift from Teaching Paradigm to the Learning Paradigm », Indian Journal of Dental Education, vol. 10, no 1, , p. 47–51 (ISSN 0974-6099, DOI 10.21088/ijde.0974.6099.10117.6, lire en ligne)
  11. Littwin et Wolf, « The Multiverse Loss for Robust Transfer Learning », 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, , p. 3957–3966 (ISBN 978-1-4673-8851-1, DOI 10.1109/cvpr.2016.429, arXiv 1511.09033, S2CID 6517610, lire en ligne)
  12. (en) « Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing », Google AI Blog (consulté le )
  13. Wilcox, Qian, Futrell et Kohita, « Structural Supervision Improves Few-Shot Learning and Syntactic Generalization in Neural Language Models », Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Stroudsburg, PA, USA, Association for Computational Linguistics, , p. 4640–4652 (DOI 10.18653/v1/2020.emnlp-main.375, arXiv 2010.05725, S2CID 222291675, lire en ligne)
  14. (en) Auteur inconnu « Bootstrap your own latent: A new approach to self-supervised Learning », {{{year}}}.

Liens externes

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.