reCAPTCHA

reCAPTCHA est un système de détection automatisée d'utilisateurs appartenant à Google et mettant à profit les capacités de reconnaissance de ces derniers, mobilisées par les tests CAPTCHA, pour améliorer par la même occasion le processus de reconnaissance des formes par les robots. Jusqu'en 2014, il était présenté sous forme de CAPTCHA de reconnaissance de texte, et servait à la numérisation de livres, là où échouaient les systèmes de reconnaissance optique de caractères (OCR). Aujourd'hui il s'agit d'une case à cocher, suivie, si jugé nécessaire par le robot, par un CAPTCHA de reconnaissance d'images.

Mis au point par des chercheurs de la Carnegie Mellon School of Computer Science (en) de l'université Carnegie-Mellon à Pittsburgh, dont était également issu le projet CAPTCHA[1], le système appartient à Google depuis fin 2009[2],[3].

Description

L'idée est de rendre utile une tâche qui peut sembler rébarbative. La technique tient du crowdsourcing.

Concrètement, par rapport à un processus habituel d'authentification par CAPTCHA, ce ne sont pas un mais deux mots qui sont présentés à l'utilisateur. L'un d'eux est un CAPTCHA habituel, dont la solution est par conséquent connue de manière certaine ; seul l'autre est issu de la numérisation d'un livre : c'est celui dont la solution est incertaine voire inconnue et que l'utilisateur va aider à résoudre.

Le système part du principe que si les utilisateurs résolvent correctement le CAPTCHA habituel, alors ils ont aussi déchiffré correctement le mot inconnu. Néanmoins, un mot n'est considéré comme vraiment reconnu que si plusieurs utilisateurs l'ont vérifié en obtenant le même résultat.

Les mots à reconnaître sont issus de numérisations opérées par Internet Archive sur des ouvrages anciens appartenant au domaine public. Ils sont fournis lors des requêtes par le site web du projet reCAPTCHA. Ceci est réalisé au moyen d'une API écrite en JavaScript, dans laquelle le serveur rappelle reCAPTCHA après que la requête a été soumise. Le projet reCAPTCHA propose des bibliothèques pour différents langages de programmation afin de faciliter le processus. Le service est gratuit, à l'exception des utilisateurs qui auraient besoin d'une bande passante trop élevée.

Le but de reCAPTCHA est le même que celui poursuivi par Distributed Proofreaders, un autre projet visant également à valider l'OCR par des opérateurs humains, mais de manière conventionnelle, sans avoir recours à un système de CAPTCHA.

En 2012, les algorithmes de reconnaissance de caractères de Google étant devenus suffisamment performants pour ne plus avoir besoin d'utilisateurs, Google réoriente le service vers la reconnaissance d'objets dans des images.

Le système reCAPTCHA demandant de cliquer sur des photographies ne peut pas fonctionner si la connexion à gstatic.com est interdite (par un pare-feu, par exemple).

Histoire

En 2009, le projet reCAPTCHA est à même de numériser les archives du New York Times : en , environ 20 ans d'archives avaient été numérisés, et les responsables du projet espéraient avoir complètement numérisé les 110 autres années avant la fin de 2010[4].

Le , Google annonce l'acquisition de la société reCAPTCHA[2]. Celle-ci est alors utilisée principalement dans le processus de numérisation d'ouvrages Google Books.

Depuis , reCAPTCHA se présente sous forme d'une reconnaissance d'images issues de Google Street View et est utilisé par Google pour l'améliorer[5].

En , une troisième version de reCAPTCHA évite à l'internaute d'avoir à taper des caractères ou des chiffres : il n'a plus qu'à cliquer sur une case. Un système à base d'intelligence artificielle détecte s'il s'agit bien d'un clic fait par un humain et si c'est bien le cas, le CAPTCHA est validé[6]. Toutefois, le processus a toujours une utilité pour Google, car les clics des utilisateurs servent à entraîner des intelligences artificielles, dans les voitures autonomes notamment[2]. Une version audio existe pour les personnes malvoyantes. Les interactions enregistrées par le site (déplacement de souris, sons, etc.) servent aussi à identifier la probabilité d'être face à un robot, et augmenter le niveau du défi proposé selon ce risque[7].

Compatibilité avec la législation

L'outil reCaptcha indique collecter des données sur les matériels et les logiciels, sans préciser lesquelles, et sans garantir un hébergement à l'intérieur de l'Union Européenne[8] comme le demande le RGPD.

La CNIL a publié la décision n° MED-2020-015 le 15 juillet 2020, elle mettait en demeure le ministère des solidarités et de la santé[9] dans le contexte de l'application StopCovid. La CNIL y relève que l'usage de reCAPTCHA doit être précisé dans l'analyse d'impact (AIPD) d'un logiciel, sous peine de manquement à l'article 35 du RGPD[10]. Elle précise aussi que les développeurs sont clairement informés par Google dans ses conditions d'utilisation que cet usage est soumis à une demande de consentement de la part des personnes qui l'utilisent[8], puisque la collecte de données n'a pas pour seul objet la sécurisation de l'application. Enfin, elle signale que ne pas demander le consentement des personnes utilisatrices constitue un manquement à l'article 82 de la Loi informatique et libertés[11].

Collecte de données

Les données colletées par reCaptcha sur chaque personne concernent les matériels et les logiciels utilisés, sans garantir un hébergement à l'intérieur de l'Union Européenne[8].

Elles sont les mêmes que pour les autres produits Google[12]. En particulier, les mouvements de souris et les sont enregistrés sont exploités pour calculer s'il est plausible que la réponse soit donnée par un être humain[7].

Les différents outils Google collectent des données qui sont exploitées pour améliorer l'efficacité des services Google, tels que Google Ads. Ces outils Google partagent la même politique de confidentialité, vers laquelle redirige chaque service[13]. La quantité importante de services proposés par Google a mené Google à fusionner le 1er mars 2012 les 70 documents de confidentialité et les 60 règles existantes présentant le traitement des données collectées par les différents services.

La centralisation de la gestion des données collectées dans les services tels que Analytics ou Android à travers un compte Google est justifiée par un objectif de croisement de ces données pour apporter par un service plus personnalisé mais aussi une publicité plus ciblée, qui ont soulevé des inquiétudes sur la vie privée[14]. Certains services comme Google wallet ou le logiciel Google chrome garderont néanmoins des règles spécifiques du fait de contraintes règlementaires particulières[15].

Applications, navigateurs et appareil

Les données collectées pour une personne varient selon qu'elle ait un compte Google ou pas.

Utilisation sans compte Google

L'usage de services Google sans compte donne lieu à la collecte d'informations. Celles-ci comportent l'identifiant unique associé au navigateur, application ou appareil (ordinateur portable, téléphone, tablette, etc.), les préférences (langue, acceptation des publicités, personnalisation des recherches), le système d'exploitation et sa version. Elles incluent les échanges avec d'autres personnes à travers les services Google (courrier électronique, photos, vidéos enregistrées, documents en ligne, commentaires Youtube, etc.)[13].

Utilisation avec un compte Google

Un compte Google est associé à plusieurs informations, obligatoires, nom et mot de passe, ou optionnelles, telles qu'un numéro de téléphone et des informations de paiement[13].

Activité

L'activité sur les différents services est collectée, l'objectif affiché est d'adapter le résultat des pages à chaque personne.

Parmi l'activité sur les services Google, les informations collectées regroupent[13] :

  • les mots-clés recherchés, incluant les mots-clés entrés sur les moteurs de recherche, qu'il s'agisse de Google, ou des recherches sur YouTube, Google Maps, Google Livres, Google Actualités, Google Home, etc. , ce quel que soit l'appareil utilisé ;
  • les vidéos regardées, sur YouTube mais aussi sur les pages qui proposent des vidéos YouTube ;
  • les interactions avec les publicités, incluant les déplacements de souris au dessus des publicités sans nécessiter de clic, et dans les pages qui les contiennent ;
  • les informations audio et vocales captées, comme les sons enregistrés par les assistants vocaux Google Home, de téléphone mobile et de tablette ; cela inclue des enregistrements sur un certain intervalle de temps avant leur activation audio (pour identifier une activation) ;
  • les activités autour des achats ;
  • les personnes avec lesquelles ont lieu des échanges ou des partages de contenus ;
  • l'activité sur les sites tiers et les applications qui utilisent les services Google, comme les applications utilisant une bibliothèque de développement comme Google Firebase, les sites utilisant Google Analytics pour l'analyse de trafic, ou Google Ads pour générer des revenus avec la publicité, les pixels espions intégrés dans les pages visitées ou les courriers électroniques, le cache de navigateur Chrome ou des applications Android, etc. ;
  • l'historique de navigation Chrome synchronisée avec un compte Google ;
  • les métadonnées des appels et messages passés par les services Google tels que les numéros de téléphone appelant et appelé, les numéros de transfert, l'heure et la date des appels ou des messages, la durée des appels, les données de routage, le type et le volume d'appel et de messages ;

Dans le cas où un compte Google est utilisé, il est possible d'accéder à et gérer ces informations.

Position géographique

La position peut être collectée par les capteurs d'un appareil portatif tel qu'un téléphone mobile ou une tablette, ces capteurs incluent les GPS, les accéléromètres, et les gyroscopes.

Cette position peut être déduite de l'adresse IP de l'appareil, mais aussi des recherches et des lieux sur lesquels un libellé est ajouté, comme le lieu d'habitation ou le lieu de travail.

Enfin, elle peut être obtenue par les appareils qui passent à proximité de l'appareil, tels que des bornes Wi-Fi, des antennes relais et des appareils connectés en blutooth[13].

Informations collectées auprès de tiers

Des informations accessibles publiquement sur Internet peuvent être collectées pour usage dans des outils tels que Google traduction, ou encore l'indexation du moteur de recherche Google.

Des informations peuvent aussi être collectées auprès de partenaires tels que des services d'annuaires fournissant des informations commerciales affichables sur Google Maps, des services marketing pour la prospection de clients potentiels des services professionnels, ou des informations permettant de vérifier la véracité des certaines personnes qui utilisent des services Google[13].


Notes et références

  1. (en) Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham et Manuel Blum, « reCAPTCHA: Human-Based Character Recognition via Web Security Measures », Science, vol. 321, no 5895, , p. 1465-1468 (DOI 10.1126/science.1160379, lire en ligne [PDF]).
  2. Cédric Ingrand, « Comment, sans le savoir, vos clics améliorent les voitures autonomes de Google », LCI, (consulté le ).
  3. (en) Luis von Ahn et Will Cathcart, « Teaching computers to read: Google acquires reCAPTCHA », sur Official Google Blog,
  4. (en) « Diamond Factory, Anthrax Investigation, Auto-Tune and Profile: Luis von Ahn », Nova ScienceNow, PBS,  : « Luis von Ahn: The New York Times has this huge archive of 130 years of newspaper archived there. And we've done, maybe, about 20 years so far of The New York Times in the last few months. And I believe we're going to be done next year, by just having people do a word at a time. » (46:58).
  5. Guillaume Champeau, « Comment Google exploite le spam pour améliorer Google Maps », sur Numerama, .
  6. (en-US) Vinay Shet, « Are you a robot? Introducing “No CAPTCHA reCAPTCHA” », Google Online Security Blog, (consulté le ).
  7. Vincent Hermann, « reCAPTCHA : Google veut prouver que vous n'êtes pas un robot avec une case à cocher », (consulté le )
  8. Google reCaptcha, « Enregistrez un site : Conditions d'utilisation de reCAPTCHA » (consulté le ) : « Vous reconnaissez et comprenez que le fonctionnement de l'API reCAPTCHA repose sur la collecte d'informations matérielles et logicielles, telles que les données sur les appareils et les applis, qui sont transmises à Google pour analyse. Les informations recueillies lorsque vous utilisez ce service seront utilisées pour améliorer la fonctionnalité reCAPTCHA, ainsi qu'à des fins de sécurité générale. Google ne s'en servira pas pour vous proposer de la publicité personnalisée. En vertu de la section 3(d) des conditions d'utilisation des API Google, si vous utilisez les API, vous acceptez qu'il vous incombe d'en informer les utilisateurs et de leur demander leur autorisation pour la collecte et le partage de ces données avec Google. Dans l'Union européenne, le ou les clients d'API, et vous-même, devez vous conformer aux Règles relatives au consentement de l'utilisateur dans l'UE. Votre utilisation de reCAPTCHA est soumise à une limite du nombre d'appels. Google peut appliquer ces limites à sa seule discrétion via l'un des procédés décrits dans la section concernant les limites du nombre d'appels ou dans les présentes conditions d'utilisation. »
  9. Marie-Laure DENIS, CNIL, « Décision n° MED-2020-015 du 15 juillet 2020 mettant en demeure le ministère des solidarités et de la santé », (consulté le )
  10. « Article 35 du RGPD », (consulté le )
  11. « Article 82 de la Loi informatique et libertés », (consulté le )
  12. Google, « Règles de confidentialité : Informations collectées par Google », (consulté le ) : « Les informations que nous collectons servent à améliorer les services proposés à tous nos utilisateurs. Il peut s'agir d'informations de base, telles que la langue que vous utilisez, ou plus complexes, comme les annonces que vous trouvez les plus utiles, les personnes qui vous intéressent le plus sur le Web ou les vidéos YouTube qui sont susceptibles de vous plaire. Les informations que nous collectons et l'usage que nous en faisons dépendent de la manière dont vous utilisez nos services et dont vous gérez vos paramètres de confidentialité. Lorsque vous n'êtes connecté à aucun compte Google, nous stockons les informations collectées en les associant à des identifiants uniques liés au navigateur, à l'application ou à l'appareil que vous utilisez. Cela nous permet, par exemple, de conserver vos préférences pour toutes vos sessions de navigation (que ce soit votre langue d'affichage, ou si vous voulez ou non voir des annonces ou des résultats de recherche plus pertinents en fonction de votre activité). Lorsque vous êtes connecté à votre compte, nous stockons les informations collectées en les associant à votre compte Google et les considérons comme des informations personnelles. »
  13. Google, « Règles de confidentialité et conditions d'utilisation », (consulté le )
  14. Google regroupe les données qui vous concernent, « Le moteur de recherche unifie les régles de confidentialité de ses différents services. Mais la Commission nationale de l'informatique et des libertés (Cnil) s'inquiète des possibilités de croisement des données qui s'offrent désormais à Google. », (consulté le )
  15. Christophe Auffray, « Google veut croiser les données des internautes sur ses différents services », (consulté le )

Voir aussi

Articles connexes

Liens externes

  • Portail de la sécurité informatique
  • Portail de l’imagerie numérique
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.