Le CAPTCHA détecteur d’Humains au pays de l’intelligence artificielle

En l’An 2000, le CAPTCHA a poussé la porte du « pays de l’intelligence artificielle »

Il était une fois un détecteur d’Humains nommé « CAPTCHA ». Ce n’est pas par hasard, ni par curiosité, qu’il a poussé la porte du « pays de l’intelligence artificielle » 😉 !

Au début des années 2000, des systèmes automatisés avaient commencé à envahir le Web avec la ferme intention de profiter des premiers « pouvoirs » offerts par les algorithmes pour écumer la toile et se remplir les poches en se faisant passer (déjà) pour ce qu’ils n’étaient pas : des Humains.

Concrètement, les éditeurs de sites tentent de se protéger des robots malveillants programmés pour consommer automatiquement une grande quantité de ressources informatiques. Ils peuvent collecter des données, enregistrer et effectuer l’authentification des utilisateurs.

Le « CAPTCHA », c’est ce petit test un peu agaçant qui nous lance un défi alors que nous voulons accéder à certains sites web : prouver que nous ne sommes pas un robot. Comble ou paradoxe, c’est la machine qui nous demande si nous sommes bien des êtres humains !

Avec un nom pareil, « CAPTCHA » est un acronyme, celui de « Completely Automated Public Turing test to tell Computers and Humans Apart » autrement dit : « Test de Turing public automatisé pour différencier les ordinateurs et les Humains ».

La vocation du CAPTCHA est de protéger les sites web contre les abus, tels que des attaques de robots ou le spam

CAPTCHA les plus fréquents

 

Le test consiste généralement à présenter à l’internaute une tâche simple, que les Humains peuvent facilement accomplir, mais qui peut s’avérer difficile pour nombre de programmes automatisés.

Un texte déformé, lettres et chiffres, affichés dans une image, que l’on doit reproduire au clavier
• Un groupe d’images présente différentes situations que l’on doit sélectionner d’après une description « Sélectionnez toutes les images contenant un passage pour piétons ».
• Une boîte à cocher nous demande simplement de confirmer « je ne suis pas un robot ».

Quelques exemples de CAPTCHA

On peut croiser aussi des « tests audio » : ils lisent de courts extraits contenant une série de chiffres ou de lettres que l’internaute doit saisir dans un champ de texte. Ils sont prononcés soit par une voix humaine soit par une voix synthétique. Ils peuvent être difficiles à interpréter : accents, distorsion audio risquent de perturber la compréhension humaine. 

A quoi servent les CAPTCHA ?

 

Concrètement, les éditeurs de sites tentent de se protéger des robots malveillants programmés pour consommer automatiquement une grande quantité de ressources informatiques. Ils peuvent collecter des données, enregistrer et effectuer l’authentification des utilisateurs.

 

Un rôle en cybersécurité

Ils peuvent aussi jouer un rôle en matière de cybersécurité, par exemple pour prévenir des attaques automatisées par déni de service (DDOS) menées par des robots automatisés cherchant à faire « tomber » un site web.

Ils contribuent à freiner des activités frauduleuses telles que des tentatives de phishing via l’envoi de messages de spam piégés, et la création de faux comptes.

L’Histoire du CAPTCHA

Principales étapes du parcours du CAPTCHA

 

Comme chaque technologie numérique, notamment depuis les années 2000, impossible de rester les deux pieds dans le même sabot 😉 sans risquer d’être très vite obsolète et inopérant !

 

Le terme « CAPTCHA »

Il a été créé par une équipe de chercheurs de l’Université Carnegie Mellon réputée notamment pour ses recherches dans les technologies numériques. Ils ont mis au point ce concept, en réponse aux problèmes de sécurité en ligne, notamment pour empêcher les bots de créer automatiquement des comptes de messagerie ou de spammer les forums en ligne.

Le premier type de CAPTCHA représentait du texte déformé que les internautes devaient identifier. Les ordinateurs de l’époque avaient du mal à reconnaître ces caractères, ce qui en faisait une méthode efficace pour différencier les humains des machines.

Les premiers CAPTCHA

Les tout premiers se présentent sous la forme d’une simple question de type : « 2 + 5 = ? ».

Viennent ensuite des images montrant des « textes déformés », que nous devons recopier dans un champ de saisie informatique. A noter que certains textes trop déformés, pour être sûr de tromper les machines, ont même fini par rendre la lecture difficile à l’œil humain.

2007, reCAPTCHA, une évolution significative

Luis von Ahn, un des chercheurs ayant inventé le CAPTCHA, en développe une version améliorée. Cette version peut non seulement vérifier que l’utilisateur est humain, mais elle utilise également ce processus pour aider à numériser des livres. Les utilisateurs doivent transcrire des mots tirés de livres anciens que les systèmes de reconnaissance de caractères ne pouvaient pas lire correctement.

La première réflexion sur la possibilité de réaliser des tests automatiques détecteurs d’Humains afin de contrôler l’accès à des services web, date de 1996. Elle figure dans un manuscrit nommé : « Verification of a human in the loop, or Identification via the Turing Test », de Moni Naor de l’institut de science de Weizmann.

Le potentiel de cette évolution n’échappe pas à Google. Il rachète reCAPTCHA en 2009. L’entreprise qui, depuis sa création en 1998, s’est donné comme objectif « d’organiser les informations à l’échelle mondiale dans le but de les rendre accessibles et utiles à tous » va ainsi pouvoir optimiser son système d’IA de reconnaissance de caractère.

reCAPTCHA propose aux internautes deux mots à retranscrire : l’algorithme connait l’un des d’eux, pas l’autre. Si le mot connu est saisi correctement, la machine enregistre le second. Si plusieurs internautes font la même retranscription au mot inconnu, il est validé par l’algorithme.

Progressivement, exit les textes à transcrire, les performances des systèmes d’IA ne réclament plus les contributions humaines pour progresser. Google introduit une version de reCAPTCHA qui demande aux internautes de cliquer sur des images correspondant à une certaine description, comme « sélectionnez toutes les images avec des voitures ». Cette reconnaissance contribue à son tour à l’apprentissage des systèmes d’intelligence artificielle.

 

2014, NoCAPTCHA, ReCAPTCHA

Cette nouvelle évolution se traduit par une « simple case à cocher » attestant : « je ne suis pas un robot ». La machine aurait-elle fait provision de confiance 😉 ? Pas vraiment, en coulisse, l’algorithme de Google analyse le comportement du visiteur de la page, comme par exemple les mouvements de la souris.

 

2017, le CAPTCHA peut aussi devenir invisible

En prolongement, Google introduit des versions de « détecteurs d’Humains invisibles », autrement dit qui ne nécessitent aucune interaction directe de l’internaute, sauf si le système détecte un comportement suspect. Ces systèmes sont basés sur l’analyse avancée des mouvements et des clics de l’utilisateur.

Usages du Captcha, quelques statistiques

S’il n’existe pas de statistiques précises, difficiles à établir compte tenu de la diversité des types de ces détecteurs, leur fonction de protection contre les abus automatisés explique la présence de CAPTCHA sur des millions de sites web. Une étude de 2018 estimait que plus de 80% des sites web mondiaux utilisaient une forme de CAPTCHA pour protéger leurs formulaires de contact, pages d’inscription, et autres fonctionnalités sensibles.

Google reCAPTCHA est l’une des solutions les plus populaires, utilisée par environ 4,5 millions de sites web à travers le monde.

Impact et efficacité

L’utilisation de CAPTCHA a permis de réduire significativement le spam et les abus automatisés. Par exemple, les services de messagerie ont vu une réduction notable du nombre de comptes de spam lors de l’inscription à des formulaires de contacts et/ou newsletters.

 

Temps moyen pour réussir le test

La version traditionnelle basée sur du texte est d’environ 10 secondes. Les versions plus récentes, comme ReCaptcha, ne prennent généralement que 2 à 3 secondes.

Taux de Réussite des Humains vs robots

En moyenne, les Humains réussissent le test dans environ 99 % des cas. Les bots, même les plus avancés, échouent beaucoup plus souvent, même si l’écart se réduit au fur et à mesure que les technologies de reconnaissance optique et d’intelligence artificielle progressent. Progressivement, le taux de réussite de certains bots s’approche de celui des Humains.

 

L’abandon de formulaire

Agacement ou frustration conduisent à un taux d’abandon d’environ 3 à 5 %.

CAPTCHA et intelligence artificielle

Les progrès fulgurants des systèmes d’intelligence artificielle, comme les algorithmes de reconnaissance optique, systèmes audio de conversion de la parole en texte, ont progressivement déjoués la plupart des Captcha reposant sur ces systèmes, forçant les développeurs à les abandonner. Mais les détecteurs d’Humains ont, eux aussi, misé sur l’intelligence artificielle !

La reconnaissance du comportement humain

Pour poursuivre leur « voyage au pays des intelligences artificielles », les détecteurs d’Humains s’orientent de plus en plus sur l’analyse de notre comportement face aux écrans, beaucoup plus difficile à imiter par des robots.

 

Simple comme une case à cocher « Je ne suis pas un robot » ?

Une case à cocher, cela peut sembler déroutant de facilité à l’Humain que nous sommes. Sauf que derrière ce geste, se cache une analyse beaucoup plus complexe : l’interface algortithmée s’efforce de décoder les mouvements et les clics de souris.

Concrètement, les versions plus récentes de reCAPTCHA, notamment reCAPTCHA v3 se basent non seulement sur les réponses directes des utilisateurs, mais aussi sur cette analyse de leurs comportements. Ces données sont également utilisées comme base d’entrainement pour améliorer globalement la capacité des systèmes d’IA à distinguer les bots des Humains.

Destins croisés Homme-Machine

 

La fraude au clic, un marché non négligeable de quelques 8MDs de dollars

Quand des Humains entrainent les bots pour les aider à performer

L’amélioration des performances des systèmes d’IA passe par des méthodes d’apprentissage et d’entraînement des algorithmes. Mais au-delà de la contribution implicite des internautes via les tests CAPTCHA, il arrive que ces apprentissages requièrent une aide directe d’Humains affectés à cette tâche. Une contribution humaine qui relève parfois de l’exploitation de salariés.

 

La fraude au clic, une pratique propice à l’exploitation humaine

Depuis l’origine, la publicité est l’un des ressors de l’économie du Web. De fait, pour maximiser ces revenus, certaines entreprises spécialisées dans la fraude publicitaire ont entrainé des bots pour cliquer massivement sur les pubs, via ce que l’on appelle des « fermes à clics ».

Pour rendre les bots des fermes à clics plus efficaces, les marchands de pubs engagent des travailleurs humains (sous-payés) pour apprendre aux intelligences artificielles à se comporter comme des Humains et ainsi déjouer les tests CAPCHA destinés à les bloquer.

 

Les avancées des systèmes d’IA à suivre…

Ces initiatives ont considérablement amélioré la précision des technologies d’IA dans des domaines tels que la reconnaissance de texte et d’images et même dans l’imitation des comportements humains.

Des avancées qui rendent parfois difficile la distinction entre l’Homme et la machine. C’est ainsi que l’on peut retrouver des bots sur les réseaux sociaux, capables de suivre des comptes, de rédiger de faux commentaires et de faux avis. Voire même de « manipuler » des outils comme les LLM (grands modèles de langage) tels que ChatGPT jusqu’à lancer des « opérations d’Influences » secrètes diligentées par des Etats.

L’avenir sera peut-être l’utilisation de « CAPTCHA biométriques » ayant recours par exemple à la reconnaissance faciale ou d’empreintes digitales, dès lors que de tels services permettaient de garantir la confidentialité des données utilisateurs.

 Le regard de cKiou

– Hi, cKiou est bluffée de voir tout ce qui se cache derrière ces petits tests un peu agaçants et qui, apparemment, ne payent pas de mine.

On peut aussi penser que l’utilisation des interactions humaines pour entraîner des systèmes d’IA soulève des questions éthiques et de confidentialité, par exemple en ce qui concerne le consentement des utilisateurs qui ne sont pas forcément conscients de leur rôle.

Du coup, avec des évolutions au pays des intelligences artificielles qui semblent sans fin, la confrontation Humain-CAPTCHA a certainement de l’avenir 😉 !

Et pour ne pas manquer la suite de l’Histoire du numérique…

INSCRIPTION

(les adresses e-mails ne sont ni affichées ni cédées à des tiers)