ReCaptcha a-t-il été craqué / piraté / OCR'd / vaincu / cassé? [fermé]

172

Des méthodes de programmation ont-elles été utilisées pour vaincre reCAPTCHA?

Je suis intéressé à voir des preuves et potentiellement des démonstrations que reCAPTCHA en particulier a été rendu obsolète par des méthodes complètement automatisées et sans humain.

Pour clarifier, ne cherchez pas de solutions de triche reCAPTCHA qui impliquent des humains de quelque manière que ce soit, qu'il s'agisse d'équipes chargées de remplir des CAPCHA, de chercheurs de porno ou de Mechanical Turk.

Je ne cherche pas non plus d'alternatives à reCAPTCHA, comme choisir le type d'animal, ou les champs d'arrière-plan ou la supercherie javascript.

Dave Rutledge
la source
18
la quantité de désinformation dans ces réponses est stupéfiante. Si ReCaptcha a été «cassé», alors quelqu'un ferait mieux de dire à Facebook, Craigslist et TicketMaster, stat! : p
Jeff Atwood
15
Jeff, on leur a dit, et la seule désinformation se réfère au CAPTCHA comme un mécanisme de sécurité valide. Il a été empiriquement rompu, à la fois dans des implémentations communes ET en théorie (pas seulement reCAPTCHA, mais le concept même de CAPTCHA). D'un autre côté, ce n'est pas COMPLÈTEMENT sans valeur, j'ai en fait fait référence à ce site comme un cas d'utilisation valide pour CAPTCHA - en plus des nombreux autres mécanismes, il peut fonctionner ensemble pour coûter un peu aux "attaquants" plus.
AviD
13
Je suis déçu que le sujet n'ait pas pwneddedans
skaffman
2
Quelques recherches supplémentaires sur le sujet: schneier.com/blog/archives/2010/10/analyzing_captc.html . En fait, j'ai trouvé les commentaires plus intéressants que le post ou la recherche elle-même ...
AviD
9
Oo! Meilleur CAPTCHA jamais! xkcd.com/810
AviD

Réponses:

92

Je remarque que presque toutes les réponses ici se rapportent à l'inefficacité du concept de CAPTCHA, en principe - et bien que je sois tout à fait d'accord avec elles, j'ai en fait donné une conférence à l'OWASP il y a quelques mois pour expliquer cela. - la question est très spécifique , je vais donc prévoir une démonstration.
Mais d'abord, je vais réitérer cette démonstration de côté, relire les autres commentaires, car il est vrai que CAPTCHA est inutile et inutile, sans importance pour la mise en œuvre ...

Mais vraiment, consultez CAPTCHA Killer . Vous pouvez télécharger une image CAPTCHA, et elle fournira automatiquement, sinon immédiatement, la réponse OCR. Il prévoit également une API (REST, je pense, mais peut-être aussi SOAP). J'ai personnellement essayé de nombreuses images reCAPTCHA, et c'était en fait l'une des plus faciles (ou du moins les plus rapides) cassées.

MISE À JOUR : Le site Web de CAPTCHA Killer est maintenant supprimé, apparemment sous la pression juridique. Voir http://captcha.org/ pour un aperçu complet du sujet.

Et oui, l'OCR n'est pas le meilleur moyen de briser un site protégé par CAPTCHA - il existe de nombreuses autres meilleures façons.

Avide
la source
3
Je me demande comment fonctionne le captcha killer. D'une certaine manière, il me semble que cela utilise une main-d'œuvre bon marché et gagne de l'argent avec la publicité sur le site Web. (Et merchandising.)
Georg Schölly
3
Réponse utile sur les captchas en général, mais la question portait spécifiquement sur reCAPTCHA.
Mike
2
Je viens d'essayer Captcha Killer avec trois reCAPTCHA. Les trois ont expiré sans renvoyer de réponse.
lfaraone
21
CAPTCHA Killer semble avoir été tué: il a été violemment détruit par des multinationales cherchant à étendre leur domination et à éliminer la liberté d'expression créative! Un si beau tueur, une mort si précoce!
Kiril
4
Je pense que c'est juste un changement de domaine et que la version est payée maintenant, vérifiez ce bypasscaptcha.com/captchakiller.php
MarmiK
54

Vous pourriez être intéressé par ce rapport détaillé sur la façon dont 4chan a vaincu reCAPTCHA et l'a utilisé pour manipuler les résultats du sondage annuel TIME 100 de Time.com .

Hacking Recaptcha (alias `` The Penis Flood '')

La tactique suivante utilisée était de voir s'ils pouvaient trouver une faille dans la mise en œuvre de reCAPTCHA. Une chose qu'ils ont découverte à propos de reCAPTCHA est qu'il présente toujours deux mots à un utilisateur pour le décodage - un mot est un mot de contrôle connu par le système reCAPTCHA, tandis que l'autre est un mot inconnu (reCAPTCHA utilise les humains pour aider à corriger les erreurs OCR). Wikipedia décrit le processus: «Le texte numérisé est soumis à une analyse par deux programmes de reconnaissance optique de caractères différents; dans les cas où les programmes ne sont pas d'accord, le mot douteux est converti en CAPTCHA. Le mot est affiché avec un mot de contrôle déjà connu et est étiqueté par l'humain. Ces mots qui reçoivent systématiquement une étiquette unique par des juges humains sont recyclés comme des mots de contrôle ». 2iasdo4 Ce que Anonymous a réalisé, c'est que s'ils étiquetaient toujours le texte scanné inconnu avec le même mot - et s'ils le faisaient des milliers et des milliers de fois, un grand pourcentage des mots inconnus serait mal étiqueté avec leur mot. Tout ce qu'ils avaient à faire était de regarder les deux mots du captcha, de saisir l'étiquette appropriée pour le mot «facile» (probablement celle sur laquelle les deux scanners optiques seraient d'accord) et de saisir le mot «pénis» pour le dure. S'ils le faisaient assez souvent, alors un pourcentage important des images serait bientôt étiqueté comme `` pénis '' et la capacité d'autovote serait restaurée (un effet secondaire, qui n'a pas été perdu pour Anonymous, était la notion que pour les années à venir il y aurait un certain nombre de livres numériques avec le mot «pénis» inséré au hasard dans tout le texte. Mise à jour: J'ai demandé à Ben Maurer,

Optimiser reCAPTCHA

Aussi attrayante que la notion de saupoudrer le mot `` pénis '' dans des textes, l'équipe anonyme savait que le temps était compté, et s'ils voulaient restaurer le message, ils n'avaient pas le temps d'attendre que les autovoteurs reviennent en ligne - ils allaient devoir voter manuellement, de nombreuses fois. Et ils devaient donc pouvoir entrer les captcha aussi vite qu'ils le pouvaient. Ils ont développé un ensemble de directives qui leur ont permis de décider rapidement quels mots reCAPTCHA ils pouvaient ignorer. Par exemple:

Vous recevrez 2 mots: 1 réel, 1 faux.

Pour [REAL FAKE]ou [FAKE REAL], vous pouvez simplement taper REALet il devrait être accepté.

Si c'est [LOOKSREAL LOOKSREAL]ou [LOOKSFAKE LOOKSFAKE], il est généralement plus rapide de taper simplement les deux mots. Ne perdez pas de temps précieux à décider lequel d'entre eux est réel.

Utilisez à la fois l'apparence et le type de mot pour identifier un faux mot. Ne comptez pas sur un seul d'entre eux.

L'ensemble des règles est ici: faux captcha .

Mathias Bynens
la source
4
Mais l'intérêt de cette histoire n'est-il pas qu'ils n'ont pas cassé reCAPTCHA? Ils ont plutôt réussi à rationaliser le processus de vote manuel pour permettre à des volontaires déterminés de voter des milliers de fois chacun.
pdc du
4
@pdc, juste parce qu'ils n'ont pas OCR les images (bien que cela aurait pu également être fait), ne signifie pas qu'ils n'ont pas cassé reCAPTCHA. Pensez-y comme ceci: le but de reCAPTCHA est-il de présenter des images indéchiffrables? Ou est-ce pour éviter les inondations automatisées? Si c'est le premier, vous pourrez peut-être faire valoir qu'il n'a pas été cassé (discutable, mais je ne serais pas d'accord avec vous), mais si c'est le second - alors vous avez la preuve empirique que reCAPTCHA ne fonctionne pas. Je pense également qu'il devrait être assez clair qu'en dehors de la valeur de divertissement, le SECOND objectif est le vrai, et le seul qui compte.
AviD
@AviD Hein? Selon l'article, l' inondation automatisée n'était plus possible. Au contraire, des personnes dévouées ont pu voter plusieurs fois plus vite qu'elles ne le pourraient autrement (et diverses techniques non liées au captcha ont été utilisées pour contrecarrer des mesures inefficaces contre un vote aussi massif des humains). Fondamentalement équivalent à l'utilisation d'une main-d'œuvre humaine bon marché - que reCAPTCHA ne prétend bien sûr pas arrêter.
ToolmakerSteve
@ToolmakerSteve c'est exactement le problème, reCAPTCHA n'essaye pas d'arrêter le vrai problème. CAPTCHA essaie de résoudre le mauvais problème, mal.
AviD
32

La faiblesse des systèmes CAPTCHA est que les gens installent des salles remplies de personnes en Chine dont le seul travail consiste à regarder une image CAPTCHA et à saisir le résultat, qui se branche sur le système automatisé qui fait le spam.

Vous ne pouvez pas vraiment faire grand-chose à ce sujet.

C'est aussi beaucoup moins cher que d'essayer de faire de la reconnaissance d'image, de l'OCR, etc. sur l'image réelle (vous pouvez obtenir une réponse pour moins de 0,01 $ dans l'autre sens).

cletus
la source
62
Ou encore mieux, ils récupèrent le captcha de votre site et le montrent à un branleur (littéralement) pour leur montrer du porno.
Paul Tomblin
2
Mec ... c'est intelligent (crédit là où le crédit est dû).
cletus
7
Notez que cela n'en fait pas un outil inefficace. Cela signifie simplement que si votre site est suffisamment populaire, cela peut arriver. Pour les 99,99% restants des sites Web dans le monde, un simple captcha fera l'affaire.
Robert P
1
Enfer, le captcha de CodingHorror ne change même pas, ni n'est obscurci, et il parvient à faire le travail correctement!
Robert P
5
En fait, ce n'est pas tout à fait vrai. Bien qu'il existe des exemples de cela, il est BEAUCOUP moins cher de craquer par OCR un CAPTCHA. L'utilisation des ateliers de transpiration n'est généralement PAS économiquement réalisable pour les spammeurs.
Jens Roland
21

Avant de céder à la pression de l'utilisation du captcha, envisagez des solutions de contournement créatives telles que le fait d'avoir un champ intitulé «Vos commentaires» masqué par CSS. Si le champ est renseigné, la demande est abandonnée par le serveur. La plupart des robots tomberont amoureux même s'il n'y a toujours pas un bon moyen de vaincre la salle remplie d'ouvriers sous-payés, ce que captcha n'aide de toute façon pas.

MISE À JOUR : il suffit de lire une étude de cas où la suppression de CAPTCHA a augmenté les taux de conversion de près de 10%. Cela m'indiquerait que c'est plutôt cassé si vous perdez 10% de vos prospects juste pour filtrer les bots. Imaginez ce que 10% signifie pour la plupart des entreprises.

DavGarcia
la source
2
C'est très intelligent mais ne fonctionne pas si vous êtes suffisamment populaire. Yahoo ou Google, par exemple, ne pourraient jamais utiliser cela.
dreeves le
2
La question ici est de savoir si votre site est suffisamment précieux pour attaquer spécifiquement. La plupart ne le sont pas, et avoir de petites particularités fera du bien.
David Thornley
3
Je voudrais +1 pour la mise à jour concernant une perte de 10% - point TRÈS important. (mais je ne peux pas +1 cuz de la suggestion de champ caché - c'est moins qu'inutile.)
AviD
2
Il y a 2 problèmes "attaque ciblée" et "spam aléatoire". Votre solution pourrait vous sauver le cul du spam aléatoire, mais une attaque ciblée inondera votre système en une journée.
dr. evil
1
@dreeves: Google ne vient-il pas d'acquérir reCAPTCHA?
Prabu
18

Mon captcha préféré est de Microsoft: http://research.microsoft.com/en-us/um/redmond/projects/asirra/

Asirra (Reconnaissance d'images d'espèces animales pour la restriction d'accès) est un HIP qui fonctionne en demandant aux utilisateurs d'identifier des photographies de chats et de chiens. Cette tâche est difficile pour les ordinateurs, mais nos études sur les utilisateurs ont montré que les gens peuvent l'accomplir rapidement et avec précision. Beaucoup pensent même que c'est amusant!

C'est un service gratuit et ils ont un exemple de code pour vous aider à démarrer.

Je me demande combien de temps il faudra avant qu'il ne soit fissuré.

BoltBait
la source
1
Malheureusement, la réponse de cletus ci-dessus montre comment un tel service sera inefficace dans la plus grande lutte contre le spam.
Erik Forbes
1
J'ai échoué 2 fois sur 4, une image mal éclairée d'un Poméranien peut ressembler à un chat :(
Tom Anderson
3
J'ai passé le test et ça fait du bien de savoir que je suis un humain. :)
BoltBait
5
En fait, le meilleur captcha était HotCaptcha - mais il est hors ligne la dernière fois que j'ai vérifié. Basé sur HotOrNot.com, ce n'était pas horriblement efficace, mais TRÈS populaire auprès des utilisateurs :-)
AviD
2
Le problème ici est qu'il serait très facile de forcer brutalement en raison d'un petit espace clé. Si vous commencez à ajouter plus d'objets au nom, vous entrez dans l'ambiguïté dans la dénomination (par exemple, est-ce un kangourou, un Joey ou un bébé kangourou?). Vous devez vous assurer que vous avez une relation un à plusieurs entre les objets à nommer et leurs noms possibles.
Oorang
11

reCAPTACHA n'est pas cassé et ce ne sera pas avant très longtemps. Le fait est que si vous implémentez votre propre captcha s'il est cassé, il faudra probablement beaucoup de temps pour le réparer.

Ceci est tiré de la page sur la sécurité reCAPTCHA :

reCAPTCHA est un service Web. Cela signifie que toutes les images sont générées et classées par nos serveurs. (…) Cela fournit également un niveau de protection supplémentaire: nos CAPTCHA peuvent être automatiquement mis à jour chaque fois qu'une faille de sécurité est détectée.

Par exemple, si quelqu'un écrit un programme capable de lire nos images déformées, nous pouvons ajouter plus de distorsions en très peu de temps, et sans que les webmestres aient à changer quoi que ce soit de leur côté.

Je crois que comme ils sont spécialisés sur les captchas, ils ont des versions améliorées stockées, prêtes à être déployées en peu de temps si nécessaire. (Pourquoi devraient-ils créer une sécurité plus forte alors que le plus faible n'est pas encore cassé?)

Georg Schölly
la source
9

Non seulement il a été vaincu, mais une application utile a également été construite avec succès, pour devenir l'outil le plus étonnant pour vaincre toutes sortes de protections de compte gratuit d'une grande liste de sites de téléchargement direct (pas seulement megaupload et rapidshare ).

Jdownloader est open source et écrit en Java, donc un coup d'œil au code source peut répondre non seulement s'il est cassé, mais aussi comment .

Edit : La plupart des sites de téléchargement direct n'utilisent pas reCaptcha, mais une méthode Captcha plus simple (3 lettres majuscules colorées de différentes couleurs). Néanmoins, Jdownloader et Cryptload (un programme similaire à Jdownloader) sont les seules implémentations fonctionnelles que je connaisse qui ont effectivement cassé une méthode Captcha. Je n'ai entendu parler d'aucune implémentation pour cracker reCaptcha.

Mise à jour : Il semble qu'au moins une implémentation de reCaptcha (pas tout le reCaptcha lui-même) a également été craquée .

Mise à jour de décembre 2010 : Jdownloader semble enfin vaincre reCaptcha . Le plugin est encore expérimental et ne fonctionne que sur les versions Windows de Jdownloader, mais, comme m'a dit un compagnon qui l'a essayé, cela fonctionne.

Fernando Miguélez
la source
2
Savez-vous lequel de ces hébergeurs de fichiers utilise RE-captcha parce que rapidshare et megaupload ne le font pas.
dr. evil
@ dr.evil il couvrait une liste d'hébergeurs presque tout ce que nous pouvons dire, car la liste en contenait beaucoup que nous n'avions jamais entendu à aucun moment, le programme était assez intelligent pour casser la plupart des captcha et sinon, il incitait l'utilisateur à le même, n'est-ce pas utile. J'ai utilisé cela dans le passé personnellement. C'était l'un des meilleurs téléchargeurs dans certains cas, mieux qu'IDM, veuillez noter: je ne suis pas le promoteur de jDownloader. Merci
MarmiK
8

Il y a eu un discours à Defcon l'année dernière qui a abordé les problèmes avec les CAPTCHA en général. L'une des choses qu'ils ont faites a été d'utiliser plusieurs moteurs OCR gratuits et de leur faire voter les meilleurs mots. En faisant cela, ils ont pu obtenir une chance assez décente de réussir. Pour un type, c'était environ 40%, je ne pense pas que c'était reCaptcha, cependant.

FryGuy
la source
3
C'est un point important, un robot de spam n'a pas à casser tous les capthas - 1% le ferait s'il pouvait continuer à essayer.
Martin Beckett
8
  • «En fait, [reCAPTCHA] est devenu assez inutile le 4 janvier [2011] lorsque les spammeurs ont apparemment mis la main sur un logiciel qui contourne reCAPTCHA et permet un processus d'enregistrement entièrement automatisé. Les bots ont été occupés, très occupés en fait , depuis " [1]

Il y a 2-3 ans, l'approche des captchas basée sur la saisie de texte a enfreint la ligne quand ils ont perdu sa bataille, c'est-à-dire que d'autres complications les rendent simplement relativement (puisque la puissance de l'ordinateur augmente, alors que l'homme n'est pas) plus facile pour les machines et plus répugnant et répugnant, sinon complètement impossible, pour les humains. Cela contredit le paradigme original du CAPTCHA comme test pour s'assurer que la réponse n'est pas générée par un ordinateur

Mise à jour:
notez que reCAPTCHA appartient à Google Inc. mais que Google Inc. ne l'utilise pas par ses propres services.
Voici un lien contenant une page Web avec captcha utilisé par Google lui-même / en interne par exemple, pour l'enregistrement Gmail:

texte alternatif



Notez que le reCAPTCHA de Google a toujours 2 mots.
Voici le lien pour l' image avec le reCAPTCHA de Google offert à d'autres .

Et la capture d'écran de reCAPTCHA:

texte alternatif

Je laisse faire les conclusions évidentes à un lecteur.

Cité: [1] Les
forums vBulletin touchés par reCAPTCHA cracking spam bot | Blog PC Pro
Publié le 12 janvier 2011 par Davey Winder

Gennady Vanin Геннадий Ванин
la source
5

Je vois des commentaires de blog sur un système protégé par reCAPTCHA où la page se charge et 1 seconde plus tard, la publication a été effectuée avec succès. L'agent utilisateur était insensé (dans ce cas particulier, il prétendait exécuter Ubuntu 9.25 / Firefox 3.8), le référent provenait d'un site totalement indépendant sans lien vers nous.

Ceci est clairement automatisé.

Benjamin Franz
la source
3

reCAPTCHA n'a pas été vaincu. Si tel avait été le cas, pourquoi Google l'a-t-il simplement acheté et a-t-il annoncé qu'il appliquerait la technologie de Google pour accroître la protection contre la fraude et le spam pour les produits Google?

de Google acquiert reCAPTCHA publié sur le blog Google le 16/09/09:

De cette manière, la technologie unique de reCAPTCHA améliore le processus de conversion des images numérisées en texte brut, connu sous le nom de reconnaissance optique de caractères (OCR). Cette technologie alimente également des projets de numérisation de texte à grande échelle tels que Google Livres et Google News Archive Search. Il est important de disposer de la version texte des documents, car le texte brut peut être recherché, rendu facilement sur les appareils mobiles et affiché aux utilisateurs malvoyants. Nous appliquerons donc la technologie de Google non seulement pour accroître la protection contre la fraude et le spam des produits Google, mais également pour améliorer nos processus de numérisation de livres et de journaux.

Mike
la source
3

Le moyen le plus simple de vaincre les Captchas est Amazon Mechanical Turk. Il y a un type nommé Kermit Welda qui paie chacun un sou pour enregistrer des comptes Hotmail, AOL et Gmail. Cela représente 6000 faux comptes de messagerie à 5 cents = 300 $ par jour. Le coût de faire des affaires est assez bon marché lorsque d'autres personnes font le sale boulot à votre place. Pas étonnant que les filtres anti-spam de notre serveur veuillent rejeter quoi que ce soit de Hotmail.

Dr Klahn
la source
Est-ce vraiment une réponse ...?
Austin Henley
Ça a du sens, un concept similaire à Death By Captcha .
kenorb
OP a clairement déclaré que ce n'était pas ce qu'il recherchait.
Scott Solmer
2

AFAIK En pratique, il n'y a pas d'outil pour déchiffrer l'implémentation RE-captcha, mais je suppose que quelqu'un finira par l'obtenir.

Assez drôle si quelqu'un parvient à l'obtenir, tout le projet RE-captcha est inutile car re-captcha a conçu des livres numérisés, ce qui ne peut pas être fait de manière automatisée.

BTW:

La faiblesse des systèmes CAPTCHA est que les gens installent des salles remplies de personnes en Chine dont le seul travail consiste à regarder une image CAPTCHA et à saisir le résultat, qui se branche sur le système automatisé qui fait le spam.

Vous ne pouvez pas sécuriser un système en pensant comme ça, c'est comme dire "votre application Web n'est pas suffisamment sécurisée si votre hôte n'est pas dans un ancien bunker militaire, car maintenant les gens peuvent voler votre machine".

dr. mal
la source
3
Votre sentiment est parfait, mais son application est déplacée: la pensée (du commentaire que vous avez cité) est que CAPTCHA ne résout pas le problème qu'il entend . Ou comme je le dis souvent "CAPTCHA (en général) est une mauvaise solution au mauvais problème." Le problème que CAPTCHA essaie de résoudre (par définition) est le suivant: Comment savoir que l'utilisateur est une personne et non un ordinateur? Que CAPTCHA résout ou non ce problème (ce n'est pas le cas), le VRAI problème est: Comment puis-je éviter l'inondation massive de mon service? Les fermes et les proxys CAPTCHA montrent la différence exacte. C'est pourquoi toute solution de sécurité doit commencer par les menaces.
AviD
1
Vous avez raison, tout se résume à "Pourquoi utilisez-vous CAPTCHA?". Pour certains systèmes, c'est juste assez de sécurité pour certains systèmes, ce n'est même pas proche. Mais tout comme la taille de la clé dans la crypto vous aide à protéger quelque chose en faisant que le forçage brutal prend des années (même si finalement ils vont le casser! Mais pas dans cette durée de vie ou pas dans les 10 prochaines années) CAPTCHA dans certains systèmes peut aider suffisamment de sécurité dans le très de la même manière. Donc, comme vous l'avez dit, tout dépend de quoi utilisez-vous CAPTCHA?
dr. evil
2

Il existe de nombreuses méthodes utilisées pour faire de la recaptcha. Bien qu'il soit difficile d'utiliser des programmes neuronaux activés pour les résoudre automatiquement, il est possible de saisir l'image et d'avoir le turk mécanique d'Amazon ou un programme équivalent pour les résoudre.

http://codemagician.wordpress.com/2010/01/22/solving-recaptcha/

bâton rouge
la source