Comment recaptcha sait-il que vous n'entrez pas de fausses traductions des images [fermé]

22

D'après ce que je comprends, les captchas sont des textes qui ont été déformés par l'application de filtres, de bruit et d'autres algorithmes mal adaptés. Par conséquent, pour savoir si la capacité de lecture d'une personne est celle d'une personne, vous comparez ce qu'elle a répondu à la réponse connue.

Maintenant, en lisant sur ReCaptcha, il est dit que les mots affichés sont ceux qui ne peuvent pas être traduits par OCR. De plus, recaptcha est utilisé pour traduire ces images. Comment peut-il savoir si vous avez bien raison dans votre lecture ou si vous inventez simplement des trucs?

S'il savait ce qu'il disait, il ne serait pas utilisé dans recaptcha comme matériel de traduction. S'il ne sait pas ce que dit le texte, comment valide-t-il votre réponse?

Je suppose qu'il s'agit probablement d'une analyse basée sur les probabilités avec d'énormes tailles d'échantillon avant de signaler quoi que ce soit comme traduit.

Quelqu'un sait-il où est la réponse?

Zigu
la source
3
La farce 4chan / anonyme sur le sondage Time est intéressante. "Gâteau de marbre, aussi le jeu", qui exploitait les failles dans la vérification du crowdsourcing du deuxième mot.
DanBeale
2
Le hack @Dan mentioend: musicmachinery.com/2009/04/27/moot-wins-time-inc-loses
BlueRaja - Danny Pflughoeft

Réponses:

33

Les pages du livre sont essentiellement numérisées photographiquement, puis transformées en texte à l'aide de la «reconnaissance optique de caractères» (OCR) et transmises au Web sous la forme d'une image avec un mot connu du programme informatique derrière reCAPTCHA et un mot qui n'est pas encore connu.

L'utilisateur saisit ensuite les deux mots et s'il résout celui pour lequel la réponse est connue, le système suppose que sa réponse est correcte pour le nouveau. Le système donne ensuite la nouvelle image à un certain nombre d'autres personnes pour déterminer, avec une plus grande confiance, si la réponse originale était correcte. Par conséquent, le système est un service à amélioration automatique qui s'améliore avec le temps.

http://www.google.com/recaptcha/learnmore

Paul
la source
22

C'est pourquoi reCaptcha vous fait entrer deux mots. Un des mots est déjà connu et un des mots n'est pas connu. Que vous réussissiez ou échouiez le captcha dépend uniquement de la façon dont vous répondez au mot connu. Votre réponse pour l'autre mot (inconnu) sera utilisée, ainsi que d'autres réponses au même mot, pour le transformer également en mot connu.

Joel Coehoorn
la source
4
... c'est aussi pourquoi au fil du temps, il devient de plus en plus frustrant à utiliser et vous convainc que vous êtes un idiot / robot lorsque vous échouez pour la 5e fois consécutive. :-(
Sirex
Étrange ... Je n'ai jamais échoué un dont je me souvienne, peut-être juste de la chance de ma part.
Paul
@Sirex J'avais l'habitude de penser cela, mais j'ai réalisé que cela n'est vrai que si la taille du texte du corpus est constante ou rétrécie par rapport au nombre d'entrées captcha. La vérité est que le texte du corpus grandit ... la question est de savoir si cette croissance suit le rythme de la croissance de l'utilisation globale du captcha.
Joel Coehoorn
Ouais je suppose. J'ai vu beaucoup de reCaptchas qui sont incroyablement difficiles. Où même le mot connu est ambigu.
Sirex