Avete presente il captcha? No? Leggete la voce su Wikipedia. Si tratta di un test fatto di una o più domande e risposte per determinare se l’utente sia un umano (e non un computer o, più precisamente, un bot). L’acronimo deriva dall’inglese “Completely Automated Public Turing test to tell Computers and Humans Apart” (Test di Turing pubblico e completamente automatico per distinguere computer e umani).
Bene. Spesso viene usato nei blog per evitare che ai post vengano aggiunti dei commenti automatici da robot che vanno in giro per la rete a ‘spammare’. Spesso si trovano anche in fondo a delle schede in cui bisogna compilare dei form per evitare, anche qui, che non ci sia un umano ad inserire i dati.
Nella maggior parte dei casi il Captcha è fatto da un’immagine comprensibile all’uomo e non ad una macchina. Di solito è visualizzato un codice in forma di serie numerica o alfanumerica (un numero o un testo), visualizzato male, cioè distorto o con disturbi.
Da un po’ di tempo in Rete è apparso un progetto che si propone di associare a questa pratica un fine, come dire benefico. Si chiama reCaptcha. A detta loro: “reCaptcha migliora il processo di digitalizzazione dei libri mostrando sul Web parole che non riescono ad essere lette dai computert sotto forma CAPTCHA che gli umani devono decifrare. Nello specifico, ogni parola che non può essere letta correttamente dai sistemi OCR (software di riconoscimento testo) è messa in una immagine e usata come CAPTCHA. Tutto ciò e possibile perché la maggior parte dei programi di tipo OCR ti avvisa quando una parola non riesce ad essere letta correttamente”
.
Dunque, compilando il codice Captcha, si aiuta il processo di riconoscimento testi. Una forma diffusa di aiuto umano alla macchine, nell’intento di digitalizzare quanti più testi possibili da rendere poi fruibili all’umanità intera. Pura filantropia. Tutto molto bello.
Ma mi sorge un dubbio. C’è qualcosa che non quadra. Non ci staranno prendendo in giro?
Facciamo che ci fidiamo. Crediamo pure che il nostro aiuto umano serva alla digitalizazzione dei testi. E’ la tecnica che sta alla base, però, che non mi convince.
Vediamo di procedere per assurdo.
I captcha tradizionali prendono una parola (o più di una) la trasformano in immagine, ci aggiungono del disturbo e la mostrano in calce al post da commentare. L’umano legge la parola e la digita nel campo apposito. A questo punto avviene il controllo dei due termini. Il computer alla base, cioè, conosce sin dal principio la parola da decifrare e quindi, al momento di fare la verifica, accosta il termine mostrato con quello inserito dall’utente umano.
Con il sistema reCaptcha questo non può avvenire perché (1) o il sistema alla base sa già la parola da decifrare e quindi agisce come un captcha normale, cioè riesce a fare la procedura di ‘matching’ finale, oppure (2) non conosce il termine dal principio, per cui, non avendo il termine di paragone è logicamente impossibile che possa confrontare il testo immesso dall’umano con quello da decifrare mostrato nell’immagine.
Mi sfugge qualcosa? Oppure ho ragione? Illuminatemi, vi prego.
hum.. una via di mezzo tra 1 e 2, visto che vengono date due parole (una nota, l’altra no)
Appunto. Se una non è nota, com’è possibile il ‘matching’?
Mah, forse si baserà su una statistica finale sulle risposte. La più digitata sarà la più probabile ergo sarà ritenuta quella vera. Ma siamo nel campo delle supposizioni che, come si sa, assomigliano più alle supposte che alle posizioni.
una delle due è ignota al sistema, e a te. col tempo quella ignota diventa una “vera” captcha. da quello che ho capito, se io non so qual’è quella ignota al sistema, devo inserirle ambedue corrette…
Continuo a non capire. C’e una sola parola da inserire. E se il sistema non la conosce è immpossibile che possa essere sottoposta al ‘matching’.
mmm, la tua è una teoria interessante e probabile.
Beh, più che “teoria” e “probabile” direi “caratteristica” e “documentata” :-)
http://recaptcha.net/learnmore.html
«But if a computer can’t read such a CAPTCHA, how does the system know the correct answer to the puzzle? Here’s how: Each new word that cannot be read correctly by OCR is given to a user in conjunction with another word for which the answer is already known. The user is then asked to read both words. If they solve the one for which the answer is known, the system assumes their answer is correct for the new one. The system then gives the new image to a number of other people to determine, with higher confidence, whether the original answer was correct».
Grazie Guido, adesso è tutto chiaro. Avrei dovuto documentarmi io prima di scrivere questo post.
Da come l’ho capita io, il sistema è un po’ assurdo. Tu ricevi un captcha normale, e devi riconoscerlo. E quello vale per la tua attendibilità. E uno di recaptcha, che decifri, facendo il tuo lavoro da decifratore. Quindi il sistema funziona, ma non è che tu prendi due piccioni con una fava, come dicono. Aggiungono un’altra fava, per prendere un altro piccione. L.
Bella la metafora. Comunque credo che il pezzo in inglese, riportato in questi commenti da gd, sia alquanto chiaro.