Re-Captcha

Avete presente il captcha? No? Leggete la voce su Wikipedia. Si tratta di un test fatto di una o più domande e risposte per determinare se l’utente sia un umano (e non un computer o, più precisamente, un bot). L’acronimo deriva dall’inglese “Completely Automated Public Turing test to tell Computers and Humans Apart” (Test di Turing pubblico e completamente automatico per distinguere computer e umani).
Bene. Spesso viene usato nei blog per evitare che ai post vengano aggiunti dei commenti automatici da robot che vanno in giro per la rete a ‘spammare’. Spesso si trovano anche in fondo a delle schede in cui bisogna compilare dei form per evitare, anche qui, che non ci sia un umano ad inserire i dati.
Nella maggior parte dei casi il Captcha è fatto da un’immagine comprensibile all’uomo e non ad una macchina. Di solito è visualizzato un codice in forma di serie numerica o alfanumerica (un numero o un testo), visualizzato male, cioè distorto o con disturbi.
Da un po’ di tempo in Rete è apparso un progetto che si propone di associare a questa pratica un fine, come dire benefico. Si chiama reCaptcha. A detta loro: “reCaptcha migliora il processo di digitalizzazione dei libri mostrando sul Web parole che non riescono ad essere lette dai computert sotto forma CAPTCHA che gli umani devono decifrare. Nello specifico, ogni parola che non può essere letta correttamente dai sistemi OCR (software di riconoscimento testo) è messa in una immagine e usata come CAPTCHA. Tutto ciò e possibile perché la maggior parte dei programi di tipo OCR ti avvisa quando una parola non riesce ad essere letta correttamente”

.
Dunque, compilando il codice Captcha, si aiuta il processo di riconoscimento testi. Una forma diffusa di aiuto umano alla macchine, nell’intento di digitalizzare quanti più testi possibili da rendere poi fruibili all’umanità intera. Pura filantropia. Tutto molto bello.
Ma mi sorge un dubbio. C’è qualcosa che non quadra. Non ci staranno prendendo in giro?
Facciamo che ci fidiamo. Crediamo pure che il nostro aiuto umano serva alla digitalizazzione dei testi. E’ la tecnica che sta alla base, però, che non mi convince.
Vediamo di procedere per assurdo.
I captcha tradizionali prendono una parola (o più di una) la trasformano in immagine, ci aggiungono del disturbo e la mostrano in calce al post da commentare. L’umano legge la parola e la digita nel campo apposito. A questo punto avviene il controllo dei due termini. Il computer alla base, cioè, conosce sin dal principio la parola da decifrare e quindi, al momento di fare la verifica, accosta il termine mostrato con quello inserito dall’utente umano.
Con il sistema reCaptcha questo non può avvenire perché (1) o il sistema alla base sa già la parola da decifrare e quindi agisce come un captcha normale, cioè riesce a fare la procedura di ‘matching’ finale, oppure (2) non conosce il termine dal principio, per cui, non avendo il termine di paragone è logicamente impossibile che possa confrontare il testo immesso dall’umano con quello da decifrare mostrato nell’immagine.
Mi sfugge qualcosa? Oppure ho ragione? Illuminatemi, vi prego.