reCaptcha ti protegge dallo SPAM e digitalizza i libri

di Stefano Besana

Pubblicato 22 Giugno 2007
Aggiornato 12 Febbraio 2018 20:50

Il progetto, molti di voi avranno già colto l’analogia, ricorda moltissimo quello del SETI@HOME (progetto che mira all’utilizzo di differenti PC residenziali e non connessi ad internet per la ricerca di forme extra-terresti nell’universo).

L’analogia si ferma qui però: questa volta non si tratta di individuare forme di vita intelligenti, ma di combattere lo SPAM, tanto per cambiare.

Il Captcha (Completely Automated Public Turing test to tell Computers and Humans Apart), è un sistema molto diffuso ed esistente già da diversi anni in rete; si tratta di una forma base di distinzione tra macchine ed esseri umani, basata sul principio che una macchina non possa leggere determinati simboli.

Viene richiesto alle utenze di ricopiare dunque questi simboli in un box appositamente creato, per far si che la procedura, qualunque essa sia (postare in un blog, mandare una mail, riempire un form, etc.), venga avviata.

I codici di un captcha sono costruiti in base a sequenze di lettere e numeri presentate in forma non convenzionale (sbarrate, tratteggiate, in maniera non lineare, etc.). Questo impedisce a un BOT di avviare una procedura automatica di registrazione.

Ecco dunque reCaptcha creato e messo a punto dalla Carnegie Mellon University che aggiunge, al sistema tradizionale, un’interessante variante. L’utente deve prima ricopiare il classico codice come in un comune Captcha, in seguito viene chiesto di ricopiare anche un’altra stringa di testo.

Nel caso in cui l’utente dia prova di non essere un BOT, sorpassando con successo la prima prova, potrà essere ritenuto affidabile per la seconda.

Cerchiamo di essere più chiari. L’idea in sostanza è questa: anziché fare in modo che la parola da “tradurre” sia qualcosa privo di significato, facciamo in modo che l’utente venga chiamato a ricopiare delle immagini digitali di frasi di libri, saggi, capolavori della letteratura.

È qui che bisogna fare attenzione: attraverso questo lavoro manuale di milioni di utenze nel mondo si riescono a velocizzare di molto le digitalizzazioni dei libri cartacei che presentano non pochi problemi, specie nel riconoscimento di alcune parole che possono essere scambiate per altre. Le macchine per la digitalizzazione possono avere dei problemi nell’identificazione, gli uomini no.
Attenzione però, la parola “trascritta” per essere considerata valida dovrà ottenere almeno tre conferme da parte di utenze diverse, onde evitare errori nella digitalizzazione successiva.

Il software risulta disponibile attraverso un’applicazione API che chiunque può utilizzare nel proprio sito o per proteggere il proprio indirizzo e-mail, contribuendo in questo modo al progetto.
Progetto, questo di Carnegie Mellon, che è ancora in fase di sviluppo ed è stato già ampiamente supportato da grandi aziende quali Novell e Intel.

Nel primo giorno di prova, quando il sistema era stato adottato solamente da 150 siti, sono state digitalizzate 8,000 parole.

Parole che vengono inviate all’Internet Archive Project; il direttore, Brewster Kahle, ha commentato su NetworkWorld:

«Penso sia un’idea brillante usare internet per correggere gli errori dei computer. Questo è un esempio del perché sia importante avere collezioni aperte di dominio pubblico. La gente lavora insieme per costruire un sistema buono e libero».

Un progetto interessante e intelligente al quale va tutto il mio supporto, morale e pratico.
Un’iniziativa intelligente che potremmo definire anche “socialmente” e culturalmente utile.

I libri digitalizzati andranno ad arricchire gli “scaffali” dell’Internet Archive.