Google conquista reCaptcha, un’acquisizione per due obiettivi

di Emanuele Menietti

scritto il

Google ha da poco ufficializzato l'acquisizione di reCaptcha. La nuova mossa consentirà a Mountain View di implementare nuovi sistemi contro lo spam e di migliorare le proprie soluzioni per il riconoscimento dei testi digitalizzati

È nuovamente tempo di acquisizioni per Google. La società di Mountain View ha da poco ufficializzato l’acquisizione di reCaptcha, azienda specializzata nella produzione di soluzioni per limitare lo spam online e l’invio di commenti indesiderati sui blog e le piattaforme che offrono agli utenti la possibilità di commentare, o integrare, i loro contenuti. L’accordo consentirà a Google non solo di limitare l’aggressione dei sistemi automatici per lo spamming, ma anche di migliorare i sistemi di digitalizzazione del suo servizio Books.

Come spesso avviene in queste circostanze, le due società interessate dal patto non hanno fornito alcuna informazione in meirto all’entità della transazione. La cifra con la quale la società di Mountain View è riuscita a conquistare reCaptcha rimane dunque ignota, mentre sono noti e prevedibili i numerosi vantaggi che Google potrà trarre dalla nuova acquisizione nel corso dei prossimi mesi. Per capire il valore dell’accordo raggiunto per il colosso delle ricerche online occorre, però, compiere alcuni passi indietro per comprendere le effettive potenzialità della società appena acquisita.

Sfruttando alcuni sistemi automatici, solitamente definiti con il termine “bot”, chi veicola spamming online provvede a creare un ampio numero di account di posta elettronica, per inviare mail indesiderate su larga scala, o a pubblicare commenti su blog e siti web che rimandano ai loro spazi online. Per arginare tale fenomeno, numerosi portali e servizi di posta online utilizzano i “captcha”. Tale sistema offre solitamente all’utente un’immagine contenente un testo distorto da riportare in una casella di testo: se le parole digitate corrispondono a quelle distorte offerte dal captcha l’utente ha la possibilità di interagire con il servizio web o il sistema di posta.

Tale soluzione si rivela in genere molto efficace per arginare lo spamming. Le parole distorte sono facilmente interpretabili dalla nostra vista, mentre non lo sono per i bot che restano dunque tagliati fuori. Gli sviluppatori di reCaptcha hanno così deciso di fornire un servizio analogo, combinandolo però con i sistemi per il riconoscimento automatico dei testi (OCR) utilizzati sulle pagine digitalizzate con gli scanner. Tali soluzioni software consentono di trasformare in un testo modificabile l’immagine di una pagina, ma talvolta falliscono nella corretta identificazione delle parole a causa di macchie, carta eccessivamente rovinata o caratteri poco chiari stampati sulle pagine.

Alle parole distorte solitamente presentate agli utenti nei captcha, reCaptcha affianca le parole che i sistemi OCR non sono stati in grado di riconoscere correttamente durante la digitalizzazione di un libro. Digitando le parole presenti nell’immagine per usufruire di un dato servizio online, l’utente collabora dunque a fornire la giusta versione della parola non riconosciuta dagli OCR. Dopo tre inserimenti della medesima parola da parte di tre utenti differenti, reCapctha reputa attendibile il riconoscimento “umano” e inserisce la parola mancante all’interno del testo digitalizzato.

Nei captcha sviluppati dalla società, dunque, il sistema per tagliare fuori i bot da un sito web e il riconoscimento delle parole dei libri da digitalizzare sono complementari e viaggiano sul medesimo binario. Una soluzione innovativa, che consente di fornire due servizi attraverso un semplice gesto – inevitabile – da parte degli utenti.

«In questo modo, la tecnologia esclusiva di reCaptcha migliora il processo di conversione delle immagini acquisite con gli scanner in normale testo, processo noto come Optical Character Recognition (OCR). Questa tecnologia anima anche progetti di digitalizzazione di testi su larga scala come Google Books e Google News Archive Search. Avere la versione testuale dei documenti è importante poiché tali testi possono essere ricercati, adattati per essere visualizzati sui dispositivi mobili o ingranditi per gli ipovedenti. Dunque applicheremo questa tecnologia all’interno di Google non solo per migliorare la protezione contro le frodi e lo spam per i prodotti Google, ma anche per migliorare il processo di digitalizzazione dei testi dei libri e dei giornali» scrivono i responsabili di Mountain View in un post da poco pubblicato sul blog ufficiale della società.

L’acquisizione, già ventilata alcuni mesi fa, di reCaptcha da parte di Google consentirà al colosso delle ricerche online di aumentare sensibilmente l’affidabilità dei propri sistemi di riconoscimento dei testi grazie alla componente umana degli utenti. Gli asset legati alle attività editoriali del gruppo potranno dunque trarre grandi vantaggi dalla nuova acquisizione, aumentando sensibilmente il valore dei propri servizi.