OCR di Google Docs, leggere il testo in un’immagine

di Giulio Vito de Musso

scritto il

Forse la maggior parte dei nostri documenti sono in formato cartaceo e si sa, la carta è soggetta a molti rischi e sarebbe indicato salvarli in formato digitale. Tuttavia digitare a mano questi documenti, soprattutto se il numero di pagine è grande, non è né facile né sicuro. Sarebbe quindi molto utile disporre di uno strumento che permettesse una lettura e conversione automatica del testo scansionato con uno scanner in un documento virtuale.

Google Docs mette a disposizione dei suoi utenti una tecnica di OCR per il riconoscimento del testo nelle immagini.

Per prima cosa dobbiamo effettuare l’upload dell’immagine (nei formati jpg, gif e png) o del PDF dal quale vogliamo estrarre il testo. Andiamo quindi nella finestra principale di Docs e clicchiamo il pulsante “Upload…”.

Qui selezioniamo dal nostro computer i file dei quali vogliamo fare l’upload e clicchiamo il flag “Convert text from PDF or image file to Google Docs documents”.

Clicchiamo “Start upload” e attendiamo la fine del processo.

Fatto ciò vedremo che fra i nostri file sarà stato aggiunto un file in formato Google Document avente lo stesso nome dell’immagine convertita.

Aprendo questo file ritroveremo sotto forma di testo e immagini il contenuto del file originario.

Gli sviluppatori di questa funzionalità consigliano di usare immagini di alta qualità il cui testo sia alto almeno 10 pixel e avvisa che il processo di conversione potrebbe non preservare tutti gli elementi. Inoltre viene imposto il limite di 2MB sulla dimensione dei file e di 10 pagine sui file PDF.