L’OCR di Office

di Gianfranco Budano

scritto il

L’OCR, acronimo di Optical Character Recognition, è notoriamente un utile applicativo che riesce a tradurre in testo manipolabile l’immagine digitalizzata di un documento cartaceo.

Non tutti forse sanno che Office 2007 integra, come già altre versioni, un comodo “OCR” all’interno dell’applicativo Microsoft Office Document Imaging.

Questo applicativo va installato, altrimenti non è possibile trovarlo nell’elenco dei programmi Office.

Esso, infatti, spesso viene ignorato durante la prima installazione.
Microsoft Office Document Imaging è molto leggero e veloce; permette di scannerizzare un documento e, con pochi click, ottenerne la relativa copia testuale in Word.

È sufficiente scannerizzare l’immagine: cliccando sulla relativa icona si aprirà il tool per la digitalizzazione di immagini (naturalmente è necessario avere installato uno scanner) e, il documento acquisito, sarà immediatamente pronto per il successivo passaggio nell’OCR.

Si potrà quindi selezionare una parte dell’immagine digitalizzata o fornirla per intero all’OCR evitando di effettuare selezioni e cliccando direttamente sull’icona relativa che permette di “Inviare il testo direttamente a Word”.

Nel caso che decideste di effettuare la scansione dell’immagine con altri programmi e utilizzare poi l’OCR di Office vi ricordo che sarà meglio effettuare la digitalizzazione ad una risoluzione alta, almeno 600 px, e salvare l’immagine in formato TIFF.

Microsoft Office Document Imaging, infatti, riconosce solo questo formato di immagini, oltre a quello proprietario, l’MDI.