Vi è mai capitato di fotografare un documento o la pagina di un libro e poi doverne copiare il contenuto digitandolo ex-novo all’interno del vostro word processor preferito? Si tratta di un procedimento lungo e noioso che può richiedere anche molto lavoro, lavoro che con un po’ di furbizia può essere evitato. Se non lo sapete, infatti, esistono dei software che possono fare il lavoro al posto nostro e in modo del tutto automatico, si tratta dei cosiddetti OCR (dall’inglese optical character recognition) .
Gli OCR sono dei software in grado di effettuare il riconoscimento automatico dei caratteri tipografici presenti all’interno delle immagini e di estrarli sotto forma di testo semplice che potrà poi essere copiato ed incollato in programmi come Microsoft Word per poi poter essere facilmente modificato. In altre parole, grazie ad un software OCR è possibile estrarre automaticamente tutto il testo contenuto nella scansione ottica di un documento o in una semplice fotografia in modo piuttosto preciso e senza nessuna fatica.
E’ bene precisare che la precisione dell’estrapolazione del testo dipende notevolmente dalla qualità dell’immagine e dal tipo di caratteri tipografico utilizzato. Un testo scritto con un font “ordinario”, pertanto, avrà maggiori possibilità di essere estratto correttamente rispetto ad un testo scritto con font più elaborati o, addirittura, scritti a mano.
I migliori software per il riconoscimento e l’estrazione automatica del testo nelle immagini
FreeOCR
FreeOCR è un software OCR completamente gratuito, disponibile per sistemi operativi Windows, in grado di estrarre il testo da file PDF, TIFF e da tutti i più diffusi formati d’immagine. Il software è basato sull’engine OCR Tesseract ed integra i driver di scansione Twain e WIA. Il testo estrapolato può essere salvato in diversi formati tra cui PDF e JPEG.
SimpleOCR
SimpleOCR è un software OCR gratuito (per usi non commerciali) per sistemi Windows che garantisce un’accuratezza del 99%. Unico requisito di sistema è la disponibilità del driver TWAIN. Il software integra diverse funziolaità interessanti tra cui la possibilità di selezionare singole aree di un’immagine e di poter effettuare operazioni batch (cioè su una molteplicità di file). Attualmente, purtroppo, il software supporta solo la lingua inglese e francese.
GT Text
GT Text è un software gratuito di riconoscimento ed estrazione del testo contenuto nelle immagini. L’applicazione si basa sull’algoritmo open-source Tesseract sviluppato dai tecnici di Google. GT Text è in gradi di estrapolare qualsiasi testo incluso in un’immagine a colori, documento scansionato, area dello schermo e altro ancora. E’ sufficiente selezionare l’area di testo che si desidera scansionare ed eseguire l’OCR.
Capture2Text
Capture2Text è un software open-source compatibile con Windows 7, 8 e 10 che può essere utilizzato con qualsiasi file d’immagine o programma, semplicemente selezionando la porzione del desktop da cui si desidera estrarre il testo. La porzione di testo estratta dal software potrà poi essere visualizzata nell’apposita finestra di output oppure, più semplicemente, essere immediatamente disponibile all’interno della clipboard.
OCR ImageToText
OCR ImageToText è un’applicazione desktop in grado di estrarre testo ASCII da immagini, fax e fotografie. Questo software utilizza le ultime tecnologie di intelligenza artificiale e un database con oltre 4 milioni di varianti di caratteri tipografici per offrire i migliori risultati e elevati livelli di precisione anche in presenza di sorgenti di bassa qualità. OCR ImageToText supporta diverse lingue tra cui: inglese, spagnolo, italiano, tedesco, francese e svedese.
Sul sito del produttore è possibile scaricare una demo funzionante. La licenza del software, nel momento in cui scriviamo, è venduta a 29 dollari.
(a9t9) Free OCR for Windows
Questo software utilizza la tecnologia open-source Tesseract per estrapolare il testo ASCII contenuto in immagini e PDF. La distribuzione ufficiale include il supporto al riconoscimento di testi in inglese, tedesco e spagnolo. Altri dizionari, tra cui l’italiano, sono disponibili gratuitamente su Github.
OCRKit
OCRKit è un’applicazione OCR per Mac dotata di una tecnologia avanzata di riconoscimento ottico dei caratteri, che consente di convertire documenti scansionati o stampati in testo puro e semplice, pronto per essere copiato in un qualsiasi word processor. Il software supporta 12 lingue (tra cui l’italiano), accetta come sorgente i principali file d’immagine (PDF, TIFF, JPEG, JPEG2000, PNG, PNM, BMP, PCX, GIF e OpenEXR) e produce output sotto forma di HTML, RTF o TXT. Da segnalare che questo programma è in grado di effettuare la scansione OCR anche di documenti PDF multi-pagina.
OCRKit è disponibile per una prova gratuita di 14 giorni al termine della quale, per continuare ad utilizzare il programma, sarà necessario acquistare una licenza.
Prizmo
Prizmo è un’applicazione di tipo scanner per Mac che integra diverse funzionalità interessanti, tra cui un potente OCR con supporto per ben 26 differenti lingue (tra cui l’italiano). Tra le altre funzionalità: la possibilità di “raddrizzare” immagini catturate in prospettiva o curvate.
IL software è disponibile in versione di prova gratuita senza alcuna scadenza temporale. E’ importante segnalare, tuttavia, che la versione gratuita patisce alcune limitazioni anche relativamente alla funzione OCR…