Soluzione OCR

Mat78

51
+0/-0

Soluzione OCR

« on: January 07, 2013, 03:14:36 PM »

Buongiorno a tutti,
innanzitutto buon anno.

Ho provato ad effettuare una ricerca sul forum ma non ho trovato nessuna informazione a riguardo.

Vorrei riuscire a prendere dei documenti scansiti (file immagine in formato PDF) e trasformarli in file PDF ricercabili.

Questa soluzione sarebbe raggiungibile con il pacchetto OMNIPAGE PRO che però gira sotto windows.

Qualcuno ha già cercato/sviluppato una soluzione di questo genere?

Grazie in anticipo

Matteo

Logged

Stefano

10,895
+3/-0

Re: Soluzione OCR

« Reply #1 on: January 07, 2013, 04:37:09 PM »

ciao

prova a cercare con queste chiavi "centos ocr pdf indexing" su google

HTH

Logged

Mat78

51
+0/-0

Re: Soluzione OCR

« Reply #2 on: January 09, 2013, 09:10:07 AM »

Ciao,

innanzi tutto grazie per la risposta.

Cercando con google ho trovato una possibile soluzione: Tesseract-OCR (http://code.google.com/p/tesseract-ocr/)

In poche parole bisognerebbe:

1 - Compilare ed installare Tesseract-OCR e tutte le sue dipendenze (http://paramountideas.com/tesseract-ocr-30-and-leptonica-installation-centos-55-and-opensuse-113)
2 - Creare una cartella "Scansioni" e una "FileScansitiIndicizzati"
3 - Creare uno script che verifichi la presenza di nuovi file nella cartella
4 - Creare uno script che avvii Tesseract-OCR sui nuovi file presenti nella cartella, li elabori e li sposti nella cartella "FileScansitiIndicizzati" (anche questo è presente su internet - http://amanzi.blogspot.it/2008/07/linux-open-source-ocr-batch-processing.html)

Finalmente si ottengono i file PDF Indicizzati che volevo!

Adesso alcune domande:
- Tesseract e le sue dipendenze possono creare dei conflitti con i software presenti su SME? Devo provare ad installare la soluzione per saperlo?
- Le guide che ho trovato sono corrette o devo cercarne altre?
- Per creare lo script che cerca nuovi file come posso fare?

Grazie ancora.

Matteo

Logged

Mat78

51
+0/-0

Re: Soluzione OCR

« Reply #3 on: January 11, 2013, 09:06:25 AM »

Ciao,

ho provato per 2 giorni ad installare leptonica e tesseract, senza avere successo.

Per quanto riguarda leptonica ho risolto trovando un rpm compatibile e l'installazione è andata liscia, mentre su tesseract continuo ad avere problemi.

Quando lancio il comando make le ultime righe sono:

Quote

make[2]: Nothing to be done for 'install-data-am'
make[2]: Leaving directory '/home/Mat/leptonica-1.69/prog'
make[1]: Leaving directory '/home/Mat/leptonica-1.69/prog'
make[1]: Entering directory '/home/Mat/leptonica-1.69'
make[2]: Entering directory '/home/Mat/leptonica-1.69'
make[2]: Nothing to be done for 'install-exex-am'
make[2]: Nothing to be done for 'install-exex-am'
make[2]: Leaving directory '/home/Mat/leptonica-1.69'
make[1]: Leaving directory '/home/Mat/leptonica-1.69'

Dove posso guardare per capire dove sia il problema?

Mi riuscite ad aiutare nell'installazione?

Grazie

Matteo

Logged

Stefano

10,895
+3/-0

Re: Soluzione OCR

« Reply #4 on: January 11, 2013, 09:56:05 AM »

non devi compilare..
http://pkgs.org/download/tesseract
qui trovi la versione per centos5 -> SME8

Logged

Mat78

51
+0/-0

Re: Soluzione OCR

« Reply #5 on: January 14, 2013, 12:35:39 AM »

Avrei bisogno ancora di un piccolo aiuto: non riesco a trovare un software per trasformare i file hOCR in file pdf indicizzati.

Su internet ci sono moltissime soluzioni (come ad esempio hOCR2PDF) ma non saprei quale poter installare su SME (richiedono l'installazione di troppe dipendende).

Conosciete qualche soluzione?

Logged

Stefano

10,895
+3/-0

Re: Soluzione OCR

« Reply #6 on: January 14, 2013, 09:24:45 AM »

se magari ci dici come provi ad installarlo e quali errori ottieni..

Logged

Mat78

51
+0/-0

Re: Soluzione OCR

« Reply #7 on: January 14, 2013, 02:06:53 PM »

Per l'installazione di hocr2pdf richiede l'installazione di:

- Anti-Grain Geometry
Ho trovato un pacchetto di installazione e non ci sono problemi, installa tutta una serie di dipendenze ed ok.

- Pdftk
Ho trovato un pacchetto di installazione e non ci sono problemi, installa tutta una serie di dipendenze ed ok.

- hOCR2pdf (exact-image)
Non sono riuscito ad installarlo perchè richiede una versione di python superiore (2.5.0) ruby (installato), swig (installato ma da aggiornare alla 1.3.32) e lua (installato).

Posso aggiornare python e swig e sperare di non combinare guai?

Logged

Stefano

10,895
+3/-0

Re: Soluzione OCR

« Reply #8 on: January 14, 2013, 02:11:02 PM »

cerca nei forum in lingua inglese, c'è qualcosa a riguardo..

anyway, yum è legato a python.. se incasini qualcosa, yum smette di funzionare

Logged