Koozali.org: home of the SME Server

Soluzione OCR

Offline Mat78

  • ***
  • 51
  • +0/-0
Soluzione OCR
« on: January 07, 2013, 03:14:36 PM »
Buongiorno a tutti,
innanzitutto buon anno.

Ho provato ad effettuare una ricerca sul forum ma non ho trovato nessuna informazione a riguardo.

Vorrei riuscire a prendere dei documenti scansiti (file immagine in formato PDF) e trasformarli in file PDF ricercabili.

Questa soluzione sarebbe raggiungibile con il pacchetto OMNIPAGE PRO che però gira sotto windows.

Qualcuno ha già cercato/sviluppato una soluzione di questo genere?

Grazie in anticipo

Matteo

Offline Stefano

  • *
  • 10,894
  • +3/-0
Re: Soluzione OCR
« Reply #1 on: January 07, 2013, 04:37:09 PM »
ciao

prova a cercare con queste chiavi "centos ocr pdf indexing" su google

HTH

Offline Mat78

  • ***
  • 51
  • +0/-0
Re: Soluzione OCR
« Reply #2 on: January 09, 2013, 09:10:07 AM »
Ciao,

innanzi tutto grazie per la risposta.

Cercando con google ho trovato una possibile soluzione: Tesseract-OCR (http://code.google.com/p/tesseract-ocr/)

In poche parole bisognerebbe:

1 - Compilare ed installare Tesseract-OCR e tutte le sue dipendenze (http://paramountideas.com/tesseract-ocr-30-and-leptonica-installation-centos-55-and-opensuse-113)
2 - Creare una cartella "Scansioni" e una "FileScansitiIndicizzati"
3 - Creare uno script che verifichi la presenza di nuovi file nella cartella
4 - Creare uno script che avvii Tesseract-OCR sui nuovi file presenti nella cartella, li elabori e li sposti nella cartella "FileScansitiIndicizzati" (anche questo è presente su internet - http://amanzi.blogspot.it/2008/07/linux-open-source-ocr-batch-processing.html)

Finalmente si ottengono i file PDF Indicizzati che volevo!

Adesso alcune domande:
- Tesseract e le sue dipendenze possono creare dei conflitti con i software presenti su SME? Devo provare ad installare la soluzione per saperlo?
- Le guide che ho trovato sono corrette o devo cercarne altre?
- Per creare lo script che cerca nuovi file come posso fare?

Grazie ancora.

Matteo

Offline Mat78

  • ***
  • 51
  • +0/-0
Re: Soluzione OCR
« Reply #3 on: January 11, 2013, 09:06:25 AM »
Ciao,

ho provato per 2 giorni ad installare leptonica e tesseract, senza avere successo.

Per quanto riguarda leptonica ho risolto trovando un rpm compatibile e l'installazione è andata liscia, mentre su tesseract continuo ad avere problemi.

Quando lancio il comando make le ultime righe sono:

Quote
make[2]: Nothing to be done for 'install-data-am'
make[2]: Leaving directory '/home/Mat/leptonica-1.69/prog'
make[1]: Leaving directory '/home/Mat/leptonica-1.69/prog'
make[1]: Entering directory '/home/Mat/leptonica-1.69'
make[2]: Entering directory '/home/Mat/leptonica-1.69'
make[2]: Nothing to be done for 'install-exex-am'
make[2]: Nothing to be done for 'install-exex-am'
make[2]: Leaving directory '/home/Mat/leptonica-1.69'
make[1]: Leaving directory '/home/Mat/leptonica-1.69'

Dove posso guardare per capire dove sia il problema?

Mi riuscite ad aiutare nell'installazione?

Grazie

Matteo

Offline Stefano

  • *
  • 10,894
  • +3/-0
Re: Soluzione OCR
« Reply #4 on: January 11, 2013, 09:56:05 AM »
non devi compilare..
http://pkgs.org/download/tesseract
qui trovi la versione per centos5 -> SME8


Offline Mat78

  • ***
  • 51
  • +0/-0
Re: Soluzione OCR
« Reply #5 on: January 14, 2013, 12:35:39 AM »
Avrei bisogno ancora di un piccolo aiuto: non riesco a trovare un software per trasformare i file hOCR in file pdf indicizzati.

Su internet ci sono moltissime soluzioni (come ad esempio hOCR2PDF) ma non saprei quale poter installare su SME (richiedono l'installazione di troppe dipendende).

Conosciete qualche soluzione?

Offline Stefano

  • *
  • 10,894
  • +3/-0
Re: Soluzione OCR
« Reply #6 on: January 14, 2013, 09:24:45 AM »
se magari ci dici come provi ad installarlo e quali errori ottieni..
:-)

Offline Mat78

  • ***
  • 51
  • +0/-0
Re: Soluzione OCR
« Reply #7 on: January 14, 2013, 02:06:53 PM »
Per l'installazione di hocr2pdf richiede l'installazione di:

- Anti-Grain Geometry
Ho trovato un pacchetto di installazione e non ci sono problemi, installa tutta una serie di dipendenze ed ok.

- Pdftk
Ho trovato un pacchetto di installazione e non ci sono problemi, installa tutta una serie di dipendenze ed ok.

- hOCR2pdf (exact-image)
Non sono riuscito ad installarlo perchè richiede una versione di python superiore (2.5.0) ruby (installato), swig (installato ma da aggiornare alla 1.3.32) e lua (installato).

Posso aggiornare python e swig e sperare di non combinare guai?

Offline Stefano

  • *
  • 10,894
  • +3/-0
Re: Soluzione OCR
« Reply #8 on: January 14, 2013, 02:11:02 PM »
cerca nei forum in lingua inglese, c'è qualcosa a riguardo..

anyway, yum è legato a python.. se incasini qualcosa, yum smette di funzionare