Koozali.org: home of the SME Server
Other Languages => Italiano => Topic started by: Mat78 on January 07, 2013, 03:14:36 PM
-
Buongiorno a tutti,
innanzitutto buon anno.
Ho provato ad effettuare una ricerca sul forum ma non ho trovato nessuna informazione a riguardo.
Vorrei riuscire a prendere dei documenti scansiti (file immagine in formato PDF) e trasformarli in file PDF ricercabili.
Questa soluzione sarebbe raggiungibile con il pacchetto OMNIPAGE PRO che però gira sotto windows.
Qualcuno ha già cercato/sviluppato una soluzione di questo genere?
Grazie in anticipo
Matteo
-
ciao
prova a cercare con queste chiavi "centos ocr pdf indexing" su google
HTH
-
Ciao,
innanzi tutto grazie per la risposta.
Cercando con google ho trovato una possibile soluzione: Tesseract-OCR (http://code.google.com/p/tesseract-ocr/ (http://code.google.com/p/tesseract-ocr/))
In poche parole bisognerebbe:
1 - Compilare ed installare Tesseract-OCR e tutte le sue dipendenze (http://paramountideas.com/tesseract-ocr-30-and-leptonica-installation-centos-55-and-opensuse-113 (http://paramountideas.com/tesseract-ocr-30-and-leptonica-installation-centos-55-and-opensuse-113))
2 - Creare una cartella "Scansioni" e una "FileScansitiIndicizzati"
3 - Creare uno script che verifichi la presenza di nuovi file nella cartella
4 - Creare uno script che avvii Tesseract-OCR sui nuovi file presenti nella cartella, li elabori e li sposti nella cartella "FileScansitiIndicizzati" (anche questo è presente su internet - http://amanzi.blogspot.it/2008/07/linux-open-source-ocr-batch-processing.html (http://amanzi.blogspot.it/2008/07/linux-open-source-ocr-batch-processing.html))
Finalmente si ottengono i file PDF Indicizzati che volevo!
Adesso alcune domande:
- Tesseract e le sue dipendenze possono creare dei conflitti con i software presenti su SME? Devo provare ad installare la soluzione per saperlo?
- Le guide che ho trovato sono corrette o devo cercarne altre?
- Per creare lo script che cerca nuovi file come posso fare?
Grazie ancora.
Matteo
-
Ciao,
ho provato per 2 giorni ad installare leptonica e tesseract, senza avere successo.
Per quanto riguarda leptonica ho risolto trovando un rpm compatibile e l'installazione è andata liscia, mentre su tesseract continuo ad avere problemi.
Quando lancio il comando make le ultime righe sono:
make[2]: Nothing to be done for 'install-data-am'
make[2]: Leaving directory '/home/Mat/leptonica-1.69/prog'
make[1]: Leaving directory '/home/Mat/leptonica-1.69/prog'
make[1]: Entering directory '/home/Mat/leptonica-1.69'
make[2]: Entering directory '/home/Mat/leptonica-1.69'
make[2]: Nothing to be done for 'install-exex-am'
make[2]: Nothing to be done for 'install-exex-am'
make[2]: Leaving directory '/home/Mat/leptonica-1.69'
make[1]: Leaving directory '/home/Mat/leptonica-1.69'
Dove posso guardare per capire dove sia il problema?
Mi riuscite ad aiutare nell'installazione?
Grazie
Matteo
-
non devi compilare..
http://pkgs.org/download/tesseract
qui trovi la versione per centos5 -> SME8
-
Avrei bisogno ancora di un piccolo aiuto: non riesco a trovare un software per trasformare i file hOCR in file pdf indicizzati.
Su internet ci sono moltissime soluzioni (come ad esempio hOCR2PDF) ma non saprei quale poter installare su SME (richiedono l'installazione di troppe dipendende).
Conosciete qualche soluzione?
-
se magari ci dici come provi ad installarlo e quali errori ottieni..
:-)
-
Per l'installazione di hocr2pdf richiede l'installazione di:
- Anti-Grain Geometry
Ho trovato un pacchetto di installazione e non ci sono problemi, installa tutta una serie di dipendenze ed ok.
- Pdftk
Ho trovato un pacchetto di installazione e non ci sono problemi, installa tutta una serie di dipendenze ed ok.
- hOCR2pdf (exact-image)
Non sono riuscito ad installarlo perchè richiede una versione di python superiore (2.5.0) ruby (installato), swig (installato ma da aggiornare alla 1.3.32) e lua (installato).
Posso aggiornare python e swig e sperare di non combinare guai?
-
cerca nei forum in lingua inglese, c'è qualcosa a riguardo..
anyway, yum è legato a python.. se incasini qualcosa, yum smette di funzionare