|
Ho appena scoperto CAM::PDF, una distribuzione con vari moduli per il trattamento dei file PDF.
Fra i vari esempi - tutti dai nomi interessanti - spicca getpdftext.pl, che estrae il testo da un PDF cercando di non sbagliarsi troppo. Molto promettente, soprattutto perché consentirebbe di avere soluzioni di archiviazione/indicizzazione dei file PDF in solo Perl, senza dover ricorrere a programmi esterni (come ad esempio pdftotext).
Inviato da polettix il 16.11.07 02:56
Ti è piaciuto questo articolo? Iscriviti al feed!
|