PDFMiner funciona tomando primero el contenido de un archivo PDF y convertirlo a un formato más maleable como HTML.
A partir de ahí, el texto y los datos se extrajeron y analizaron, y en base a las reglas predefinidas separados y presentados al usuario o enviados a otros más potentes herramientas de análisis de datos.
Si el análisis de texto no es lo que va a hacer, puede configurar fácilmente PDFMiner para extraer simplemente o simplemente convertir datos PDF también.
Sus funciones pueden trabajar por separado el uno del otro y permitir un uso más amplio espectro gracias a él
Características .
- 100% Python código, sin C o C ++
- analizar archivos PDF
- Analizar archivos PDF
- Convertir archivos PDF a otros formatos
- extractora ToC
- Obtener única etiquetado de contenido
- El apoyo a un gran número de características de texto PDF
- El apoyo a un gran número de tipos de fuentes dentro de archivos PDF
- cifrado básico (RC4) el apoyo
¿Qué hay de nuevo en esta versión:
- método PDFDocument.initialize () se elimina y ya no es necesario . Una contraseña se da como un argumento de un constructor PdfDocument.
¿Qué hay de nuevo en la versión 20110515:.
- cambios en la API
- clase LTPolygon fue rebautizado como LTCurve.
¿Qué hay de nuevo en la versión 20110227:.
- Corrección de errores y mejoras de análisis de diseño
¿Qué hay de nuevo en la versión 20101226:.
- Un par de correcciones de errores y mejoras menores
¿Qué hay de nuevo en la versión 20101017:.
- Un par de correcciones de errores y mejoras de menor importancia
¿Qué hay de nuevo en la versión 20100424:.
- Corrección de errores y pequeñas mejoras en la extracción TOC
Requisitos
- Python 2.4 hasta 3
Limitaciones .
- PDFMiner puede ser 20 veces más lento que C / C ++ - software basado
Comentarios que no se encuentran