Apache Tika es un conjunto de herramientas de código abierto diseñado para detectar y extraer los metadatos, así como el contenido del texto estructurado a partir de varios documentos, usando nada más que las bibliotecas existentes analizador.
Apache Tika soporta los siguientes formatos de documentos: HyperText Markup Language (HTTP), formatos XML y derivados, formatos de documentos de Microsoft Office, OpenDocument Format (ODF), Formato de documento portátil (PDF), formato de publicación electrónica (EPF), formato de texto enriquecido (RTF ), formatos de compresión y embalaje, formatos de texto / audio / imagen / vídeo, el formato mbox y archivos y los archivos de clase Java.
Anteriormente, Apache Tika fue un sub-proyecto de la biblioteca de software Apache Lucene. Ahora que se distribuye como un paquete independiente por la Apache Software Foundation
¿Cuál es nuevo en esta versión:.
- Eliminado un archivo HTML de prueba con un texto GPL mal elegido en él (TIKA-1129).
- Mejoras a tika-servidor para permitir que produzca text / html y texto / contenido xml (TIKA-1126, TIKA-1127).
- Se realizaron mejoras en el compresor Analizador de manejar archivos g'zipped que requieren la opción decompressConcatenated establecido en true (TIKA-1096).
- Dirigido un error tipográfico que se impide la detección de archivos awk (TIKA-1081).
- añadido un nuevo punto final al servidor de JAX-RS REST de Tika que sólo detecta el tipo de papel basado en una pequeña parte del documento presentado (TIKA-1047).
- RTF:. Listas ordenadas y desordenadas están extraídos (TIKA-1062)
- MP3: duración de audio se extrae ahora (TIKA-991)
- archivos Java .class:. Actualizado desde ASM 3.1 a 4.1 ASM para analizar los códigos de bytes de Java (TIKA-1053)
- Tipos Mime: Definiciones extenderse a incluir opcionalmente Link (URL) y UTI, junto con los detalles de varios formatos comunes (TIKA-1012 / TIKA-1083)
- Las excepciones al procesar documentos OLE10 incrustado, al analizar la información de resumen de documentos de Office, y al guardar documennts incrustados en TikaCLI se registra ahora en lugar de abortar la extracción (TIKA-1074)
- MS Word: carácter de línea tabular ha sido sustituido con salto de línea (TIKA-1128)
- XML: ElementMetadataHandlers ahora puede aceptar opcionalmente valores duplicados y vacíos (TIKA-1133) .
Requisitos :
- Java 2 Standard Edition Runtime Environment
Comentarios que no se encuentran