Apache Tika

Software captura de pantalla:
Apache Tika
Detalles de software:
Versión: 1.4
Fecha de carga: 20 Feb 15
Licencia: Libre
Popularidad: 6

Rating: nan/5 (Total Votes: 0)

Apache Tika es un conjunto de herramientas de código abierto diseñado para detectar y extraer los metadatos, así como el contenido del texto estructurado a partir de varios documentos, usando nada más que las bibliotecas existentes analizador.
Apache Tika soporta los siguientes formatos de documentos: HyperText Markup Language (HTTP), formatos XML y derivados, formatos de documentos de Microsoft Office, OpenDocument Format (ODF), Formato de documento portátil (PDF), formato de publicación electrónica (EPF), formato de texto enriquecido (RTF ), formatos de compresión y embalaje, formatos de texto / audio / imagen / vídeo, el formato mbox y archivos y los archivos de clase Java.
Anteriormente, Apache Tika fue un sub-proyecto de la biblioteca de software Apache Lucene. Ahora que se distribuye como un paquete independiente por la Apache Software Foundation

¿Cuál es nuevo en esta versión:.

  • Eliminado un archivo HTML de prueba con un texto GPL mal elegido en él (TIKA-1129).
  • Mejoras a tika-servidor para permitir que produzca text / html y texto / contenido xml (TIKA-1126, TIKA-1127).
  • Se realizaron mejoras en el compresor Analizador de manejar archivos g'zipped que requieren la opción decompressConcatenated establecido en true (TIKA-1096).
  • Dirigido un error tipográfico que se impide la detección de archivos awk (TIKA-1081).
  • añadido un nuevo punto final al servidor de JAX-RS REST de Tika que sólo detecta el tipo de papel basado en una pequeña parte del documento presentado (TIKA-1047).
  • RTF:. Listas ordenadas y desordenadas están extraídos (TIKA-1062)
  • MP3: duración de audio se extrae ahora (TIKA-991)
  • archivos Java .class:. Actualizado desde ASM 3.1 a 4.1 ASM para analizar los códigos de bytes de Java (TIKA-1053)
  • Tipos Mime: Definiciones extenderse a incluir opcionalmente Link (URL) y UTI, junto con los detalles de varios formatos comunes (TIKA-1012 / TIKA-1083)
  • Las excepciones al procesar documentos OLE10 incrustado, al analizar la información de resumen de documentos de Office, y al guardar documennts incrustados en TikaCLI se registra ahora en lugar de abortar la extracción (TIKA-1074)
  • MS Word: carácter de línea tabular ha sido sustituido con salto de línea (TIKA-1128)
  • XML: ElementMetadataHandlers ahora puede aceptar opcionalmente valores duplicados y vacíos (TIKA-1133)
  • .

Requisitos :

  • Java 2 Standard Edition Runtime Environment

Otro software de desarrollador The Apache Software Foundation

Apache HBase
Apache HBase

17 Feb 15

Apache Ant
Apache Ant

2 Sep 17

jakarta-tomcat
jakarta-tomcat

2 Jun 15

Comentarios a la Apache Tika

Comentarios que no se encuentran
Añadir comentario
A su vez en las imágenes!