Apache Tika

Software captura de pantalla:
Apache Tika
Detalles de software:
Versión: 1.4
Fecha de carga: 20 Feb 15
Licencia: Libre
Popularidad: 102

Rating: nan/5 (Total Votes: 0)

Apache Tika es un conjunto de herramientas de código abierto diseñado para detectar y extraer los metadatos, así como el contenido del texto estructurado a partir de varios documentos, usando nada más que las bibliotecas existentes analizador.
Apache Tika soporta los siguientes formatos de documentos: HyperText Markup Language (HTTP), formatos XML y derivados, formatos de documentos de Microsoft Office, OpenDocument Format (ODF), Formato de documento portátil (PDF), formato de publicación electrónica (EPF), formato de texto enriquecido (RTF ), formatos de compresión y embalaje, formatos de texto / audio / imagen / vídeo, el formato mbox y archivos y los archivos de clase Java.
Anteriormente, Apache Tika fue un sub-proyecto de la biblioteca de software Apache Lucene. Ahora que se distribuye como un paquete independiente por la Apache Software Foundation

¿Cuál es nuevo en esta versión:.

  • Eliminado un archivo HTML de prueba con un texto GPL mal elegido en él (TIKA-1129).
  • Mejoras a tika-servidor para permitir que produzca text / html y texto / contenido xml (TIKA-1126, TIKA-1127).
  • Se realizaron mejoras en el compresor Analizador de manejar archivos g'zipped que requieren la opción decompressConcatenated establecido en true (TIKA-1096).
  • Dirigido un error tipográfico que se impide la detección de archivos awk (TIKA-1081).
  • añadido un nuevo punto final al servidor de JAX-RS REST de Tika que sólo detecta el tipo de papel basado en una pequeña parte del documento presentado (TIKA-1047).
  • RTF:. Listas ordenadas y desordenadas están extraídos (TIKA-1062)
  • MP3: duración de audio se extrae ahora (TIKA-991)
  • archivos Java .class:. Actualizado desde ASM 3.1 a 4.1 ASM para analizar los códigos de bytes de Java (TIKA-1053)
  • Tipos Mime: Definiciones extenderse a incluir opcionalmente Link (URL) y UTI, junto con los detalles de varios formatos comunes (TIKA-1012 / TIKA-1083)
  • Las excepciones al procesar documentos OLE10 incrustado, al analizar la información de resumen de documentos de Office, y al guardar documennts incrustados en TikaCLI se registra ahora en lugar de abortar la extracción (TIKA-1074)
  • MS Word: carácter de línea tabular ha sido sustituido con salto de línea (TIKA-1128)
  • XML: ElementMetadataHandlers ahora puede aceptar opcionalmente valores duplicados y vacíos (TIKA-1133)
  • .

Requisitos :

  • Java 2 Standard Edition Runtime Environment

Otro software de desarrollador The Apache Software Foundation

Apache Mahout
Apache Mahout

19 Feb 15

Apache Lucy
Apache Lucy

20 Feb 15

Apache OpenNLP
Apache OpenNLP

20 Feb 15

Apache Cassandra
Apache Cassandra

19 Feb 15

Comentarios a la Apache Tika

Comentarios que no se encuentran
Añadir comentario
A su vez en las imágenes!