Apache Tika

Software captura de pantalla:
Apache Tika
Detalles de software:
Versión: 1.9 Actualizado
Fecha de carga: 20 Jul 15
Licencia: Libre
Popularidad: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Tika fue desarrollado como un conjunto de herramientas de bajo nivel para la búsqueda de contenidos dentro de otros archivos.
Tika no hace mucho por sí mismo ser una biblioteca simple, pero puede ser integrado en las herramientas más potentes como los motores de búsqueda, sistemas de gestión de activos digitales o CMS para proporcionar un sistema de búsqueda totalmente funcional en el archivo.
La biblioteca puede acceder cabecera sólo el del archivo para la información del archivo general rápida, o puede ir muy profundo y buscar incluso en el cuerpo del archivo de varios tipos de datos, en formato de texto o binario.
Una amplia gama de tipos de archivo son compatibles y Tika también se puede utilizar con otros lenguajes de programación gracias a una serie de enlaces de terceros y envoltorios.

¿Qué hay de nuevo en este comunicado :

  • Esta versión incluye correcciones de errores y nuevas características, incluyendo una nueva Tesseract OCR Analizador; un nuevo Analizador GDAL; más formatos soportados y mejoras generales en Tika estabilidad.

¿Qué hay de nuevo en la versión 1.8:

  • Esta versión incluye correcciones de errores y nuevas características, incluyendo una nueva Tesseract OCR Analizador; un nuevo Analizador GDAL; más formatos soportados y mejoras generales en Tika estabilidad.

¿Qué hay de nuevo en la versión 1.7:

  • Esta versión incluye correcciones de errores y nuevas características, incluyendo una nueva Tesseract OCR Analizador; un nuevo Analizador GDAL; más formatos soportados y mejoras generales en Tika estabilidad.

¿Qué hay de nuevo en la versión 1.6:

  • Esta versión incluye correcciones de errores y nuevas características, incluyendo una nueva traducción API, los formatos más compatibles, y mejoras generales en Tika estabilidad.

¿Cuál es nuevo en la versión 1.5:.

  • Solución de error en el manejo de procesamiento de archivos incrustados en archivos PDF
  • Agregado SourceCodeParser para apoyar java, archivos Groovy, C ++.
  • Actualización Tika servidor para soportar cargas útiles multipart / form-data.
  • Actualización del servidor Tika a CXF 2.7.8.
  • Actualizado Tika Server para aceptar solicitudes más direcciones comodín.
  • Añadida la opción de utilizar NonSequentialPDFParser alternativo.
  • Contenido de AcroForms PDF ahora se extrae.
  • asteriscos no válidos fijos de diapositiva maestra en PPT.
  • casos de prueba añadida para confirmar manejo de fecha automática en PPT y PPTX.

¿Qué hay de nuevo en la versión 1.4:

  • Eliminado un archivo HTML de prueba con un texto GPL mal elegido en ella.
  • Mejoras a tika-servidor para permitir que produzca text / html o el texto / contenido XML.
  • Se realizaron mejoras en el compresor Analizador de manejar archivos g'zipped que requieren la opción decompressConcatenated establecido en true.
  • Dirigido un error tipográfico que se impide la detección de archivos awk.

¿Cuál es nuevo en la versión 1.2:

  • Apache Tika 1.2 contiene una serie de mejoras y correcciones de errores.

¿Cuál es nuevo en la versión 1.0:

  • Apache Tika 1.0 contiene una serie de mejoras y correcciones de errores.

¿Cuál es nuevo en la versión 0.9:.

  • Esta versión incluye varias correcciones de errores importantes y nuevas funciones

¿Qué hay de nuevo en la versión 0.8:

  • Identificación lenguaje es ahora configurable dinámicamente, gestionado a través de un archivo de configuración cargado de la ruta de clases.
  • Tika ahora es compatible con el análisis sintáctico Feeds envolviendo la biblioteca de Roma subyacente.
  • Una guía de inicio rápido para Tika análisis fue aportado.

  • se añadió
  • Un enfoque para la plomería a través de atributos XHTML.
  • Tipo de Información para los medios jerarquía ahora se tiene en cuenta a la hora de seleccionar el mejor programa de análisis de un documento de entrada.
  • Soporte para analizar formatos de datos científicos comunes incluyendo netCDF y se añadió HDF4 / 5.
  • Las pruebas unitarias para Windows se han fijado, permitiendo TestParsers para completar.

¿Qué hay de nuevo en la versión 0.7:

  • archivo MP3 análisis se ha mejorado, incluyendo Channel y SampleRate extracción y apoyo ID3v2. Además, la detección de la mímica de análisis de audio también se ha mejorado para el formato MIDI.
  • Tika ya no se basa en X11 para su funcionalidad de análisis de RTF.
  • Un error Hilo de seguridad en el AutoDetectParser fue descubierto y dirigida.
  • Actualizar a PDFBox 1.0.0. La nueva versión PDFBox mejora el rendimiento de análisis PDF y corrige una serie de problemas de extracción de texto.

Requisitos

  • Java 6 o superior

Programas parecidos

Apache Curator
Apache Curator

10 Feb 16

RDF.rb
RDF.rb

10 Dec 15

miuri.js
miuri.js

13 May 15

Otro software de desarrollador Apache Software Foundation

Comentarios a la Apache Tika

Comentarios que no se encuentran
Añadir comentario
A su vez en las imágenes!
Búsqueda por categoría