Apache Nutch

Software captura de pantalla:
Apache Nutch
Detalles de software:
Versión: 2.3
Fecha de carga: 1 Mar 15
Licencia: Libre
Popularidad: 128

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch fue construido en la parte superior de Apache Lucene , un potente motor de búsqueda de Java.
Desarrolladores Nutch modificaron el código base de Lucene, transformando el Lucene código base-datos agnóstica en un proyecto dedicado a la búsqueda de datos en la Web específicamente.
Esta tecnología se puede utilizar para buscar en sus propias páginas web como un servidor de búsqueda incorporado, o rastrear la web en busca de datos para analizar y raspar en su base de datos.
Nutch puede ejecutar en una sola máquina, pero funciona mejor en Hadoop clusters.
Varios plugins están disponibles para ampliar su espectro de uso

¿Cuál es nuevo en esta versión:.

  • Asegúrese de que no existen etiquetas duplicadas en conjunto de etiquetas microformato-reltag.
  • Una mejor caer de nuevo valor para el campo de fecha.
  • Se puede olvidarse de la temida.
  • Actualizar a Hadoop 1.2.0.
  • Actualizar a Tika 1.3.

¿Qué hay de nuevo en la versión 2.0:.

  • Renombrado HTMLParseFilter en ParseFilter
  • Eliminar restante robots / código de bloqueo de IP en lib-http.
  • tala Puerto a SLF4J.
  • parser externa que soporta atributo de codificación.
  • ajustes de configuración de la hiedra no incluyen Gora.
  • Inyector debe añadir los metadatos antes de llamar injectedScore.
  • Port Nutch referencia a Nutchbase.
  • Añadir parse-html espalda.
  • MoreIndexingFilter formato de fecha que falta.
  • Tiempo de espera para el analizador.
  • Intervalo de reintento en la fecha de rastreo se establece en 0.
  • Generar salida de registro para indexador solr y dedup.
  • Mejora NutchConfiguration.
  • SolrDeleteDuplicates necesita clonar los objetos SolrRecord.
  • libs Hadoop nativos que no están disponibles a través de Maven.
  • separar los entornos de compilación y tiempo de ejecución.

¿Qué hay de nuevo en la versión 1.5:

  • Esta versión incluye varias mejoras, incluyendo las actualizaciones de varios componentes principales incluidos Tika 1.1 y 1.0.0 Hadoop, mejoras en LinkRank y elementos Webgrafía así como una serie de nuevos plugins que cubren las listas negras, filtrado y análisis sintáctico para nombrar unos pocos.

¿Cuál es nuevo en la versión 1.4:.

  • Agregado Solr 4x (tronco) esquema de ejemplo
  • Añadido '/ tiempo de ejecución' a svn ignore.
  • Aplicación / xhtml + xml deben estar habilitadas en plugin.xml de análisis sintáctico-html; permitir que varios tipos MIME para plugin.xml.
  • Fijo parse-tika y analizar-html utilizar resolución URL relativa por RFC-3986.
  • ascendieron a Tika 0.10. NOTA:. RTF nuevo analizador de Tika puede ignorar más texto en documentos con formato incorrecto que antes - ver TIKA-748 para obtener más información
  • objetivos Agregado sonar para Ant build.xml.
  • actualizado a la versión 3.4.0 SolrJ.
  • target pmd Ant está roto.
  • Mejorado esquema Solr a la versión 1.4.

¿Qué hay de nuevo en la versión 1.3:

  • Esta versión incluye varias mejoras (soporte mejorado RSS analizar, más apretado integración con Apache Tika, el apoyo de análisis externo, mejora de la identificación de idiomas y un orden de magnitud tarball liberación fuente más pequeña -. sólo alrededor de 2 MB)

¿Cuál es nuevo en la versión 1.2:.

  • Haga índice más plug-in configurable
  • protocolo de archivo directorio padre rastreo configurable.
  • Tiempo de espera para el analizador.
  • Sitio web todavía es de marca Lucene.
  • Intervalo de reintento en la fecha de rastreo se establece en 0.

¿Qué hay de nuevo en la versión 1.0:.

  • Permitir analizadores para regresar varios objetos Parse
  • Eliminada redundante tarro commons-logging desde el plugin ontología.
  • Bug en SegmentReader causa bucle infinito.
  • Filtro de puntuación debe distribuir puntuación a todos outlinks a la vez.
  • Reducir número de avisos en el núcleo nutch.

Programas parecidos

sitemap.js
sitemap.js

10 Feb 16

Elastica
Elastica

6 Mar 16

Apache Blur
Apache Blur

13 Apr 15

Otro software de desarrollador Apache Software Foundation

Apache XML-RPC
Apache XML-RPC

14 Apr 15

Apache Felix
Apache Felix

12 May 15

Apache Etch
Apache Etch

13 Apr 15

Apache River
Apache River

6 Mar 16

Comentarios a la Apache Nutch

Comentarios que no se encuentran
Añadir comentario
A su vez en las imágenes!