proyecto Apache Nutch es un código abierto, software escalable, altamente extensible y libre basada en la web rastreador web que se basa en Apache Lucene (versión Java) biblioteca.
Añade detalles Web, como una oruga, una base de datos de enlace gráfico, programas de análisis de HTML y otros formatos de documentos, etc. Es desarrollado y distribuido por la Fundación Apache, sí dos ramas separadas.
Al ser modular y enchufable, Apache Nutch tiene sus beneficios, al proporcionar las interfaces extensibles como Parse, índice y ScoringFilter para implementaciones personalizadas, tales como Apache Tika para el análisis.
Por otra parte, Apache Nutch está diseñado para ejecutarse en una sola máquina, pero es más potente cuando se ejecuta en un clúster Hadoop. Existe la indexación enchufable para elástico Buscar, Apache Solr, etc
¿Cuál es nuevo en esta versión:.
- nutch-1779 Aplicar formato al código (lewismc)
- nutch-1907 de salida incorrecta de Enlaces externos a los Ejércitos en HostDbUpdateReducer (lewismc)
- nutch-1856 webpage.avsc documentos y host.avsc (lewismc)
- nutch-1.834 comportamiento GeneratorMapper depende del nivel de log (Gerhard Gossen través snagel)
- -nutch 1899 lib Restlet actualización para evitar el fracaso de construcción (talat)
- nutch-1,797 remove paquete sin usar oanhtml (Saurabh Chhajed través snagel)
- nutch-1888 Especifique HTMLMapper para utilizar en TikaParser (Halil Simsek través jnioche)
- nutch-1897 Más fácil la depuración de errores plugin de XML (Markus)
- nutch-1823 Promueve a Elasticsearch 1.4.1 (Phu Kieu, markus, lewismc)
- nutch-1829 Generador: incapaz de distinguir los errores reales (Mathieu Bouchard, jnioche, snagel)
- Generador nutch-1.778 no registro número de direcciones URL en el lote correctamente (jnioche través snagel)
- nutch-1877 filtro de URL sufijo ignorar cadena de consulta por defecto (markus través snagel)
- nutch-1825 protocolo http puede colgar para ciertas páginas web (Phu Kieu través snagel)
- nutch-1483 No se puede arrastrarse sistema de archivos con protocolo de archivo plugin (Rogerio Pereira Araujo, Mengying Wang, snagel)
- nutch-1885 Protocolo-archivo debe tratar a los enlaces simbólicos como redirecciones (Mengying Wang, snagel)
- nutch-1880 URLUtil no debe agregar barras adicionales para las direcciones URL de archivo (snagel)
- nutch-1879 Regex URL normalizador debe eliminar múltiples cuchilladas después de archivo: protocolo (snagel)
- nutch-1820 campo & quot remove; orig & quot; que duplica & quot; Identificación del & quot; (lewismc, snagel)
- Actualización nutch-1843 hasta Gora 0,5 (talat, lewismc, Kiril Menshikov, drazzib)
- nutch-1883 bin / rastreo: función de uso para ejecutar bin / nutch y comprobar el valor de salida (snagel)
- destino Eclipse hormiga nutch-1882 para agregar la ruta de salida a src / test (snagel)
- nutch-1.827 Puerto nutch-1467 y nutch-1561 a 2.x (snagel)
- Actualización nutch-1876 a orugas Commons 0.5 (jnioche)
- destino Eclipse hormiga nutch-1866 no debería eliminar el tiempo de ejecución (nimafl través lewismc)
- nutch-1859 Haga puerto webapp Nutch configurable (Nima Falaki través lewismc)
- Bug nutch-1848 en DashboardPage.html casos contador (Nima Falaki través lewismc)
- nutch-841 Cree una aplicación Web basado en Wicket para Nutch (Fjodor Vershinin través lewismc)
- nutch-1832 Haga trabajo Nutch sin un indexador (Mattmann través lewismc)
- nutch-1840 la función de describir en SolrIndexWriter no es correcto (minooie kaveh través jnioche)
- Actualización nutch-1837 a Tika 1,6 (lewismc)
- nutch-1829 Generador: incapaz de distinguir los errores reales (Mathieu Bouchard través jnioche)
- nutch-1.828 bin / rastreo: manejo incorrecto de errores Nutch (Mathieu Bouchard través jnioche)
- nutch-1693 TextMD5Signature calculado sobre el contenido textual (Tien Nguyen Manh, markus través snagel)
- nutch-1409 quitan obsoleta propiedades db. {default, max} .fetch.interval, generate.max.per.host.by.ip (Matthias Agethle través snagel)
- nutch-1.819 BATCHID en GeneratorJob (Fjodor Vershinin través lewismc)
- Uso nutch-1,708 mismo id cuando indexación y redirecciones eliminación (snagel)
- nutch-1817 Eliminar pom.xml de la fuente (jnioche)
- nutch-1811 bin / junit nutch utilizar JUnit 4 runner de prueba (snagel)
- -1776 nutch ruta Conectarse archivo plugin.folder incorrecta (Diaa través snagel)
- nutch-1566 bin / nutch para permitir que los espacios en blanco en los caminos (tejasp, snagel)
- -nutch 1605 detector de tipo MIME reconoce xlsx como archivo zip (snagel)
- nutch-385 Mejorar la descripción de configuración de rosca relacionados para la función de obtención (jnioche, Lufeng)
- Comando índice nutch-1798 guión Crawl no llamar correctamente (Aaron Bedward través jnioche)
- nutch-1769 RESTO refactorización API (Fjodor Vershinin través lewismc)
- nutch-1633 SLF4J es proporcionada por hadoop y no debe ser incluido en el archivo de trabajo (minooie kaveh través jnioche)
- nutch-1.787 al día y la página de información general doc API completa (snagel)
- nutch-1767 eliminar el tratamiento especial de & quot; params & quot; en vínculos relativos (snagel)
- nutch-1718 redefinen http.robots.agent como & quot; & quot nombres de agentes adicionales; (snagel, Tejas Patil, Daniel Kugel)
- nutch-1796 Asegurar Gora constructores de objetos se utilizan como se oponen a constructores vacías (snagel través lewismc)
- nutch-1.590 [SEGURIDAD] Marco de Vulnerabilidad de inyección en Javadoc publicado (jnioche)
- nutch-1736 No se puede recuperar la página si cabecera de respuesta HTTP contiene Transfer-Encoding: fragmentada (ysc través jnioche)
- nutch-1782 NodeWalker para volver nodo actual (Markus)
- nutch-1781 Actualización gora - * - mapping.xml y gora.proeprties para reflejar Gora 0,4 (lewismc)
- Actualización nutch-1768 a Elasticsearch 1.1.0 (jnioche)
- -stats ReadDb nutch-1634 muestra el resultado en dos ocasiones (kaveh minooie través jnioche)
- nutch-1780 ttl y gc_grace_seconds atributos faltan archivo gora-cassandra-mapping.xml (kaveh minooie través lewismc)
- nutch-1676 Añadir soporte SSL rudimentaria al protocolo http (jnioche, markus)
- nutch-1674 filtro de Uso BATCHID para permitir la exploración (GORA-119) para Fetch, Parse, actualización, Índice (Tien Nguyen Manh y Alparslan Avci través jnioche)
- Actualización nutch-1714 a Gora 0,4 (Alparslan Avci través jnioche)
- nutch-1752 normas robots.txt caché por protocolo: host: puerto (snagel)
- nutch-1613 Tiempos de espera en protocolo httpclient al rastrear mismo host con & gt; 2 hilos (brian44 través jnioche)
- fetcher nutch-1182 para iniciar sesión subprocesos colgados (snagel)
- nutch-1618 Turn ejecución especulativa fuera de Recogida (talat)
- nutch-1657 ORIGINAL_CHAR_ENCODING y CHAR_ENCODING_FOR_CONVERSION nunca puso en HTMLParser (talat)
- reductor nutch-1725 de CleaningJob no cometer documentos borrados. (ilhamikalkan través talat)
- nutch-1728 indexador-solr plugin no se elimina documentos de Solr (ilhamikalkan través talat)
- nutch-1753 Eclipse problema dependecy para 2.x (talat)
- nutch-1720 líneas duplicadas en HttpBase.java (Walter Tietze través jnioche)
- nutch-797 URL no construye correctamente al destino del enlace comienza con un & quot; & quot; (Doug Cook, Robert Hohman, Stondet, ab través snagel)
- Actualización nutch-1759 a orugas Commons 0.4 (jnioche)
- nutch-1700 Quitar código obsoleto en src / plugin / creativecommons / build.xml (lewismc)
- nutch-1 mil setecientos sesenta y una secuencia de comandos de rastreo no encuentra archivo de trabajo si no se ha iniciado desde el interior bin dir (David Hosking, jnioche)
- parser postal nutch-1603 se queja archivo PDF sobre truncada (snagel través lewismc)
- nutch-1743 parsechecker para mostrar externos (snagel)
- nutch-1732 Better línea cmd analizar para NutchServer (Fjodor Vershinin través lewismc)
- nutch-1751 anclajes vacíos no deben índice (Sertac Turkel través lewismc)
- nutch-1733 parse-html para apoyar HTML5 definiciones charset (snagel)
- nutch-1.727 longitud Configurable para dominios de primer nivel (Sertac Turkel través lewismc)
- nutch-1738 Expose número de URLs generadas por lote en GeneratorJob (Talat UYARER través ewismc)
- indexchecker nutch-1671 para agregar el campo (snagel, Lufeng) digerir
- nutch-1.645 test JUnit para Adaptive Fetch clase Horario (Yasin Kilinc, Lufeng, Sertac Urkel través snagel)
- nutch-1478 Parse-metatags y plug-in de índice de metadatos para la serie 2.x Nutch (Kiran, Nguyen Tien anh, Talat UYARER, Vangelis Karvounis través lewismc)
- Actualización nutch-1,729 a Tika 1,5 (jnioche)
- nutch-1,721 Actualiza a Crawler común 0,3 (tejasp)
- nutch-1719 DomainStatistics falla en 2.x debido URL no se no invertida (Gerhard Gossen través lewismc)
- nutch-1253 incompatable neko y Xerces (snagel, lewismc, Talat UYARER)
- nutch-1715 RobotRulesParser suma adicional '*' al nombre de robots (tejasp)
- caché repositorio nutch-356 Plugin puede conducir a la pérdida de memoria (Enrico Triolo, Dogacan Guney través markus)
- nutch-1164 pruebas de escritura JUnit para protocolo http (Sertac Turkel través tejasp)
- nutch-1710 Agregar gora paquete de registro para log4j.properties (lewismc)
- nutch-1655 indexador Plugin para elástico Búsqueda (Talat UYARER través lewismc)
- nutch-1,699 Tika Analizador - Bug Parse imagen (Mehmet Zahid Yuzuguldu, snagel través lewismc)
- nutch-1568 puerto arquitectura indexación conectable a 2.x (Talat UYARER través lewismc)
- inlinks nutch-1672 se añaden dos veces en DbUpdateReducer (Tien Nguyen Manh través lewismc)
- nutch-1667 updatedb siempre ignorar BATCHID (Tien Nguyen Manh través lewismc)
- nutch-1695 NutchDocument.toString () (markus través lewismc)
- nutch-1696 Habilitar uso de (Gora) dependencias SNAPSHOT (lewismc)
- nutch-1681 En URLUtil.java, método ToUnicode no funciona correctamente (A
versiones
Comentarios que no se encuentran