Jericho HTML Parser

Software captura de pantalla:
Jericho HTML Parser
Detalles de software:
Versión: 3.3
Fecha de carga: 20 Feb 15
Promotor: Martin Jericho
Licencia: Libre
Popularidad: 3

Rating: nan/5 (Total Votes: 0)

Jerich HTML Parser es un código abierto, simple, pero potente librería escrita completamente en Java.
Se permite a los programadores para manipular y analizar partes de un documento HTML.
Jerich HTML Analizador también incorpora funciones de manipulación de formulario HTML de alto nivel

¿Qué hay de nuevo en esta versión:.

  • Corrección de errores:
  • [3581664] CharacterReference.decode () no decodifica entidades que contienen dígitos - y frac12; Y frac14; Y frac34; Y sup1; Y SUP2; Y SUP3; Y there4;
  • [3311286] SourceCompactor no respeta TEXTAREA
  • [3519131] Salida Renderer incorrecta cuando se construyen con un objeto Element.
  • [3538829] Salida Renderer de decoración de la fuente en los límites de secuencia incorrecta.
  • Segment.getAllStartTags (nombre) y Segment.getFirstElement (nombre) no funcionan si el argumento contiene caracteres en mayúsculas.
  • El delimitador final de una etiqueta de servidor común dentro de una etiqueta servidor escapado es falsamente reconocido como el delimitador de final de la etiqueta escapado.
  • cambios que podrían afectar EL COMPORTAMIENTO DE LOS PROGRAMAS EXISTENTES:
  • [3427073] Segment.getStyleURISegments () ahora incluye estilo contenido del elemento, así como los valores de atributos de estilo.
  • [3427927] Segment.getURIAttributes () ahora incluye los atributos de archivo de los elementos de objeto y applets.
  • Comentarios ya no reconocidos dentro de los elementos del guión durante parse secuencial completa. Anteriormente fueron reconocidos por compatibilidad con los principales navegadores, pero el comportamiento moderno navegador ha cambiado.
  • Se ha cambiado el nivel de registro de todos los errores de análisis de INFO a error, y el nivel de registro de la Source.fullSequentialParse () mensaje de aviso de WARN a INFO. Los niveles anteriores se había dado el mensaje de aviso de una gravedad mayor que los errores de análisis, la prevención de los sistemas de registro de esconder el mensaje de aviso mientras muestra errores de análisis. Advertencias de codificación de caracteres se mantienen sin cambios en WARN nivel.
  • Se ha cambiado el comportamiento del método Renderer.renderHyperlinkURL (StartTag) de manera que las direcciones URL relativas no son prestados.
  • Se ha cambiado el comportamiento del Procesador de manera que el contenido del elemento de hipervínculo no se hace si es la misma que la dirección URL de hipervínculo, ignorando cualquier http:. // Prefijo o / sufijo
  • EndTag.tidy () ahora elimina los espacios en blanco antes del paréntesis de cierre.
  • Agregado Fuente (Archivo) constructor.
  • método Agregado OutputDocument.getSegment ().
  • Agregado OutputDocument.remove (int empezar, int final) método.
  • método Agregado Renderer.setHRLineLength ().
  • Agregado RenderToText.jsp muestra webapp.
  • método Agregado Segment.getRowColumnVector ().
  • Detección Codificación ahora ignora codificaciones comunes especificados en las etiquetas meta que tienen un tamaño de unidad de código incompatible con la codificación preliminar.
  • Actualizado a las siguientes API registrador: slf4j-api-1.7.2, log4j-1.2.17

¿Qué hay de nuevo en la versión 3.1:

  • Corrección de errores:
  • [2793556] bucle infinito en Segment.getAllStartTags ()
  • Bucle infinito en Segment.getAllElements ()
  • Segment.getFirst * métodos devuelven segmentos fuera del segmento de delimitación.

  • Métodos
  • Segment.getAllElements no devolvieron todos los elementos adjuntos en algunas circunstancias.
  • errores de documentación fijos en los métodos Segment.getAllElements.
  • clase Agregado StreamedSource.
  • cambios que podrían afectar EL COMPORTAMIENTO DE LOS PROGRAMAS EXISTENTES:
  • Se ha cambiado ParseText de clase en la interfaz.
  • Segment.getNodeIterator () ahora devuelve referencias de caracteres como nodos separados.
  • etiqueta Añadido métodos de búsqueda basados ​​en expresiones regulares valor del atributo.
  • etiqueta Añadido métodos de búsqueda basados ​​en atributos de clase HTML.
  • Añadido propiedad Source.LegacyNodeIteratorCompatabilityMode estática temporal para restaurar Segment.getNodeIterator () funcionalidad a la de las versiones anteriores.
  • Char Eliminado [] Los métodos de búsqueda basados ​​en ParseText.
  • Agregado CharacterReference.appendCharTo (Anexables) método.
  • Agregado OutputDocument (Segmento) constructor.
  • programa de ejemplo Agregado StreamedSourceCopy.

¿Qué hay de nuevo en la versión 3.0:

  • Corrección de errores:
  • Las referencias de caracteres que representan caracteres suplementarios Unicode no se decodifican correctamente a pares de unidades UTF 16 código.
  • [2188446] Element.getDepth () y Element.getParentElement () devuelven resultados incorrectos si se llama en el modo de análisis de la demanda.
  • Los comentarios son ahora reconocidos dentro de & lt; script de & gt; elementos.

  • CAMBIOS
  • API QUE NO son compatibles:
  • nombre del paquete cambiado a net.htmlparser.jericho
  • Los valores de atributo ahora debe ser de cadena en lugar de CharSequence.
  • Eliminados todos los métodos en desuso / clases de versiones anteriores.
  • Todos encuentran métodos * desaprobado en favor de conseguir * métodos con el fin de aplicar una convención de nombres consistente a través de todos los métodos de búsqueda de etiqueta.

  • Clases
  • Etiqueta, HTMLElements Element y ya no implementan la interfaz HTMLElementName. (Utilice importación estática en su lugar)
  • Todas las colecciones ahora tecleó cenaseis usando genéricos.
  • Cambió clase FormControlOutputStyle de enumeración.
  • Se ha cambiado de clase FormControlType de enumeración.
  • Agregado CharStreamSource.appendTo (Anexables) método.
  • método Agregado Source.iterator ().
  • Fuente ahora implementa Iterable.
  • utiliza internamente StringBuilder para un mejor rendimiento.
  • Agregado Source.getNextStartTag (StartTagType) método.
  • Agregado Source.getNextEndTag (EndTagType) método.
  • Agregado Source.getPreviousStartTag (StartTagType) método.
  • Agregado Source.getPreviousEndTag (EndTagType) método.
  • Agregado Segment.getAllStartTags (StartTagType) método.
  • Alta todos Segment.getFirst * Métodos.
  • Agregado Renderer.renderHyperlinkURL (StartTag) método.
  • programa de ejemplo Agregado HTMLSanitiser.
  • Nos pasaron a SLF4J-api-1.5.6

Requisitos :

  • Java 2 Standard Edition Runtime Environment

Programas parecidos

markup.py
markup.py

14 Apr 15

RTextDoc
RTextDoc

17 Feb 15

Pilot-QOF
Pilot-QOF

11 May 15

DataTree
DataTree

12 May 15

Otro software de desarrollador Martin Jericho

Comentarios a la Jericho HTML Parser

Comentarios que no se encuentran
Añadir comentario
A su vez en las imágenes!