Jericho HTML Parser

Software captura de pantalla:
Jericho HTML Parser
Detalles de software:
Versión: 3.4
Fecha de carga: 10 Dec 15
Promotor: Martin Jericho
Licencia: Libre
Popularidad: 12

Rating: nan/5 (Total Votes: 0)

Se puede editar el lado del servidor y del lado del cliente etiquetas, mientras que reproduce textualmente cualquier HTML no reconocido o no válido.

También proporciona funciones de manipulación de formulario HTML de alto nivel

Características .

  • La presencia de HTML con formato incorrecto no interfiere con el análisis del resto del documento, lo que hace la biblioteca ideal para su uso con & quot; en el mundo real & quot; HTML que ahoga otros analizadores.

  • etiquetas de servidor
  • ASP, JSP, PSP, PHP y Mason se reconocen explícitamente por el analizador. Esto significa que el HTML normal es todavía analiza correctamente, incluso si hay etiquetas de servidor dentro de ellos, lo que es común, por ejemplo, al configurar dinámicamente los atributos de elemento.
  • Una nueva opción de análisis de flujo basado utilizando la clase StreamedSource, lo que permite que la memoria de procesamiento eficiente de grandes archivos usando un iterador evento. Esto es esencialmente una alternativa StAX con la capacidad de procesar HTML y XML no validador, así como varias otras características no está disponible en otros analizadores de streaming.
  • En su forma estándar no es ni un acontecimiento ni árbol analizador basado, sino que utiliza una combinación de búsqueda de texto simple, el reconocimiento eficiente etiqueta y un caché posición de la etiqueta. El texto de todo el documento fuente se carga por primera vez en la memoria, y luego sólo los segmentos relevantes buscó los personajes relevantes de cada operación de búsqueda.
  • En comparación con un analizador basado árbol como DOM, los requisitos de memoria y de recursos puede ser mucho mejor si sólo pequeñas secciones del documento deben ser analizada o modificado. HTML incorrecta o mal formateado puede ser fácilmente ignorado, a diferencia de los analizadores basados ​​de árboles que deben identificar a todos los nodos en el documento de arriba a abajo.
  • En comparación con un analizador basado en eventos tales como SAX, la interfaz está en un nivel mucho más alto y más intuitiva, y una representación del árbol de la jerarquía elemento de documento se crea fácilmente si es necesario.
  • El comienzan y posiciones finales en el documento de origen de todos los segmentos analizados son accesibles, lo que permite la modificación de los segmentos solamente seleccionadas del documento sin tener que reconstruir todo el documento de un árbol.
  • El número de fila y columna de cada posición en el documento de origen son de fácil acceso.
  • Proporciona una interfaz sencilla pero completa para el análisis y la manipulación de los controles de formulario HTML, incluyendo la extracción y la población de los valores iniciales, y la conversión de visualización de datos o modos de sólo lectura. El análisis de los controles de formulario también permite que los datos recibidos de la forma que se almacena y se presenta de una manera apropiada.
  • incorporado funcionalidad para extraer todo el texto de marcado HTML, adecuado para la alimentación en un motor de búsqueda de texto, como Apache Lucene.
  • incorporado funcionalidad para hacer el formato HTML con formato de texto simple.
  • incorporado funcionalidad para formatear el código fuente HTML que sangra elementos según su profundidad en la jerarquía de elemento de documento. (Haga clic aquí para ver una demostración en línea)
  • incorporado funcionalidad de compactar el código fuente HTML mediante la eliminación de todos los espacios en blanco innecesarios.
  • tipos de etiquetas personalizadas pueden ser fácilmente definidos y registrados para el reconocimiento por el analizador.

¿Qué hay de nuevo en esta versión:.

  • Agregado Fuente (Archivo) constructor
  • método Agregado OutputDocument.getSegment ().
  • Agregado OutputDocument.remove (int empezar, int final) método.
  • método Agregado Renderer.setHRLineLength ().
  • Agregado RenderToText.jsp muestra webapp.
  • método Agregado Segment.getRowColumnVector ().
  • Detección Codificación ahora ignora codificaciones comunes especificados en las etiquetas del meta que tienen un tamaño de unidad de código incompatible con la codificación preliminar.

¿Qué hay de nuevo en la versión 3.1:

  • Corrección de errores:
  • bucle infinito en Segment.getAllStartTags ()
  • bucle infinito en Segment.getAllElements ()
  • Segment.getFirst * métodos devuelven segmentos fuera del segmento de delimitación.

  • métodos
  • Segment.getAllElements no devolvieron todos los elementos adjuntos en algunas circunstancias.
  • errores de documentación fijos en los métodos Segment.getAllElements.
  • clase Agregado StreamedSource.
  • Los cambios que podrían afectar el comportamiento de los programas existentes:
  • Se ha cambiado ParseText de clase en la interfaz.
  • Segment.getNodeIterator () ahora devuelve referencias de caracteres como nodos separados.
  • etiqueta Añadido métodos de búsqueda basados ​​en expresiones regulares valor del atributo.
  • etiqueta Añadido métodos de búsqueda basados ​​en atributo de clase HTML.
  • Añadido propiedad Source.LegacyNodeIteratorCompatabilityMode estática temporal para restaurar Segment.getNodeIterator () funcionalidad a la de las versiones anteriores.
  • Char Eliminado [] Los métodos de búsqueda basados ​​en ParseText.
  • Agregado CharacterReference.appendCharTo (Anexables) método.
  • Agregado OutputDocument (Segmento) constructor.
  • programa de ejemplo Agregado StreamedSourceCopy.

Programas parecidos

Otro software de desarrollador Martin Jericho

Comentarios a la Jericho HTML Parser

Comentarios que no se encuentran
Añadir comentario
A su vez en las imágenes!
Búsqueda por categoría