proyecto sopa Hermosa es un analizador de HTML Python / XML diseñado para proyectos de respuesta rápida como la pantalla-raspado. Tres características hacen que sea potente:
Beautiful Soup no se ahogue si le dan mal marcado. Produce un árbol de análisis que hace aproximadamente tanto sentido como el documento original. Esto suele ser lo suficientemente bueno para recoger los datos que necesita y salir corriendo.
Beautiful Soup ofrece algunos métodos simples y modismos pythonic para navegar, buscar, y la modificación de un árbol de análisis: una herramienta para la disección de un documento y extraer lo que necesita. Usted no tiene que crear un analizador personalizado para cada aplicación.
Beautiful Soup convierte automáticamente los documentos entrantes a Unicode y documentos salientes a UTF-8. Usted no tiene que pensar en las codificaciones, a menos que el documento no especifica una codificación y Beautiful Soup no puede detectar automáticamente una. Entonces sólo tiene que especificar la codificación original.
Beautiful Soup analiza cualquier cosa que le des, y hace las cosas recorrido del árbol para usted. Se puede decir que "Encuentra todos los enlaces" o "Buscar todos los eslabones de la clase externalLink", o "Buscar todos los enlaces cuyo urls igualar" foo.com ", o" Encontrar el encabezado de tabla que el texto en negrita tiene, entonces das mí que el texto ".
Datos valiosos que una vez fue encerrado en sitios web mal diseñados es ahora a su alcance. . Los proyectos que se han tomado horas toman sólo minutos con Beautiful Soup
Requisitos :
- Python
Comentarios que no se encuentran