ByteScout PDF Extractor SDK

Software captura de pantalla:
ByteScout PDF Extractor SDK
Detalles de software:
Versión: 9.0.0.3079 Actualizado
Fecha de carga: 15 Aug 18
Promotor: ByteScout
Licencia: Shareware
Precio: 10.00 $
Popularidad: 193
Tamaño: 596 Kb

Rating: 3.3/5 (Total Votes: 4)


        PDF Extractor SDK para desarrolladores de software de Windows: PDF a texto, PDF a XML, imágenes de PDF, lectura de información PDF, PDF a CSV para Excel.

Bytescout PDF Extractor SDK permite convertir PDF a texto, PDF a XML, PDF a CSV, extraer imágenes de PDF, extraer información sobre archivos PDF en interfaces .NET y ActiveX sin necesidad de software adicional.


Beneficios:
 convierte PDF a texto sin formato (y puede seguir columnas si convierte un periódico en formato PDF), incluida la extracción de texto invisible;
 convierte tablas en PDF a Excel (CSV) leyendo celdas del rectángulo dado;
 convierte tablas en archivos PDF a XML;
 extrae los metadatos del archivo PDF (título, autor, descripción) y obtiene otra información sobre el archivo (número de páginas, encriptadas o no);
 extrae imágenes incrustadas de un documento PDF (en ASP.NET, VB.NET, C #, VB6 y VBScript);
 Interfaces y clases de DocumentMerger y DocumentSplitter para fusionar y dividir documentos PDF;
no requiere la instalación de Adobe Reader ni de ningún otro software de lectura de PDF;
 proporciona interfaces .NET y ActiveX;
 hecho con código de C # administrado al 100%.
    

Qué hay de nuevo en esta versión:

Versión 9.0.0.3079: filtrado agregado de contenido extraído por nombre de fuente, tamaño de fuente y color.
Motor de OCR actualizado a la última versión. Actualice los archivos de idioma de la carpeta 'tessdata'.
Extracción de texto mejorada, agrupación de líneas en datos tabulares, rendimiento, extracción de formularios XFA, TableDetector, problemas de análisis de PDF fijo.

Novedades en la versión 8.7.0.2980:

Se agregó el filtrado del contenido extraído por nombre de fuente, tamaño de fuente y color.
Motor de OCR actualizado a la última versión. Actualice los archivos de idioma de la carpeta 'tessdata'.
Extracción de texto mejorada, agrupación de líneas en datos tabulares, rendimiento, extracción de formularios XFA, TableDetector, problemas de análisis fijos en PDF.

Novedades en la versión 8.6.0.2911:

Se agregó el filtrado del contenido extraído por nombre de fuente, tamaño de fuente y color.
Motor de OCR actualizado a la última versión. Actualice los archivos de idioma de la carpeta 'tessdata'.
Extracción de texto mejorada, agrupación de líneas en datos tabulares, rendimiento, extracción de formularios XFA, TableDetector, problemas fijos de análisis de PDF.

Novedades en la versión 8.2.0.2699:

La versión 8.2.0.2699 puede incluir actualizaciones no especificadas, mejoras o correcciones de errores.

Novedades en la versión 8.0.0.2528:

  • Se agregó el filtrado del contenido extraído por nombre de fuente, tamaño de fuente y color.
  • Actualizó el motor de OCR a la última versión. Actualice los archivos de idioma de la carpeta "tessdata".
  • Extracción de texto mejorada.
  • Se mejoró la agrupación de líneas en datos tabulares.
  • Rendimiento mejorado.
  • Extracción de formularios XFA mejorada.
  • TableDetector mejorado.
  • Se corrigieron los problemas de análisis de PDF.
  • Se corrigió la decodificación de imágenes JBIG.
  • ImageExtractor: extracción de imagen fija por página.
  • MultimediaExtractor: extracción fija en audio MPEG integrado.
  • TextExtractor: propiedad fija RemoveHyphenation no operativa.
  • Otras mejoras menores y correcciones de errores.
  • Qué hay de nuevo en la versión 7.0.0.2474:

    Versión 7.0.0.2474:

    • agregó una nueva clase de utilidad DocumentPrinter que permite imprimir documentos PDF de forma silenciosa (sin diálogos de usuario)
    • agregó una nueva clase JSONExtractor
    • se agregó la anulación para el método DocumentSplitter.Split () que permite especificar la carpeta de salida para los archivos generados
    • se corrigió un error de multihilo en DocumentSplitter
    • tableDetector ahora respeta el área de extracción establecida por el método SetExtractionArea ()
    • nuevas propiedades en las clases de extracción: ExtractionColumns: contiene las coordenadas de las columnas detectadas; CustomExtractionColumns: permite anular la detección de columnas
      Los métodos
    • GetPageRect * no tuvieron en cuenta la rotación de la página.
      Se corrigió una falla en el instalador que causaba que algunos archivos de la instalación previa estuvieran interfiriendo con las actualizaciones
    • volvieron a trabajar la comprobación de registro. Ahora la biblioteca no arrojará una excepción, pero funcionará en el modo de demostración si fallaste o ingresaste RegistrationName y RegistrationKey incorrectos
    • Multiherramienta de PDF: se agregó una lista de documentos recientes al botón "Abrir documento PDF"
    • Multitool PDF: la selección se puede cambiar de tamaño ahora
    • Multitool de PDF: característica Extraída de Extraer JSON
    • Multitool PDF: Interfaz de usuario del Detector de tabla mejorada
    • Multitool PDF: calidad de representación de fuente muy mejorada
    • Multitool PDF: opción de eliminación de errores "Mostrar columnas de extracción detectadas" en el menú contextual para mostrar las columnas detectadas en la página actual. Se vuelve visible solo después de ejecutar cualquier extracción en contra de la página actual mostrada
    • Multitool de PDF: corrigió el problema de representación de la fuente en Windows de 32 bits
    • otras mejoras menores y correcciones de errores

    Qué hay de nuevo en la versión 6.30.0.2421:

    Versión 6.30.0.2421:

    • Se agregó una clase de utilidad TextComparer (disponible solo en ensamblados de .NET 4.0) que permite comparar texto en dos documentos PDF y generar informes.
    • Compatibilidad mejorada con los perfiles de color de ICC.
    • Imporvó el manejo de las fuentes incrustadas.
    • AttachmentExtractor mejorado.
    • Método fijo XMLExtractor.SaveXMLToStream ().
    • Se corrigió la duplicación de texto extraído al usar la opción OCRCacheMode.WholePage.
    • Otras correcciones de errores y mejoras.

    Qué hay de nuevo en la versión 6.20.2354:

    Versión 6.20.2354:

    • PDF a texto, PDF a CSV, funciones de PDF a XML mejoradas
    • Nuevo extracto de video, ejemplos de extracción de audio
    • Extractores de CSV y XML mejoraron el soporte para tablas con columnas vacías dentro de
    • nuevo MultimediaExtractor para extraer video y audio de PDF
    • nueva propiedad PageDataCaching
    • nuevo ejemplo "MemoryCareProcessingOfHugeFiles"
    • se corrigió la excepción nula al intentar eliminar las páginas ya eliminadas
    • XLSExtractor: mejora el soporte para fuentes
    • SkipInvisibleText ahora salta el texto recortado (que no está visible)
    • representación de salida de texto mejorada
    • XFDF Extractor: compatibilidad agregada para casillas de verificación
    • Salida de imágenes mejorada para admitir más subformatos
    • Manejo de texto Unicode mejorado

    Qué hay de nuevo en la versión 6.11.2149:

    Versión 6.11.2149:

    • Muestras de procesamiento por lotes actualizadas para mostrar el uso del método Reset ()
    • Ejemplo de código fuente de C ++ agregado para Extracción de páginas
    • DocumentMerger agrega el método Merge2 (inputfile1, inputfile2, outputfile) para fusionar 2 archivos
    • Correcciones de errores menores de XLS Extractor
    • Multitool PDF ahora permite habilitar / deshabilitar texto, imágenes, capas vectoriales, agrega configuraciones avanzadas para la extracción de texto
    • XML, CSV, extracción de tablas mejora el soporte para tablas con celdas emtpry dentro de columnas
    • . Se mejoró la propiedad .ExtractShadowLikeText: mejor filtrado para texto similar a una sombra

    Qué hay de nuevo en la versión 6.10.2136:

    Versión 6.10.2136:

    • PDF a XML, PDF a CSV, funcionalidad de PDF a texto mejorada
    • Se agregó un ejemplo de línea de comando de PDF a XLS (basado en vbscript)
    • PDF To HTML SDK agrega una nueva propiedad .DetectHyperLinks (TRUE de manera predeterminada) para habilitar / deshabilitar la detección automática de enlaces en el texto
    • nuevo SearchablePDFMaker (disponible para licencias PRO) para convertir archivos PDF en archivos PDF con capacidad de búsqueda
    • nuevas propiedades en el extractor: considereFontNames, ConsiderFontSizes, ConsiderFontColors, ConsiderVerticalBorders en archivos CFG
    • detección de columnas de encabezado (cuando AutoAlighHeaderToColumns = true) mejorado
    • .DetectLinesInsteadOfParagraphs reemplazado por el nuevo .LineGroupingMode para controlar cómo se fusionan las líneas en párrafos
    • ¡IMPORTANTE! PDF to XML corrige el problema a largo plazo con la coordenada Y incorrecta para objetos de texto (era el punto en la parte inferior izquierda en lugar de arriba a la izquierda)
    • .TableXMinIntersectionRequiredInPercents y .TableYMinIntersectionRequiredInPercents propiedades añadidas
    • Ejemplo de código fuente de C ++ agregado
    • XML Extractor corrige las columnas vacías que faltan en PreserveFormatting = modo verdadero
    • correcciones menores en colores en algunos archivos PDF
    • se agregó soporte para múltiples lenguajes de OCR
    • PDF GUI multiusuario: agrega el botón Copiar al portapapeles a TXT, CSV, XML y cuadros de diálogo de procesamiento de trama
    • XLSExtractor: agrega la propiedad PageToWorksheet para habilitar / deshabilitar la generación de hojas de trabajo separadas por página
    • nueva propiedad .TextEncodingCodePage
    • PDFViewerControl: agrega ValidateContextMenu permitiendo al usuario agregar elementos personalizados al menú contextual
    • Control de PDF Viewer: agrega propiedades ShowTextObjects, ShowImageObjects, ShowVectorObjects
    • XMLExtractor ahora agrega el atributo "OCRConfidence" para el texto reconocido
    • funcionalidad de comprobación de PDF / A (en beta)
    • mejora los controles y la verificación y alineación del texto de acuerdo con el diseño original. El problema fue causado por el desplazamiento de las coordenadas Y en los controles durante el análisis: eso fue incorrecto. La forma correcta es shif ...
    • XML Extractor actualizado: ahora produce la etiqueta CONTROL para casillas de verificación y campos de texto
    • cambió el uso del directorio actual al directorio temporal
    • las casillas de verificación, las radio casillas, las cajas de edición, las cajas combinadas son mejor compatibles
    • ahora permite llamadas de confianza parcial

    Qué hay de nuevo en la versión 5.80.1781:

    Versión 5.80.1781:

    • PDF a XML, PDF a CSV, funcionalidad de PDF a texto actualizada
    • OCRMode ahora proporciona 9 modos
    • .DetectLineInsteadOfParagraph ahora funciona mucho mejor. Establecerlo en False para capturar texto de líneas múltiples en celdas de tabla!
    • Soporte de controles PDF mejorado
    • extracción de datos FDF y XFDF

    Qué hay de nuevo en la versión 5.10.1747:

    Versión 5.10.1747:

    • PDF a XML, PDF a CSV, funciones de PDF a texto mejoradas
    • ahora es compatible con la extracción de texto de los controles de texto
    • XML extractor ahora agrega estilo de fuente, tamaño, nombre, coordenadas de texto en etiquetas
    • Se agregó una muestra de ASP.NET para el uso de OCR
    • nueva propiedad OCRLanguageDataFolder para especificar la ubicación de la carpeta "tessdata"
    • soporte mejorado de archivos PDF
    • mejora la compatibilidad con el texto girado
    • muestras del código fuente actualizadas
    • documentación actualizada
    • mejoras y correcciones menores

    Qué hay de nuevo en la versión 5.00.1626:

    Versión 5.00.1626:

    • Se agregó funcionalidad de OCR (texto de imágenes): ahora puede extraer texto de imágenes incrustadas y reparar texto dañado
    • problema corregido con el extractor CSV y XML que faltaba en las últimas columnas con algunas configuraciones
    • soporte mejorado para archivos PDF dañados
    • la búsqueda de texto de búsqueda multilínea con modos de concordancia de palabras ahora es compatible
    • ahora puede buscar texto con guiones y en diferentes líneas: ver el nuevo código fuente ejemplo Buscar texto con guiones
    • nueva propiedad .RTLTextAutoDetectionEnabled (falso de forma predeterminada) para detectar automáticamente los idiomas RTL
    • Demo de la GUI de PDF Viewer mejorada
    • mejoras y correcciones menores

    Requisitos :

    .NET Framework 2.0 o superior

    Limitaciones :

    Pantalla Nag, marca de agua en la salida

    Sistemas operativos soportados

    Programas parecidos

    Otro software de desarrollador ByteScout

    PPT To PDF Scout
    PPT To PDF Scout

    21 Sep 15

    RSS2HTMLPRO.asp
    RSS2HTMLPRO.asp

    10 Jul 15

    XLS Viewer
    XLS Viewer

    2 Apr 18

    Comentarios a la ByteScout PDF Extractor SDK

    Comentarios que no se encuentran
    Añadir comentario
    A su vez en las imágenes!