Muchas de las aplicaciones que se ocupan de los datos no estructurados requieren acceso al contenido de texto de los documentos formateados o marcados en marcha. Organizaciones que archivan los documentos a menudo requieren el acceso al contenido textual para hacer los documentos de búsqueda y permitirá la agregación de contenidos, presentación de informes y extracción de los archivos de documentos. Búsqueda y aplicación de recuperación también es necesario extraer y tokenizar texto desde varios formatos de archivo.
Un mecanismo estándar para acceder y extraer el texto de los documentos se proporciona por la interfaz de plug-in IFilter utilizado en los motores de búsqueda de Microsoft. Hay algunas implementaciones IFilter desarrollados por Microsoft y otros proveedores que cubren una variedad de formatos de archivo. La calidad estándar o fiabilidad y texto extracción varía entre varios desarrolladores IFilter.
Opait Filtros de texto es un pequeño programa con una interfaz sencilla para IFilters que ya están instalados en el equipo host, así como algunos filtros de extracción de texto de encargo que trabajan directamente con los formatos de archivo y mejorar las implementaciones IFilter defecto.
. La interfaz para extraer texto se realiza mediante una biblioteca pequeña clase llamados Opait.Filters que se incluye y se pueden utilizar para integrar filtros de texto en aplicaciones .NET
Requisitos :
.NET Framework 4.5
Comentarios que no se encuentran