DataCleaner

Software captura de pantalla:
DataCleaner
Detalles de software:
Versión: 4.0.9
Fecha de carga: 11 Apr 16
Promotor: -
Licencia: Libre
Popularidad: 17

Rating: nan/5 (Total Votes: 0)

DataCleaner es una fuente abierta y una solución totalmente gratuito para las organizaciones y empresas que desean aumentar y medir la calidad de sus datos.

Con DataCleaner, los usuarios serán capaces de perfilar, comparar, validar los datos en contra de las reglas de negocio, y vigilar la progresión de estas mediciones en el tiempo.

Entre sus características, podemos mencionar el monitoreo de datos, perfiles de datos y el análisis de DQ, limpieza de datos y enriquecimiento, detectar y combinar duplicados, calidad de los datos del cliente, así como ETLightweight súper rápido (Extract-Transform-Load).

Para obtener más información acerca de las funciones y capacidades de DataCleaner, así como la forma de trabajar con él, por favor refiérase a http://eobjects.dk/docs

What es nueva en esta versión:

  • Las mejoras y nuevas características:
  • Hemos hecho que sea posible crear y eliminar tablas a través de la interfaz de usuario de escritorio de DataCleaner. Tenga en cuenta que el término & quot; & quot mesa; aquí en realidad cubre más de tablas de bases relacionales solo. También incluye hojas de almacenes de datos en MS Excel, colecciones en MongoDB, tipos de documentos en CouchDB y Elasticsearch y así sucesivamente ... Básicamente todo tipo de almacén de datos que soportan las operaciones de escritura-almacenes de datos, a excepción de una sola mesa, tales como almacenes de datos CSV, admite esta funcionalidad! La funcionalidad se expone a través de:
  • & quot; Crear una tabla de & quot; habilitado a través del menú del botón derecho de esquemas en el árbol en el lado izquierdo de la aplicación.
  • & quot; Crear una tabla de & quot; permitido también a través de entradas de selección de tabla de componentes, tales como insertar en la tabla, Búsqueda en una tabla y la tabla de actualización.
  • & quot; & quot mesa de gota; habilitado a través del menú del botón derecho de mesas en el árbol en el lado izquierdo de la aplicación.
  • Hemos añadido la capacidad (opcional) de la especificación de su servicio web Salesforce.com URL de punto final. Esto le permite utilizar DataCleaner para conectarse a entornos de recinto de seguridad de Salesforce.com así a sus propios puntos finales personalizados.
  • El apoyo Elasticsearch ha sido mejorada, permitiendo que las asignaciones personalizadas, así como la reutilización de las definiciones del almacén de datos Elasticsearch ahora también para la búsqueda e indexación.
  • El muestreo de los registros y la selección de los duplicados potenciales en la función de detección de duplicados se ha mejorado, lo que lleva a una configuración más rápida porque las decisiones tomadas durante la sesión de entrenamiento son más representativos.
  • El formato de archivo de modelo de detección de duplicados se ha actualizado que se ha eliminado la necesidad de un archivo separado de "referencia" a fin de salvar las decisiones de capacitación anteriores. La compatibilidad con el formato antiguo se ha conservado, pero utilizando el nuevo formato agrega muchos beneficios para la experiencia del usuario.
  • Corrección de errores:
  • Una cuestión inanición hilo se fija en el monitor DataCleaner. El impacto de este problema era grande, pero sucedió sólo en casos raros y muy personalizados. Si escucha personalizado objetos en el monitor DataCleaner arrojaría un error, que daría lugar a un recurso no está liberado y tomando un hilo desde la piscina de cuarzo-programación en el servidor. Si esto iba a pasar muchas veces que el servidor podría llegar a quedarse sin hilos de ese grupo.
  • El menú vertical en la pantalla de resultados ahora está haciendo un buen trabajo de mostrar las etiquetas de los componentes que tienen resultados. Esto hace que sea más fácil reconocer qué puntos de elemento de menú para qué elemento resultado.

¿Qué es la nueva en la versión 3.5.5:

  • La transformación de 'Sinónimo de búsqueda' tiene ahora una opción mirar hacia arriba cada muestra de la entrada. Esto es útil si está haciendo la sustitución de sinónimos dentro de los valores de un campo de texto largo.
  • El bloqueo de ejecución de los trabajos DataCleaner a través del servicio web del monitor para esto a veces puede fallar con un error causado por el hilo de bloqueo. Este problema se ha solucionado.
  • Una mejora fue hecha en la forma en que los empleos y la secuencia de los componentes están cerrados / limpiado después de su ejecución.
  • La versión JNLP / Java WebStart de DataCleaner fue expuesto por un error en el tiempo de ejecución de Java causando ciertos archivos JAR no ser reconocidos por el lanzador WebStart, bajo ciertas circunstancias. Este problema se ha solucionado mediante ligeras modificaciones en los archivos JAR.
  • Unos enlaces muertos en la documentación se fijó.

¿Qué hay de nuevo en la versión 3.5.4:

  • Ahora es posible ocultar columnas de salida de transformaciones . Escondite no afectará el flujo de procesamiento en absoluto, sino que simplemente las esconderse de la interfaz de usuario, y por lo tanto lo que podría hacer la experiencia más limpia, al interactuar con otros componentes.
  • Un nuevo servicio web ha sido añadido a la aplicación de monitoreo de Internet, que proporciona una manera de sondear el estado de la ejecución de un trabajo en particular.
  • Un error se corrigió, haciendo que el informe HTML a fallar para ciertos tipos de análisis cuando no hay registros habían sido procesados.
  • y el otro 6 error menor ha sido adressed.

¿Qué hay de nuevo en la versión 3.5.1:

  • Captura cambió registros:
  • Se añadió un nuevo filtro para permitir el procesamiento incremental de registros que no se han procesado antes de, por ejemplo, para perfilar o copiar sólo los modificados registros. El nombre de los nuevos filtros de captura es cambiar los registros, en referencia al concepto de captura de datos modificados.
  • ejecución de trabajos en cola:
  • El monitor DataCleaner ahora en cola la ejecución del mismo puesto de trabajo, si se dispara varias veces. Esto asegura que accidentalmente no ejecutar el mismo trabajo al mismo tiempo que puede dar lugar a todo tipo de problemas, dependiendo de lo que haga el trabajo.
  • correcciones de errores menores:
  • Varias correcciones de errores se puso en práctica.

¿Qué hay de nuevo en la versión 3.5:

  • Varios asistentes están ahora disponibles para el registro de almacenes de datos; incluyendo carga de archivos al servidor de archivos CSV, entrada de conexión de base de datos, registro de guiado de las credenciales de Salesforce.com y más.
  • Los magos de construcción trabajo también se han ampliado con varias características mejoradas; La selección de distribución de valor y el patrón de búsqueda de campos en el asistente de análisis rápido, un nuevo asistente para la creación de puestos de trabajo de limpieza EasyDQ cliente en base y un nuevo asistente para la cocción de trabajo puestos de trabajo Pentaho Data Integration (ver más abajo).
  • Puede ahora ad hoc consultar cualquier almacén de datos directamente en la interfaz de usuario web. Esto hace que sea fácil obtener una vista rápida o esporádicos en los datos sin necesidad de crear puestos de trabajo u otros enfoques que gestiona de tratamiento de datos.
  • Una vez que se crean puestos de trabajo o almacenes de datos, el usuario es guiado a tomar medidas con el objeto de nueva construcción. Por ejemplo, puede ejecutar muy rápidamente un trabajo justo después de que está construido, o consultar un almacén de datos después de que se ha registrado.
  • Los administradores ahora pueden cargar directamente puestos de trabajo en el repositorio, que es especialmente útil si desea editar a mano el contenido XML de los archivos de trabajo.
  • Una gran cantidad de la técnica, hay cosas que ahora está escondido en favor de mostrar cuadros de diálogo sencillos. Por ejemplo, cuando se desencadena un trabajo se muestra un indicador de carga grande, y cuando termine se mostrará el resultado. La pantalla de registro avanzado que antes era todavía no puede visualizar al hacer clic en un enlace para obtener más detalles.

¿Qué hay de nuevo en la versión 3.1.2:

  • Hemos añadido un servicio web en el seguimiento solicitud para obtener una (lista de valores métricos). Esto hace que el monitoreo aún más utilizable como un componente clave de la infraestructura, como una manera de controlar los datos (calidad) y exponer los resultados a aplicaciones de terceros.
  • El componente 'Búsqueda en una tabla' ha sido mejorada mediante la adición de unirse a la semántica como una propiedad configurable. El uso de la combinación semántica se puede ajustar si desea que la búsqueda semántica para trabajar como un LEFT JOIN o un INNER JOIN.
  • Los componentes EasyDQ se han actualizado, añadiendo más opciones de configuración y una interfaz resultado deduplicación más rico.
  • Las mejoras de rendimiento han sido un foco específico de esta versión. Se han realizado mejoras en el motor de DataCleaner utilizar además un enfoque de procesamiento de streaming en ciertos casos de esquina que no fue cubierto previamente.

¿Qué es la nueva en la versión 3.1.1:

  • La fecha y opciones de análisis relacionadas con el tiempo se han ampliado , añadiendo analizadores de distribución de números de las semanas, meses y años. Todos los analizadores relacionados con la fecha y la hora se agrupan ahora en un submenú llamado & quot; Fecha y hora & quot; en & quot; Analizar & quot;.
  • Un opcional & quot; & quot estadísticas descriptivas; opción se ha añadido al analizador número y el analizador Fecha / hora. Esta opción añade métricas adicionales a los resultados de estos analizadores, tales como mediana, asimetría, percentiles y curtosis. Estas métricas son opcionales, ya que su consumo de memoria es algo mayor que las métricas existentes.
  • Las líneas en las tablas de la línea de tiempo de la aplicación web y monitorización ahora tienen pequeños puntos en ellos. Esto es especialmente útil para los gráficos con pocos (o incluso sólo uno) observaciones en ellos -. Señalar exactamente dónde están los puntos de observación son
  • El analizador de consultas al llamar a consultas ad hoc también se han mejorado sustancialmente. Ahora consultas pueden contener cláusulas distintas, * -wildcards, subconsultas y son hacia los temas de texto de los casos de tolerancia a fallos.
  • Dos nuevos transformadores se han añadido para la generación de UUID y para generar marcas de tiempo.

¿Qué hay de nuevo en la versión 3.1:

  • fórmulas métricos - elaborados de calidad de datos KPI:
  • Ahora es posible construir mucho más elaborado calidad de los datos indicadores clave de rendimiento en aplicaciones web y monitorización de DataCleaner. La interfaz de usuario le permite crear fórmulas complejas en un estilo fórmula de hoja de cálculo; utilizando variables recogidas por los puestos de trabajo DataCleaner.
  • fórmulas métricas puede combinar cualquier número de métricas, constantes y operaciones, el tiempo que se puede expresar en una ecuación matemática.
  • Por ejemplo - medir la tasa de registros duplicados en porcentaje del número total de registros. O medir la cantidad de códigos de los productos que se ajusten a un conjunto de múltiples patrones de cadena.
  • Ad-hoc de consulta - de cualquier almacén de datos:
  • Con DataCleaner 3.1 ahora se puede realizar consultas ad-hoc para cualquier almacén de datos! Las consultas se pueden expresar en SQL simple y se aplicarán a las bases de datos, así como archivos, bases de datos NoSQL y más, proporcionando un mecanismo de consulta verdaderamente útiles para extenderse en su experiencia de descubrimiento y perfilado de datos.
  • La opción de consulta también está disponible a través de un servicio web para el seguimiento de los usuarios con el rol de administrador. La consulta se proporciona como un parámetro HTTP o cuerpo de POST, y el resultado se proporciona como una tabla XHTML.
  • Valor matcher - una nueva opción de análisis:
  • Muchas veces usted tiene una idea firme sobre la que se debe permitir y espera para un campo en particular los valores. En DataCleaner siempre ha habido la opción de análisis de valor de distribución que ayudaría a hacer valer sus supuestos. En DataCleaner 3.1 embargo, usted tiene una oferta más precisa - el valor de coincidencias. Esta opción de análisis le permite especificar un conjunto de valores esperados y luego de realizar una distribución de valores como el análisis, específicamente para validar e identificar valores inesperados.
  • Copiar, borrar y gestión de los puestos de trabajo:
  • Gestión de trabajos y resultados en la aplicación de monitorización DataCleaner se ha mejorado mucho. Ahora puede hacer clic en un puesto de trabajo en la página Programación del monitor, y encontrar las opciones de gestión disponibles para operaciones como el cambio de nombre, copiar, borrar y más. Cada operación respeta los vínculos con otros artefactos en el monitor, como los resultados de análisis, calendarios y mucho más. Esto significa que la gestión del repositorio de vigilancia se ha convertido en mucho más fácil y madura.
  • Administrar historial de calidad de los datos:
  • A veces estás frente a situaciones en las que realmente quiere hacer el seguimiento con los datos históricos! Puede ser que tiene volcados históricos o copias de seguridad de bases de datos, las que se desee mostrar y contar la historia de. Ahora puede hacer el análisis de estos datos históricos, cargarlo en el monitor DataCleaner, y el uso de un nuevo servicio web, un conjunto de datos históricos de que el resultado del análisis en particular. Esto significa que los plazos de entrega serán trazar adecuadamente los resultados utilizando la fecha prevista, pero con los resultados que usted ha recogido tal vez en un momento posterior en el tiempo.
  • Soporte planificador Agrupado (sólo EE):
  • El planificador de monitor de DataCleaner se ha exteriorizado, de modo que puede ser sustituido por los medios de configuración simple. En la versión Enterprise Edition (EE) de DataCleaner, proporcionamos un planificador agrupado, proporcionando la capacidad de equilibrar la carga y distribuir sus ejecuciones en un clúster de máquinas.
  • un solo inicio de sesión único (SSO) mediante CAS (EE solamente):
  • En la versión Enterprise Edition (EE) de DataCleaner ahora proporcionamos una opción de inicio de sesión único para la aplicación de monitorización. Ahora DataCleaner puede ser una parte integral de su infraestructura de TI, también a la seguridad se refiere.
  • ... Y mucho más:
  • El anterior es sólo un resumen. Más de treinta problemas han sido resueltos en esta versión. Hemos resuelto varias solicitudes procedentes de los foros y comunidad, y animar a todos a utilizar este medio como vehículo para el cambio. Estamos muy felices de hacer el desarrollo de DataCleaner ser fuertemente influenciado por las corrientes de agua en la comunidad.

¿Qué hay de nuevo en la versión 3.0.3:

  • Añade un servicio para cambiar el nombre de puestos de trabajo en el repositorio de monitoreo .
  • Se puede acceder a este como un servicio Web REST o de manera interactiva en la interfaz de usuario.
  • Se añadió un servicio web para cambiar la fecha histórica de un resultado de análisis en el repositorio de vigilancia.
  • La aplicación Web se ha hecho compatible con contenedores legado JSF.
  • El almacenamiento en caché de configuración de la aplicación Web se ha mejorado en gran medida, lo que lleva a los tiempos de carga e inicialización trabajo más rápido.

¿Qué es la nueva en la versión 3.0.2:

  • Cuando desencadenar un puesto de trabajo en la aplicación web de seguimiento, el panel de auto-actualiza cada segundo para obtener el último estado de la ejecución.
  • almacenes de datos basada en archivos (como CSV o Excel hojas de cálculo) con rutas absolutas se resuelven ahora correctamente en la aplicación de monitoreo de Internet.
  • El & quot; Seleccione de clave / valor del mapa & quot; transformador ahora soporta expresiones SELECT anidada como & quot; Address.Street & quot; o & quot; OrderLines [0] .product.name & quot;.
  • El mecanismo de tabla de búsqueda se han optimizado para el rendimiento, el uso de declaraciones preparadas cuando se ejecuta con bases de datos JDBC.
  • Los administradores pueden ahora descargar almacenes de datos basados ​​en archivos directamente desde el & quot; & quot almacenes de datos; la página.
  • El manejo de excepciones en la aplicación de monitoreo de Internet se ha mejorado un poco, por lo que los mensajes de error más preciso e intuitivo.

¿Qué es la nueva en la versión 3.0.1:

  • La corrección de errores primaria en este comunicado fue sobre la restauración de la mapeo de columnas y categorizaciones enumerables específicos. Por ejemplo, en el nuevo analizador de Integridad, se encontró que después de cargar de un trabajo guardado, el mapeo no siempre era correcta.
  • Por otra parte se han hecho algunas mejoras internas, por lo que es más fácil de desplegar la aplicación web del monitor DataCleaner en entornos usando Spring Framework.
  • Por último, pero no menos importante, la configuración de visualización en la aplicación de escritorio se han mejorado mediante la adopción de forma automática un vistazo al trabajo que se visualizaron y alternar muestran artefactos basado en el tamaño de la pantalla y la cantidad de datos necesarios para demostrar que muy bien.

¿Qué es la nueva en la versión 3.0:

  • Pantalla de línea de tiempo y las tendencias de los indicadores de calidad de datos
  • Repositorio centralizado para la gestión y contiene trabajos, resultados, calendarios, etc.
  • Programación y auditoría de puestos de trabajo DataCleaner
  • La prestación de servicios web para invocar transformaciones DataCleaner
  • Seguridad y multi-alquiler
  • Las alertas y notificaciones cuando las métricas de calidad de datos están fuera de su zona de confort esperados.
  • Hay un nuevo analizador de Integridad, que es muy útil para la simple identificación de registros que tienen campos incompletos.
  • Ahora puede exportar los resultados a DataCleaner de aspecto agradable informes HTML que se puede dar a su gerente, o enviar a su analizador XML!
  • El nuevo entorno de supervisión también está estrechamente integrado con la aplicación de escritorio. Por lo tanto, la aplicación de escritorio ahora tiene la capacidad de publicar los trabajos y resultados en el repositorio del monitor, y para ser utilizado como un editor interactivo para el contenido que ya están en el repositorio.
  • Las nuevas transformaciones orientadas a fechas ya están disponibles: filtro Intervalo de fechas, que le permite al subconjunto de datos basado en intervalos de tiempo, y la fecha de formato, que permite dar formato a una fecha usando una máscara de fecha
  • .
  • La expresión regular Analizador (que antes sólo estaba disponible a través de la ExtensionSwap) ahora se ha incluido en DataCleaner. Esto hace que sea muy conveniente para analizar y estandarizar los campos de texto enriquecido utilizando expresiones regulares.
  • Hay un nuevo transformador de caso Texto disponible. Con esta transformación se puede convertir fácilmente entre mayúsculas / minúsculas y mayúsculas correcta de frases y palabras.

  • Se han añadido
  • Dos nuevos búsqueda / reemplazo transformaciones:. búsqueda normal / reemplazar y Regex buscar / reemplazar
  • La experiencia del usuario de la aplicación de escritorio ha sido mejorada. Hemos añadido varios mensajes de ayuda en la aplicación, hacen que los colores parezcan más brillantes y claros y mejoran el manejo de fuentes.

¿Qué hay de nuevo en la versión 2.5.2:

  • Soporte Apache CouchDB:
  • Hemos añadido soporte para la base de datos NoSQL Apache CouchDB. DataCleaner es compatible tanto con la lectura de, analizar y escribir a las instancias CouchDB.
  • escritor de actualización de tablas:
  • Después de nuestros esfuerzos anteriores para lograr características de estilo ETLightweight en DataCleaner, hemos añadido un escritor que actualiza los registros en una tabla. Puede utilizar esto por ejemplo para insertar o actualizar registros en base a condiciones específicas.
  • Al igual que el inserto en escritor de mesa, el nuevo escritor de mesa DataCleaner actualización no se limita a las bases de datos basadas en SQL, pero cualquier tipo de almacén de datos, que soporta la escritura (en la actualidad las bases de datos relacionales, archivos CSV, hojas de cálculo de Excel, bases de datos MongoDB y bases de datos MongoDB), pero la semántica son los mismos que con una instrucción UPDATE mesa tradicional en SQL.
  • -Drill-al detalle la información guardada en archivos de resultados:
  • Al utilizar la función Guardar resultado de DataCleaner 2.5, algunos usuarios experimentaron que su información-taladro-al detalle se perdió. En DataCleaner 2.5.2 ahora también persistir esta información, por lo que sus archivos DQ mucho más valiosa en la investigación de los incidentes de datos históricos.
  • Mejora de la gestión de errores EasyDQ:
  • Los componentes EasyDQ se han mejorado en términos de control de errores. Si se produce un problema de red momentánea u otro problema similar hace unos pocos registros a fallar, los componentes se EasyDQ ahora con gracia recuperarse y lo más importante -. Su trabajo por lotes prevalecerá aun a pesar de los errores
  • Tabla de asignación de almacenes de datos NoSQL:
  • Desde CouchDB y MongoDB no están tabla en función, pero tienen una estructura más dinámica que proporcionamos dos enfoques para trabajar con ellos: el valor predeterminado, que es dejar que DataCleaner detectar automáticamente una estructura de tabla, y la avanzada que le permite especificar manualmente su estructura de la tabla deseada. Anteriormente la opción avanzada sólo estaba disponible a través de la configuración de XML, pero ahora la interfaz de usuario contiene diálogos apropiados para hacer esto directamente en la aplicación.

¿Qué hay de nuevo en la versión 2.4.1:

  • mejoras de características:
  • carga por lotes características que estamos mejora en gran medida al escribir datos en tablas de bases de datos. Espere ver muchos órdenes de magnitud mejoras aquí.
  • Al escribir a los datos se han puesto a disposición más convenientemente mediante la adición de las opciones para el menú de la ventana.
  • Ahora puede fácilmente cambiar el nombre de los componentes de un trabajo haciendo doble clic en sus fichas.
  • El transformador Javascript ahora cuenta con coloreado de sintaxis, para que sus Javascripts son más fáciles de inspeccionar y modificar.
  • Corrección de errores:
  • Cuando la lectura y escritura en el mismo almacén de datos (por ejemplo. El área de ensayo DataCleaner) nos hemos asegurado de que el caché de la tabla de almacén de datos que se actualiza. Anteriormente algunos escenarios te permitía ver una vista fuera de la fecha de las tablas.
  • Un potencial bloqueo al iniciar la aplicación se resolvió. Este estancamiento fue consecuencia de un problema en la JVM, pero hemos trabajado alrededor de ella mediante la sincronización de todas las llamadas a la API en particular en Java.

¿Qué hay de nuevo en la versión 2.4: (. Aka deduplicación o coincidencia aproximada de registros)

  • Duplicar la detección , que es de uso gratuito para un máximo de 500.000 valores.
  • validación de datos de la dirección y la limpieza. Esto le permite comprobar si existen direcciones, si se formatean correctamente e incluso para sugerir correcciones en caso de que tenga errores.
  • validación de datos Nombre y limpieza. Con el servicio de nombres, EasyDQ no sólo el formato de sus nombres de forma consistente, sino también comprueba si hay errores ortográficos e interpreta las partes del nombre.
  • Correo y validación de teléfono y limpieza. Estos servicios proporcionan la comprobación de datos de correo electrónico y números de teléfono, asegurándose de que existen dominios de correo electrónico, que los códigos de país son correctos y mucho más.

¿Qué hay de nuevo en la versión 2.3:

  • soporte de datos internacional:
  • Si está trabajando con los datos internacionales, a continuación, se pueden tener diferentes conjuntos de caracteres en sus datos, por ejemplo, chino o hebreo. Añadimos el analizador de distribución Juego de caracteres, que es una opción de perfiles que le permite averiguar qué juegos de caracteres se utilizan en los datos.
  • Trabajar con datos que contienen diferentes juegos de caracteres puede ser problemático. Usando el nuevo transformador de transliteración ahora se puede transcribir cuerdas de diferentes sistemas de escritura en caracteres latinos.
  • También hay una nueva demostración por Internet, centrándose en las capacidades de datos internacionales de DataCleaner 2.3 en la sección de documentación.
  • Agrupación de resultados de análisis por una columna secundaria:
  • El analizador de patrones es ahora capaz de patrones de grupo sobre la base de una columna secundaria. Esto es útil para los análisis como:
  • Obtener patrones de números de teléfono, agrupados por país.
  • Obtener patrones de nombre de usuario de correo electrónico basados ​​en dominio de correo electrónico.
  • Algo similar se ha hecho por el analizador de distribución de valores; esto permite un análisis tales como:
  • ¿Son todos los nombres de ciudades distintas, cuando se agrupan por código postal?
  • ¿Cuál es la distribución de género dentro de determinados tipos de clientes?
  • gráficos mejorados:
  • Los resultados del buscador patrón ahora se pueden mostrar en un gráfico. Esto hace que la distribución visible y muestra la cantidad de un & quot; larga cola & quot; de los patrones que hay.
  • La salida del analizador de distribución de valor se ha mejorado en un par de áreas:
  • La legibilidad de la carta ha sido mejorada.
  • Se muestra el número total de filas y el recuento diferente sobre estas filas: el número de valores diferentes que existen en las filas. Esto ayuda a averiguar con qué frecuencia existen valores duplicados.
  • Si hay cadenas vacías, utilizamos la palabra clave para ello, por lo que es más fácil reconocerlos.
  • Salida:
  • Al lado de los formatos ya existentes de salida (archivos CSV y almacenes de datos H2) que hemos añadido a escribir la salida a hojas de cálculo de Excel.
  • Después de grabar en un almacén de datos, ahora es posible previsualizar los archivos finales, por lo que se puede comprobar si la salida es de acuerdo a sus expectativas.
  • Ahora también es posible añadir la salida como un nuevo almacén de datos, de modo que se puede utilizar como entrada para un nuevo trabajo.
  • Otras mejoras:
  • La documentación se ha mejorado en general. En particular, se han añadido tala y la interfaz de línea de comandos descripciones.
  • El mecanismo de extensión ha sido mejorada modularizádolo varias partes de la aplicación y la introducción de Google Guice como un marco de inyección de dependencias generalmente disponibles para los desarrolladores de extensiones.
  • Y por supuesto que no más de veinte pequeñas mejoras y correcciones de errores.

¿Qué hay de nuevo en la versión 2.2:

  • El principal motor de esta versión ha sido una historia sobre la extensibilidad . Mientras que la liberación de la aplicación que estamos lanzando un sitio web simultaneamente un nuevo DataCleaner que cuenta con una importante nueva área: La ExtensionSwap. La idea de la ExtensionSwap es permitir el intercambio de extensiones para DataCleaner e instalación simplemente haciendo clic en un botón en el navegador!
  • La API de extensión DataCleaner se ha mejorado mucho en esta versión, por lo que es posible crear sus propios transformadores, analizadores y filtros. Si usted siente que sus extensiones pueden ser de interés para otros usuarios, por favor compartirlo en la ExtensionSwap y proporcionamos un canal para distribuir fácilmente a miles de usuarios. La API de Extensión y la ExtensionSwap se explican con más detalle en nuestra nueva demostración de transmisión para los desarrolladores y otros expertos en tecnología con un interés.
  • También estamos lanzando un conjunto de extensiones iniciales sobre el ExtensionSwap: Los HIquality Contactos para la extensión DataCleaner que proporciona Nombre avanzada, teléfono y correo electrónico de limpieza, basado en lenguaje natural servicios web inferencias humano procesamiento DQ. También estamos enviando una extensión de ejemplo que servirá como ejemplo para los desarrolladores que desean probar el desarrollo de extensión a sí mismos. En los próximos meses vamos a asegurarse para enviar incluso más extensiones se originan en nuestra cartera interna de las herramientas que utilizamos en los equipos de recolección de conocimiento de la inferencia.
  • Además de la extensibilidad también estamos centrando en la incrustación. Queremos ser capaces de integrar DataCleaner fácilmente en otras aplicaciones que hacen de perfiles y análisis de datos posibles en cualquier lugar! Hemos creado una nueva API de programa previo que permite a las aplicaciones para venta conjunta DataCleaner y iniciarla con una configuración dinámica o se ejecutan en un & quot; monomodo & quot almacén de datos ;, donde la aplicación está sintonizado hacia acaba de inspeccionar un solo almacén de datos (por lo general definida por la aplicación que incorpora DataCleaner). Ya tenemos algunos casos muy interesantes de la incrustación DataCleaner en las obras -. tanto en otras aplicaciones de software libre, así como aplicaciones comerciales
  • Hemos añadido soporte para el análisis de conjuntos de datos SAS. Esto es algo que estamos muy orgullosos de lo que somos, a nuestro entender, la primera de las principales aplicaciones de código abierto para proporcionar dicha funcionalidad, en última instancia, liberando una gran cantidad de usuarios de SAS. La parte interoperabilidad SAS fue creado como un proyecto separado, SassyReader, por lo que esperamos ver a su adopción en las comunidades de código abierto gratuitos de DataCleaner pronto también!
  • También hemos añadido soporte para otro tipo de almacén de datos: Se ha corregido los archivos de anchura. archivos de ancho fijo son archivos de texto, donde cada columna tiene un ancho fijo. No hay separador o una cita de carácter, como archivos CSV, en lugar de cada línea son iguales en longitud y será tokenized cada línea de acuerdo con un conjunto de longitudes de valor.
  • Una opción & quot; fallar en inconsistencias & quot; fue añadido al archivo CSV y almacenes de datos de archivos de ancho fijo. Estas banderas añaden una comprobación de integridad de formato cuando se utilizan estos almacenes de datos basados ​​en archivos de texto.
  • Un error se corrigió, lo que causó la configuración de separación CSV no ser retenidos en la interfaz de usuario, cuando se edita un almacén de datos CSV.
  • caracteres japoneses y otros no son compatibles con la interfaz de usuario. Este & quot; error & quot; era una cuestión de la investigación de las fuentes disponibles en el sistema y seleccionar una fuente que puede hacer que los caracteres particulares. En la mayoría de los sistemas modernos no habrá fuentes capaces disponibles, pero en algunas ramas de Unix / Linux podría ser aún limitaciones.
  • La sección de documentación se ha actualizado! Desde el lanzamiento inicial de la documentación 2.0 han sido muy atrás, pero por fin hemos conseguido hasta la fecha. Todavía hay piezas que faltan en la documentación, pero que sin duda deben ser útiles para el uso básico, así como una referencia para la mayoría de los temas.
  • Hora de inicio de la aplicación fue mejorada por la paralelización de la carga de la configuración y al retrasar la inicialización de esas partes de la configuración que no son necesarios para la visualización de la ventana inicial.
  • El analizador buscador de similitud fonética se han eliminado de la distribución principal, ya que esto era bastante experimental y sirve sobre todo como una prueba de concepto y un aperitivo a la comunidad para crear analizadores que coinciden más avanzados. Ahora puede encontrar e instalar el buscador de similitud fonética en la ExtensionSwap.
  • Las anulaciones, el tratamiento del trabajo errornous se ha mejorado y la interfaz de usuario responde más correctamente mediante la desactivación de los botones y los indicadores de progreso, si un trabajo se ha detenido.
  • Fijo algunos problemas de interfaz de usuario de menor importancia relacionados con el tamaño de mesa y el uso de las barras de desplazamiento.

¿Qué hay de nuevo en la versión 2.1.1:

  • Mejoras:
  • Ha añadido un campo de texto de búsqueda / filtrado en la lista de almacenes de datos. Esto le permite encontrar rápidamente el almacén de datos si se ha registrado más de almacenes de datos disponibles en la pantalla.
  • Se añadieron los datos de referencia de los códigos de país de la distribución estándar, gracias va a Graham Rhind para proporcionar estos.
  • Añadido una barra de desplazamiento horizontal para los datos de la vista previa de las ventanas hay más de 10 columnas.
  • Posibilidad de añadir un paquete de ampliación con una nueva funcionalidad en el cuadro de diálogo Opciones en tiempo de ejecución. Un mayor enfoque en las extensiones seguirá en las próximas versiones.
  • Nos hemos expuesto una primera vista previa de nuestra interfaz de línea de comandos (CLI) por lo que le permite invocar la aplicación con el & quot; -usage & quot; parámetro que mostrará las opciones de la CLI.
  • Número añadido opciones para formatear el & quot; Convertir en número & quot; transformador.
  • Corrección de errores:
  • Se ha solucionado un problema fuera de la memoria cuando se consultan las tablas con una gran cantidad de columnas (150 +).
  • Se ha solucionado un problema que causa el & quot; el análisis del límite de & quot; casilla de verificación para no ser comprobado correctamente cuando se volvió a abrir un puesto de trabajo después de guardar.
  • No es realmente una corrección de errores, ya que nunca fue una característica oficial, pero ahora nos permite la restauración de las preferencias del usuario (el archivo userpreferences.dat) de versiones anteriores de DataCleaner.

¿Qué hay de nuevo en la versión 2.1:

  • Hubo una gran cantidad de trabajo realizado en la interfaz de usuario ( consulte la página medios de comunicación):
  • Decidimos eliminar la ventana de la parte izquierda contiene opciones de configuración del entorno.
  • En lugar de todas estas opciones han sido ya trasladado a la ventana de creación de empleo por lo que el usuario sólo tiene que concentrarse en una ventanilla única para todas las interacciones necesarias para preparar un trabajo.
  • El diálogo de bienvenida / inicio de sesión también ha sido eliminado en favor de un panel más discreta que se puede sacar en o escondido de la ventana principal.
  • selección y gestión del almacén de datos se considera la primera actividad en la aplicación, por lo que también es el primer paso para manejar en la ventana principal.











Imágenes

datacleaner-315902_1_315902.png
datacleaner-315902_2_315902.png
datacleaner-315902_3_315902.png

Programas parecidos

pyodbc
pyodbc

20 Feb 15

hamsterdb
hamsterdb

17 Feb 15

Cego-DBD
Cego-DBD

17 Feb 15

Otro software de desarrollador -

quagga
quagga

11 Apr 16

Xfburn
Xfburn

22 Jun 18

Comentarios a la DataCleaner

Comentarios que no se encuentran
Añadir comentario
A su vez en las imágenes!