DataFu fue desarrollado en LinkedIn y está escrito completamente en Java.
DataFu incluye funciones / librerías para trabajar con:
- Estadísticas
- Estimación
- Muestreo
- Sesiones
- Link Analysis
- operaciones Set
- Bolsas
DataFu es perfecto para aplicaciones estadísticas que trabajan en la parte superior de las bases de datos Hadoop o conejillo de minería de datos y.
Estas funciones permiten a los desarrolladores sacar el máximo provecho de todos los datos almacenados dentro de un Hadoop o cerdo base de datos sin tener que lidiar con enormes necesidades del sistema con el fin de hacerlo.
¿Qué hay de nuevo en esta versión:.
- Par de UDF para el muestreo aleatorio simple con reemplazo
- Más dependencias ahora empaquetados en DataFu dependencias por lo menos JAR necesarios.
- UDF SetDifference para el cálculo de diferencia de conjuntos (por ejemplo A-B o A-B-C).
¿Qué es la nueva en la versión 1.2.0:
- Par de UDF de muestreo aleatorio simple con reemplazo.
- Más dependencias ahora empaquetados en DataFu dependencias por lo menos JAR necesarios.
- UDF SetDifference para el cálculo de diferencia de conjuntos (por ejemplo A-B o A-B-C).
¿Qué hay de nuevo en la versión 1.1.0:.
- Agregado de hash SHA UDF
- InUDF y AssertUDF añadieron 0,12 para el cerdo compatibilidad. Estos son los mismos que en y hacer valer.
- SimpleRandomSample, que implementa un algoritmo de muestreo aleatorio simple y escalable.
Comentarios que no se encuentran