Apache Pig ha generado a partir de la Hadoop del proyecto y es uno de sus módulos que estuvieron a cargo de proporcionar una forma de analizar los datos que procesa y se almacena.
Cerdo utiliza un lenguaje de consulta personalizado llamado "Pig Latin" que es increíblemente fácil de aprender y es compatible con los estilos relacionales y funcionales.
Esto significa que se puede utilizar como un lenguaje clásico de SQL que se benefician de los datos se une y los filtros, o puede utilizar sus características MapReduce, los creadores de mapas de datos y reductores.
Por defecto Apache Pig estaba destinado a ser utilizado en el interior de las instalaciones de Hadoop, pero las nuevas versiones permitir que se ejecute por separado a través de una JVM independiente
¿Qué hay de nuevo en esta versión:.
- motores de ejecución conectables (para permitir la ejecución de cerdo en los motores no MapReduce en el futuro)
- Modo Auto-local (para trabajos con pequeño tamaño de datos de entrada para ejecutar en proceso)
- Obtener optimización (para mejorar la interactividad de gruñido)
- contadores fijos para-modo local
- Soporte para memoria caché tarro de nivel de usuario
- Soporte para listas negras y listas blancas comandos cerdo
- Varias correcciones de rendimiento y características debuggability
- Algunas modificaciones de interfaz no compatible hacia atrás se han introducido en esta versión para que el trabajo de cerdo con motores no MapReduce
¿Cuál es nuevo en la versión 0.14.0:
- motores de ejecución conectables (para permitir la ejecución de cerdo en la no motores -mapreduce en el futuro)
- Modo Auto-local (para trabajos con pequeño tamaño de datos de entrada para ejecutar en proceso)
- Obtener optimización (para mejorar la interactividad de gruñido)
- contadores fijos para-modo local
- Soporte para memoria caché tarro de nivel de usuario
- Soporte para listas negras y listas blancas comandos cerdo
- Varias correcciones de rendimiento y características debuggability
- Algunas modificaciones de interfaz no compatible hacia atrás se han introducido en esta versión para que el trabajo de cerdo con motores no MapReduce
¿Qué hay de nuevo en la versión 0.11.0:
- Este comunicado incluye DateType tipo de datos, RANK, CUBE y operadores ROLLUP, udfs Groovy, estimación reductor de encargo, tuplas basada en esquema y la integración HCatalog DDL.
¿Qué hay de nuevo en la versión 0.9.1:.
- Esta versión funciona con Hadoop 0,20
¿Cuál es nuevo en la versión 0.6:
- Agregado Zebra como un proyecto contrib. Ver http://wiki.apache.org/pig/zebra
- Agregado UDFContext, da UDF una forma de pasar información de adelante hacia atrás final y da acceso a UDFS JobConf en el backend.
- Agregado izquierda combinación externa para el fragmento réplica unirse.
- Añadida la capacidad para establecer la prioridad de trabajo de Latín de cerdo.
- Enhanced multi-consulta para trabajar con une en algunos casos.
- Administrador de memoria revisado a fin de reducir significativamente GC Overhead y Fuera de fracasos del montón.
- Interfaz Agregado Acumulador de UDF.
- Más de 100 correcciones de errores y mejoras.
Requisitos
- 1.6.x de Java o superior
- Hadoop 0.20.x o superior
Comentarios que no se encuentran