Apache Spark

Software captura de pantalla:
Apache Spark
Detalles de software:
Versión: 1.6.0 Actualizado
Fecha de carga: 6 Mar 16
Licencia: Libre
Popularidad: 104

Rating: 1.0/5 (Total Votes: 1)

Apache Spark fue diseñado para mejorar la velocidad de procesamiento de los programas de análisis y manipulación de datos.

Fue escrito en Java y Scala y proporciona características que no se encuentran en otros sistemas, sobre todo porque no son la corriente principal ni que útil para aplicaciones de procesamiento no son de datos.

Spark fue creado por primera vez en la Universidad de California en Berkeley AMP Lab y posteriormente donado a la Fundación Apache Software

¿Qué hay de nuevo en esta versión:.

  • Gestión unificada de memoria -. la memoria compartida para la ejecución y el almacenamiento en caché en lugar de la división exclusiva de las regiones
  • Rendimiento parqué - Mejorar el rendimiento del análisis de leño al utilizar esquemas planos
  • .
  • Mejora del planificador de consultas para consultas teniendo distintas agregaciones -. Los planes de consultas de distintas agregaciones son más robustos cuando las columnas distintas tienen alta cardinalidad
  • ejecución de la consulta de Adaptive -. El soporte inicial para seleccionar automáticamente el número de reductores para uniones y agrupaciones
  • Evitar filtros dobles en el origen de datos API -. En la aplicación de una fuente de datos con desplazamiento descendente del filtro, los desarrolladores pueden ahora contar SQL chispa para evitar la doble evaluación de un filtro empujado hacia abajo
  • Fast nula de fallos se une - Se une el uso de la igualdad nula de fallos (& # x3c; = & # X3e;) ahora se ejecutará utilizando SortMergeJoin en lugar de calcular un producto cartisian
  • .
  • En la memoria caché de rendimiento en columnas - Significativo (hasta 14 veces) a acelerar cuando el almacenamiento en caché de datos que contiene los tipos complejos en tramas de datos SQL o
  • .
  • La ejecución de SQL Uso Off-memoria de la pila - Soporte para la configuración de ejecución de la consulta que se produzca el uso de la memoria fuera de la pila para evitar la sobrecarga GC

Lo que es nuevo en la versión 1.5.2:

  • La API central ahora es compatible con árboles de agregación de varios niveles para ayudar a acelerar caro reducir las operaciones.
  • Mejora de los informes de errores se ha añadido para ciertas operaciones de gotcha.

  • la dependencia del embarcadero
  • El Spark está sombreada para ayudar a evitar conflictos con los programas de usuario.
  • Spark ahora es compatible con el cifrado SSL para algunos extremos de la comunicación.
  • métricas en tiempo real de GC y el número de registros se han agregado a la interfaz de usuario.

Lo que es nuevo en la versión 1.4.0:

  • La API central ahora es compatible con árboles de agregación de varios niveles para ayudar a acelerar caro reducir las operaciones.
  • Mejora de los informes de errores se ha añadido para ciertas operaciones de gotcha.

  • la dependencia del embarcadero
  • El Spark está sombreada para ayudar a evitar conflictos con los programas de usuario.
  • Spark ahora es compatible con el cifrado SSL para algunos extremos de la comunicación.
  • métricas en tiempo real de GC y el número de registros se han agregado a la interfaz de usuario.

¿Qué hay de nuevo en la versión 1.2.0:

  • operador tipo de PySpark ahora es compatible con derrame externo para grandes conjuntos de datos .
  • PySpark ahora es compatible con las variables de transmisión de más de 2GB y realiza derrame externo durante las clases.
  • Spark añade una página a nivel de trabajo el progreso en la interfaz de usuario de chispa, una API estable para comunicar el progreso y la actualización dinámica de las métricas de salida como puestos de trabajo completa.
  • Spark ahora tiene soporte para la lectura de archivos binarios para las imágenes y otros formatos binarios.

Lo que es nuevo en la versión 1.0.0:

  • Esta versión amplía las bibliotecas estándar de chispa, introduciendo un nuevo paquete de SQL (SQL chispa) que permite a los usuarios integrar las consultas SQL en flujos de trabajo existentes de chispa.
  • MLlib, biblioteca de aprendizaje de máquina de chispa, se expande con el apoyo del vector escasa y varios nuevos algoritmos.

¿Qué hay de nuevo en la versión 0.9.1:

  • Fijo hash de colisión error en derramamiento externa
  • conflicto fijo con log4j de chispa para los usuarios que dependen de otros backends de registro
  • Graphx fijo falta de frasco de ensamblaje de chispa en el experto construye
  • fallos silenciosos fijos debido a la correlación de estado de salida superior a tamaño de marco Akka
  • innecesaria dependencia directa de la bujía en ASM
  • Se ha quitado métricas en los ganglios de la acumulación por defecto debido a un conflicto licencia LGPL
  • Solución de error en el archivo comprimido que contiene la distribución no tarro de ensamblaje chispa

¿Qué hay de nuevo en la versión 0.8.0:

  • Desarrollo se ha trasladado a la Fundación Apache como un Sowftware proyecto de incubadora.

Lo que es nuevo en la versión 0.7.3:

  • Python rendimiento: mecanismo de chispa para el desove Python tiene máquinas virtuales ha mejorado para hacerlo más rápido cuando la JVM tiene un gran tamaño del montón, la aceleración de la API de Python.
  • mesos fija: JAR añadido a su trabajo ahora estarán en la ruta de clase al deserializar resultados de la tarea en Mesos
  • .
  • El informe de errores:. Mejor notificación de error para las excepciones no serializables y excesivamente grandes resultados de la tarea
  • Ejemplos:. Añadido un ejemplo del procesamiento de flujos de estado con updateStateByKey
  • Build:. Spark Streaming ya no depende de la repo Twitter4J, lo que debería permitir que se acumule en China
  • Corrección de errores en foldByKey, recuento de streaming, métodos estadísticos, la documentación y la interfaz de usuario web.

¿Qué es la nueva en la versión 0.7.2:.

  • Scala versión actualizada a 2.9.3
  • Varias mejoras en Bagel, incluyendo correcciones de rendimiento y un nivel de almacenamiento configurable.
  • Nuevos métodos de la API:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition, y otros
  • Una nueva interfaz de métricas de informes, SparkListener, para recopilar información sobre cada etapa de cálculo:. Longitudes de tareas, bytes barajan, etc
  • Varios nuevos ejemplos que utilizan la API de Java, incluyendo K-means y pi computación.

¿Qué es la nueva en la versión 0.7.0:

  • Spark 0.7 agrega una API Python llamada PySpark <. / li>
  • Empleo Spark se ejecutarán de un panel de control web para el seguimiento del uso de la memoria de cada conjunto de datos distribuida (RDD) en el programa.
  • Spark puede ahora ser construido usando Maven, además de SBT.

¿Qué hay de nuevo en la versión 0.6.1:

  • Fijo mensaje demasiado agresivo tiempos de espera que pueden implicar que los trabajadores de desconectarse de la agrupación.
  • Se ha corregido un error en el modo de despliegue autónomo que no exponga a los nombres de host del planificador, afectando HDFS localidad.
  • reutilización de la conexión mejorada en la reproducción aleatoria, que puede acelerar enormemente pequeñas baraja.
  • Se han solucionado algunos puntos muertos potenciales en el administrador de bloques.
  • Se ha corregido un error de conseguir los ID de los ejércitos fallidos de mesos.
  • Varias mejoras de script EC2, como un mejor manejo de casos puntuales.
  • Hecho dirección IP local que se une a Spark personalizable.
  • Soporte para Hadoop 2 distribuciones.
  • Soporte para la localización de Scala en distribuciones Debian.

¿Qué hay de nuevo en la versión 0.6.0:.

  • implementación más simple
  • documentación del Spark se ha ampliado con una nueva guía de inicio rápido, instrucciones de implementación adicionales, guía de configuración, guía de ajuste y mejora de la documentación API Scaladoc.
  • Un nuevo responsable de comunicación asincrónica utilizando Java NIO permite operaciones de reproducción aleatoria se ejecutan más rápido, sobre todo cuando el envío de grandes cantidades de datos o cuando los trabajos tienen muchas tareas.
  • Un nuevo gestor de almacenamiento soporta per conjunto de datos de configuración del nivel de almacenamiento (por ejemplo, si desea mantener el conjunto de datos en la memoria, deserializado, en el disco, etc, o incluso replicado en todos los nodos).
  • depuración mejorada.

Otro software de desarrollador Apache Software Foundation

Comentarios a la Apache Spark

Comentarios que no se encuentran
Añadir comentario
A su vez en las imágenes!