Apache Spark

Software captura de pantalla:
Apache Spark
Detalles de software:
Versión: 1.3.1 Actualizado
Fecha de carga: 12 May 15
Licencia: Libre
Popularidad: 195

Rating: 4.0/5 (Total Votes: 2)

Spark fue diseñado para mejorar las velocidades de procesamiento para el análisis de datos y programas de manipulación.
Fue escrito en Java y Scala y proporciona características que no se encuentran en otros sistemas, sobre todo porque no son la corriente principal ni que útil para aplicaciones de procesamiento de no-datos.

¿Qué hay de nuevo en esta versión:.

  • La API del núcleo es ahora compatible con árboles de agregación de múltiples niveles para ayudar a acelerar caro reducir las operaciones
  • Mejora de los informes de errores se ha añadido para ciertas operaciones de gotcha.

  • Embarcadero dependencia
  • El Spark es ahora la sombra para evitar conflictos con los programas de usuario.
  • Spark ahora es compatible con el cifrado SSL para algunos puntos finales de comunicación.
  • métricas GC tiempo real y número de registros se han añadido a la interfaz de usuario.

¿Qué es nuevo en la versión 1.3.0:

  • La API del núcleo es ahora compatible con árboles de agregación de varios niveles para ayudar a acelerar caro reducir las operaciones.
  • Mejora de los informes de errores se ha añadido para ciertas operaciones de gotcha.

  • Embarcadero dependencia
  • El Spark es ahora la sombra para evitar conflictos con los programas de usuario.
  • Spark ahora es compatible con el cifrado SSL para algunos puntos finales de comunicación.
  • métricas GC tiempo real y número de registros se han añadido a la interfaz de usuario.

¿Qué hay de nuevo en la versión 1.2.1:

  • operador tipo de PySpark ahora es compatible con derrame externo para grandes conjuntos de datos .
  • PySpark ahora es compatible con las variables de transmisión de más de 2GB y realiza derrame externo durante las clases.
  • Spark añade una página a nivel de trabajo el progreso en la interfaz de usuario de chispa, una API estable para la presentación de informes progreso y la actualización dinámica de las métricas de salida como puestos de trabajo completa.
  • Spark ahora tiene soporte para la lectura de archivos binarios para imágenes y otros formatos binarios.

¿Cuál es nuevo en la versión 1.0.0:

  • Esta versión amplía las bibliotecas estándar de Spark, introduciendo una nueva paquete de SQL (SQL Spark) que permite a los usuarios integrar consultas SQL en flujos de trabajo existentes Spark.
  • MLlib, biblioteca aprendizaje automático del Spark, se amplía con soporte vectorial escasa y varios algoritmos nuevos.

¿Qué hay de nuevo en la versión 0.9.1:

  • Fijo hash de colisión error en derramamiento externa
  • conflicto fijo con log4j de chispa para los usuarios que dependen de otros backends de registro
  • Graphx Fijo falta en tarro de ensamblaje Spark en maven construye
  • fracasos silenciosos fijos debido al mapa de estado de salida superior a tamaño de marco Akka
  • innecesaria dependencia directa de la bujía en ASM
  • Eliminado métricas en los ganglios de la acumulación por defecto debido a la LGPL conflicto licencia
  • bug en tarball de distribución no contiene frasco de ensamblaje chispa

¿Qué hay de nuevo en la versión 0.8.0:

  • Desarrollo se ha trasladado a la Fundación Apache Sowftware como proyecto de incubadora.

¿Cuál es nuevo en la versión 0.7.3:

  • Python rendimiento: mecanismo de chispa para el desove Python VM tiene ha mejorado para hacerlo más rápido cuando la JVM tiene un gran tamaño del montón, la aceleración de la API de Python.
  • Mesos fija: JAR añadido a su trabajo ahora estarán en la ruta de clases cuando deserializar resultados de la tarea en Mesos
  • .
  • de informes de error:. Mejor informe de errores para las excepciones no serializables y resultados de la tarea excesivamente grandes
  • Ejemplos:. Añadido un ejemplo de procesamiento de flujo de estado con updateStateByKey
  • Build:. Spark Streaming ya no depende de la repo Twitter4J, lo que debería permitir que se construye en China
  • Corrección de errores en foldByKey, conde de streaming, métodos estadísticos, la documentación, y la interfaz de usuario web.

¿Cuál es nuevo en la versión 0.7.2:.

  • Versión Scala actualiza a 2.9.3
  • Varias mejoras en Bagel, incluyendo correcciones de rendimiento y un nivel de almacenamiento configurable.
  • Nuevos métodos de la API:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition y otros
  • Un nuevas métricas de informes interfaz, SparkListener, para recopilar información sobre cada etapa de cálculo:. Longitudes de tareas, bytes barajan, etc
  • Varios nuevos ejemplos que utilizan la API de Java, incluyendo K-means y pi computing.

¿Cuál es nuevo en la versión 0.7.0:

  • Spark 0.7 agrega una API Python llamado PySpark <. / li>
  • Empleo Spark ahora lanzan un panel web para monitorear el uso de la memoria de cada conjunto de datos distribuida (RDD) en el programa.
  • Spark puede ahora ser construido utilizando Maven además de SBT.

¿Qué hay de nuevo en la versión 0.6.1:

  • Fijo mensaje excesivamente agresivo tiempos de espera que pueden implicar que los trabajadores a desconectarse de la agrupación.
  • Se ha corregido un error en el modo de despliegue autónomo que no exponga los nombres de host a planificador, afectando HDFS localidad.
  • Mejora de la reutilización de conexión en shuffle, que puede acelerar enormemente pequeñas baraja.
  • Se han solucionado algunos estancamientos potenciales en el administrador de bloques.
  • Se ha corregido un error de conseguir identificaciones de los ejércitos fallidos de mesos.
  • Varias mejoras de script EC2, como un mejor manejo de casos puntuales.
  • Hecho dirección IP local que une a Spark personalizable.
  • Soporte para Hadoop 2 distribuciones.
  • Soporte para la localización de Scala en distribuciones Debian.

¿Qué hay de nuevo en la versión 0.6.0:.

  • despliegue más simple
  • documentación del Spark se ha ampliado con una nueva guía de inicio rápido, instrucciones de implementación adicionales, guía de configuración, guía de afinación y una mejor documentación de la API Scaladoc.
  • Un nuevo responsable de comunicación asincrónica utilizando Java NIO permite las operaciones de reproducción aleatoria se ejecutan más rápido, especialmente cuando el envío de grandes cantidades de datos o cuando los trabajos tienen muchas tareas.
  • Un nuevo gestor de almacenamiento soporta per-conjunto de datos ajustes de nivel de almacenamiento (por ejemplo, si desea mantener el conjunto de datos en la memoria, deserializado, en el disco, etc, o incluso replicado a través de nodos).
  • depuración mejorada.

Programas parecidos

WildFly
WildFly

10 Dec 15

vtop
vtop

13 Apr 15

Sentry
Sentry

10 Dec 15

http_logger
http_logger

13 Apr 15

Comentarios a la Apache Spark

Comentarios que no se encuentran
Añadir comentario
A su vez en las imágenes!