Big Data es un término de marketing que abarca toda la idea de datos minados de fuentes como motores de búsqueda, patrones de compra de supermercados seguidos por tarjetas de puntos, etc. En el mundo moderno, Internet tiene tantos Las fuentes de datos indican que, en la mayoría de los casos, la escala la hace inutilizable sin procesamiento y procesamiento. Ingrese Apache Hadoop
Menos tiempo para el procesamiento de datosAl aprovechar la arquitectura de Hadoop para distribuir tareas de procesamiento en múltiples máquinas en una red , los tiempos de procesamiento se reducen astronómicamente y las respuestas se pueden determinar en cantidades razonables de tiempo. Apache Hadoop se divide en dos componentes diferentes: un componente de almacenamiento y un componente de procesamiento. En los términos más simples, Hapood hace un servidor virtual de múltiples máquinas físicas . En realidad, Hadoop gestiona la comunicación entre varias máquinas de modo que trabajen juntas lo suficientemente cerca como para que parezca que solo hay una máquina trabajando en los cálculos. Los datos se distribuyen entre varias máquinas para ser almacenados y almacenados las tareas de procesamiento son asignadas y coordinadas por la arquitectura de Hadoop
Este tipo de sistema es un requisito para convertir datos brutos en información útil en la escala de entradas Big Data. Tenga en cuenta la cantidad de datos que Google recibe cada segundo de los usuarios que ingresan solicitudes de búsqueda. Como un conjunto total de datos, no sabría por dónde empezar, pero Hadoop reducirá automáticamente el conjunto de datos en subconjuntos de datos más pequeños y organizados y asignará estos subconjuntos manejables a recursos específicos. Todos los resultados se informan y ensamblan en información utilizable .
Un servidor fácil de configurar
Aunque el sistema suena complejo, la mayoría de las partes móviles se oscurecen detrás de la abstracción. Configurar el servidor de Hadoop es bastante simple , simplemente instala los componentes del servidor en el hardware que cumpla con los requisitos del sistema. La parte más difícil es planificar la red de computadoras que el servidor de Hadoop utilizará para distribuir las funciones de almacenamiento y procesamiento. Esto puede implicar configurar una red de área local o conectar varias redes juntas en Internet . También puede utilizar servicios en la nube existentes y pagar por un clúster de Hadoop en plataformas de nube populares como Microsoft Azure y Amazon EC2. Estos son aún más fáciles de configurar, ya que puedes hacerlos girar ad hoc y luego desmantelar los clusters cuando ya no los necesites. Estos tipos de clústeres son ideales para las pruebas, ya que solo paga por el tiempo que el clúster de Hadoop está activo.
Procese sus datos para obtener la información que necesita
Los macrodatos son un recurso extremadamente poderoso, pero los datos son inútiles a menos que puedan clasificarse adecuadamente y convertirse en información. En la actualidad, los clústeres Hadoop ofrecen un método extremadamente rentable para procesar estas colecciones de datos en información.
Comentarios que no se encuentran