mrjob es un módulo de Python que le ayuda a escribir y ejecutar tareas de Hadoop Streaming.
mrjob totalmente compatible con el servicio de Amazon Elastic MapReduce (EMR), que le permite comprar tiempo en un clúster Hadoop sobre una base horaria. También funciona con su propio clúster Hadoop.
Instalación:
python setup.py install
Configuración de EMR en Amazon
& Nbsp; * crear una cuenta de Amazon Web Services: http://aws.amazon.com/
& Nbsp; * inscribirse para Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Obtenga su acceso y claves secretas (ir a http://aws.amazon.com/account/ y haga clic en "Credenciales de seguridad") y establecer las variables de entorno $ AWS_ACCESS_KEY_ID y $ AWS_SECRET_ACCESS_KEY consecuencia
Pruébalo!
# Localmente
mrjob python / ejemplos / mr_word_freq_count.py README.md> recuentos
# En EMR
mrjob python / ejemplos / mr_word_freq_count.py README.md -r emr> recuentos
# En el clúster Hadoop
mrjob python / examples / mr_word_freq_count.py README.md -r Hadoop> recuentos
Configuración avanzada
Para ejecutar en otras regiones de AWS, cargue su árbol de código fuente, ejecute make, y utilizar otras funciones mrjob avanzadas, necesitará configurar mrjob.conf. mrjob busca su archivo conf en:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf cualquier lugar de su $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Ver mrjob.conf.example para más información
Características :.
- Ejecute trabajos sobre EMR, su propio clúster Hadoop, o localmente (para la prueba).
- Escribir trabajos de varios pasos (un mapa-reducir paso se introduce en la siguiente)
- Duplicar su entorno de producción dentro de Hadoop
- Sube tu árbol de código fuente y lo puso en su trabajo de $ PYTHONPATH
- No Ejecutar y otra configuración de scripts
- Establezca las variables de entorno (por ejemplo $ TZ)
- instalar fácilmente paquetes python de bolas de alquitrán (EMR solamente)
- Configuración manejado de forma transparente por el archivo de configuración mrjob.conf
- interpretar automáticamente los registros de error de EMR
- túnel SSH a Job Tracker hadoop sobre EMR
- configuración mínima
- Para ejecutar el EMR, establezca $ AWS_ACCESS_KEY_ID y $ AWS_SECRET_ACCESS_KEY
- Para ejecutar en el clúster Hadoop, establezca $ HADOOP_HOME
Requisitos :
- Python
Comentarios que no se encuentran