Procesamiento de big data en Hadoop usando el repartition join
DOI:
https://doi.org/10.30973/progmat/2015.7.2/8Palabras clave:
big data, Map Reduce, Hadoop, joinResumen
El objetivo principal de este trabajo es el procesamiento de grandes volúmenes de información, conocidos como big data. Presentamos la implementación del algoritmo repartition join para realizar la operación join en un conjunto grande de datos. El algoritmo fue programado bajo el modelo de programación Map Reduce. Implementar un join en el contexto de big data resulta ser complejo y costoso; por ello, apoyados en la plataforma Hadoop, herramienta que ofrece las utilidades necesarias para el manejo de grandes volúmenes de información, analizamos el comportamiento del algoritmo para evaluar su rendimiento. El algoritmo planteado se evaluó en un clúster conformado por tres nodos. Los resultados de ejecución se analizaron para su posterior uso en aplicaciones con datos reales.
Citas
Gantz, J. y Reinsel, D. The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East, EMC, Diciembre 2012, Disponible en: https://www.emc.com/collateral/analyst-reports/idcthe-digital-universe-in-2020.pdf
Goicochea, A. Big Data es la necesidad, In memory computing es la solución (volumen y variedad con velocidad). Tecnologías de la Información y Estrategia. Blog personal, Noviembre de 2013. Disponible en: http://anibalgoicochea.com/2012/11/07/big-data-esla-necesidad-in-memorycomputing-es-la-solucion/
Lin, J. y Dyer, C. Data-Intensive Text Processing. Manuscrito preparado, University of Maryland, College Park, abril de 2010.
Lam, C. Hadoop in Action. Stanford: Manning Publications, 2010.
Blanas, S., Patel, J.M., Ercegovac, V., Rao, J., Shekita, E.J., y Tian, Y. A comparison of join algorithms for log processing in MapReduce. Proceedings of the 2010 international conference on Management of data.
Manning, Ch. D., Raghavan, P. y Schütze, H. An Introduction to Information Retrieval, Cambridge: Cambridge University Press, 2009.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2015 Programación Matemática y Software
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Usted es libre de:
Compartir — compartir y redistribuir el material publicado en cualquier medio o formato. |
Adaptar — combinar, transformar y construir sobre el material para cualquier propósito, incluso comercialmente. |
Bajo las siguientes condiciones:
Atribución — Debe otorgar el crédito correspondiente, proporcionar un enlace a la licencia e indicar si se realizaron cambios. Puede hacerlo de cualquier manera razonable, pero de ninguna manera que sugiera que el licenciador lo respalda a usted o a su uso. |
Sin restricciones adicionales: no puede aplicar términos legales o medidas tecnológicas que restrinjan legalmente a otros a hacer cualquier cosa que permita la licencia. |