Procesamiento de big data en Hadoop usando el repartition join

Autores/as

  • Néstor Iván Escalante Fol Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México
  • Alberto Portilla Flores Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México
  • Genoveva Vargas-Solar French Council of Scientific Research, LIG-LAFMIA. 681 rue de la Passerelle BP 72, 38402. Saint Martin d’Heres, Francia
  • Carolina Rocío Sánchez Pérez Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México
  • Marva Angélica Mora Lumbreras Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México

DOI:

https://doi.org/10.30973/progmat/2015.7.2/8

Palabras clave:

big data, Map Reduce, Hadoop, join

Resumen

El objetivo principal de este trabajo es el procesamiento de grandes volúmenes de información, conocidos como big data. Presentamos la implementación del algoritmo repartition join para realizar la operación join en un conjunto grande de datos. El algoritmo fue programado bajo el modelo de programación Map Reduce. Implementar un join en el contexto de big data resulta ser complejo y costoso; por ello, apoyados en la plataforma Hadoop, herramienta que ofrece las utilidades necesarias para el manejo de grandes volúmenes de información, analizamos el comportamiento del algoritmo para evaluar su rendimiento. El algoritmo planteado se evaluó en un clúster conformado por tres nodos. Los resultados de ejecución se analizaron para su posterior uso en aplicaciones con datos reales.

Biografía del autor/a

Néstor Iván Escalante Fol, Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México

Néstor Iván Escalante Fol. Egresado de la Licenciatura en Ingeniería en Computación de la Universidad Autónoma de Tlaxcala.

Alberto Portilla Flores, Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México

Alberto Portilla Flores. Profesor de tiempo completo y Coordinador del Posgrado en Computación y Electrónica de la Universidad Autónoma de Tlaxcala. Es Doctor en Informática por Universidad de Grenoble, Francia, Doctor en Ciencias de la Computación Cum Laude por la Fundación Universidad de las Américas-Puebla, México y PosDoc obtenido en el French Mexican Laboratory of Informatics and Automatic Control (LAFMIA UMI-3175). Es evaluador acreditado de los Comités de Acreditación de Evaluadores del Sistema Nacional de Evaluación Científica y Tecnológica y miembro de la Red de TIC’s del CONACyT. Ha publicado artículos arbitrados a nivel nacional e internacional en el área de cómputo en la nube, sistemas transaccionales y computo orientado a servicios.

Genoveva Vargas-Solar, French Council of Scientific Research, LIG-LAFMIA. 681 rue de la Passerelle BP 72, 38402. Saint Martin d’Heres, Francia

Genoveva Vargas-Solar. She is senior researcher of the French Council of Scientific Research (CNRS) and deputy-director the Franco-Mexican Laboratory of Informatics and Automatic Control (LAFMIA, UMI 3175). She is also member of the HADAS group of the Informatics Laboratory of Grenoble (France) and invited research fellow of the Data and Knowledge Management Group of the Research Centre of Information and Automation Technologies at Universidad de las Américas Puebla. She was elected president of the Mexican Society of Computer Science (2007-2009). She is senior member of the scientific council of the Mexican Network on Information and Communication Technologies which is a national program of the Mexican Council of Science and Technology

Carolina Rocío Sánchez Pérez, Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México

Carolina Rocío Sánchez Pérez. Es profesora de tiempo completo de la Licenciatura en Ingeniería en Computación de la Universidad Autónoma de Tlaxcala. Es Maestra en Ciencias de la Computación por Instituto Nacional de Astrofísica, Optica y Electrónica, México con Perfil PROMEP de la SEP. Ha publicado artículos arbitrados a nivel nacional e internacional.

Marva Angélica Mora Lumbreras, Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México

Marva Angélica Mora Lumbreras. Profesora de tiempo completo del Posgrado en Computación y Electrónica de la Universidad Autónoma de Tlaxcala. Es Doctora en Ciencias de la Computación Magna Cum Laude por la Fundación Universidad de las Américas-Puebla, México con Perfil PROMEP de la SEP y miembro de la Red de TIC’s del CONACyT y Editora de la Revista Iztatl Computación de la FCBIyT-UATx. Ha publicado artículos arbitrados a nivel nacional e internacional en el área de graficación y realidad virtual.

Citas

Gantz, J. y Reinsel, D. The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East, EMC, Diciembre 2012, Disponible en: https://www.emc.com/collateral/analyst-reports/idcthe-digital-universe-in-2020.pdf

Goicochea, A. Big Data es la necesidad, In memory computing es la solución (volumen y variedad con velocidad). Tecnologías de la Información y Estrategia. Blog personal, Noviembre de 2013. Disponible en: http://anibalgoicochea.com/2012/11/07/big-data-esla-necesidad-in-memorycomputing-es-la-solucion/

Lin, J. y Dyer, C. Data-Intensive Text Processing. Manuscrito preparado, University of Maryland, College Park, abril de 2010.

Lam, C. Hadoop in Action. Stanford: Manning Publications, 2010.

Blanas, S., Patel, J.M., Ercegovac, V., Rao, J., Shekita, E.J., y Tian, Y. A comparison of join algorithms for log processing in MapReduce. Proceedings of the 2010 international conference on Management of data.

Manning, Ch. D., Raghavan, P. y Schütze, H. An Introduction to Information Retrieval, Cambridge: Cambridge University Press, 2009.

Descargas

Publicado

30-06-2015

Cómo citar

Escalante Fol, N. I., Portilla Flores, A., Vargas-Solar, G., Sánchez Pérez, C. R., & Mora Lumbreras, . M. A. (2015). Procesamiento de big data en Hadoop usando el repartition join . Programación matemática Y Software, 7(2), 52–58. https://doi.org/10.30973/progmat/2015.7.2/8

Número

Sección

Artículos