Implementig the repartition join for processing big data using Hadoop

Authors

  • Néstor Iván Escalante Fol Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México
  • Alberto Portilla Flores Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México
  • Genoveva Vargas-Solar French Council of Scientific Research, LIG-LAFMIA. 681 rue de la Passerelle BP 72, 38402. Saint Martin d’Heres, Francia
  • Carolina Rocío Sánchez Pérez Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México
  • Mora Lumbreras Mora Lumbreras Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México

DOI:

https://doi.org/10.30973/progmat/2015.7.2/8

Keywords:

big data, Map Reduce, Hadoop, join

Abstract

The main objective of this work concerns the processing of big data. Therefore repartition implementation algorithm is proposed to perform the join operation in a large data set, applying under the Map Reduce programming model. Implementing a join in the context of big data is complex and costly, therefore we use Hadoop platform, which provides the necessary tool for managing large volumes of information utilities to analyze the behavior of the algorithm and to evaluate its performance. The algorithm was tested in a cluster consisting of 3 nodes, analyzing the execution results for later use with real data.

Author Biographies

Néstor Iván Escalante Fol, Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México

Néstor Iván Escalante Fol. Egresado de la Licenciatura en Ingeniería en Computación de la Universidad Autónoma de Tlaxcala.

Alberto Portilla Flores, Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México

Alberto Portilla Flores. Profesor de tiempo completo y Coordinador del Posgrado en Computación y Electrónica de la Universidad Autónoma de Tlaxcala. Es Doctor en Informática por Universidad de Grenoble, Francia, Doctor en Ciencias de la Computación Cum Laude por la Fundación Universidad de las Américas-Puebla, México y PosDoc obtenido en el French Mexican Laboratory of Informatics and Automatic Control (LAFMIA UMI-3175). Es evaluador acreditado de los Comités de Acreditación de Evaluadores del Sistema Nacional de Evaluación Científica y Tecnológica y miembro de la Red de TIC’s del CONACyT. Ha publicado artículos arbitrados a nivel nacional e internacional en el área de cómputo en la nube, sistemas transaccionales y computo orientado a servicios.

Genoveva Vargas-Solar, French Council of Scientific Research, LIG-LAFMIA. 681 rue de la Passerelle BP 72, 38402. Saint Martin d’Heres, Francia

Genoveva Vargas-Solar. She is senior researcher of the French Council of Scientific Research (CNRS) and deputy-director the Franco-Mexican Laboratory of Informatics and Automatic Control (LAFMIA, UMI 3175). She is also member of the HADAS group of the Informatics Laboratory of Grenoble (France) and invited research fellow of the Data and Knowledge Management Group of the Research Centre of Information and Automation Technologies at Universidad de las Américas Puebla. She was elected president of the Mexican Society of Computer Science (2007-2009). She is senior member of the scientific council of the Mexican Network on Information and Communication Technologies which is a national program of the Mexican Council of Science and Technology

Carolina Rocío Sánchez Pérez, Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México

Carolina Rocío Sánchez Pérez. Es profesora de tiempo completo de la Licenciatura en Ingeniería en Computación de la Universidad Autónoma de Tlaxcala. Es Maestra en Ciencias de la Computación por Instituto Nacional de Astrofísica, Optica y Electrónica, México con Perfil PROMEP de la SEP. Ha publicado artículos arbitrados a nivel nacional e internacional.

Mora Lumbreras Mora Lumbreras, Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México

Marva Angélica Mora Lumbreras. Profesora de tiempo completo del Posgrado en Computación y Electrónica de la Universidad Autónoma de Tlaxcala. Es Doctora en Ciencias de la Computación Magna Cum Laude por la Fundación Universidad de las Américas-Puebla, México con Perfil PROMEP de la SEP y miembro de la Red de TIC’s del CONACyT y Editora de la Revista Iztatl Computación de la FCBIyT-UATx. Ha publicado artículos arbitrados a nivel nacional e internacional en el área de graficación y realidad virtual.

References

Gantz, J. y Reinsel, D. The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East, EMC, Diciembre 2012, Disponible en: https://www.emc.com/collateral/analyst-reports/idcthe-digital-universe-in-2020.pdf

Goicochea, A. Big Data es la necesidad, In memory computing es la solución (volumen y variedad con velocidad). Tecnologías de la Información y Estrategia. Blog personal, Noviembre de 2013. Disponible en: http://anibalgoicochea.com/2012/11/07/big-data-esla-necesidad-in-memorycomputing-es-la-solucion/

Lin, J. y Dyer, C. Data-Intensive Text Processing. Manuscrito preparado, University of Maryland, College Park, abril de 2010.

Lam, C. Hadoop in Action. Stanford: Manning Publications, 2010.

Blanas, S., Patel, J.M., Ercegovac, V., Rao, J., Shekita, E.J., y Tian, Y. A comparison of join algorithms for log processing in MapReduce. Proceedings of the 2010 international conference on Management of data.

Manning, Ch. D., Raghavan, P. y Schütze, H. An Introduction to Information Retrieval, Cambridge: Cambridge University Press, 2009.

Published

2015-06-30

How to Cite

Escalante Fol, N. I., Portilla Flores, A., Vargas-Solar, G., Sánchez Pérez, C. R., & Mora Lumbreras, . M. A. (2015). Implementig the repartition join for processing big data using Hadoop. Programación Matemática Y Software, 7(2), 52–58. https://doi.org/10.30973/progmat/2015.7.2/8

Issue

Section

Articles