Reconocimiento de caracteres mediante OCR (Optical Character Recognition)

Autores/as

  • Gustavo Medina Ángel Centro de Investigación en Ingeniería y Ciencias Aplicadas, Universidad Autónoma del Estado de Morelos. Avenida Universidad 1001, Colonia Chamilpa, Cuernavaca, Morelos, México, C.P. 62209.
  • Yessica Yazmin Calderón Segura Centro de Investigación en Ingeniería y Ciencias Aplicadas, Universidad Autónoma del Estado de Morelos. Avenida Universidad 1001, Colonia Chamilpa, Cuernavaca, Morelos, México, C.P. 62209
  • Gennadiy Burlak Centro de Investigación en Ingeniería y Ciencias Aplicadas, Universidad Autónoma del Estado de Morelos. Avenida Universidad 1001, Colonia Chamilpa, Cuernavaca, Morelos, México, C.P. 62209

DOI:

https://doi.org/10.30973/progmat/2018.10.1/6

Palabras clave:

pixeles, matriz, iteración, normalización

Resumen

En este trabajo, se implementaron técnicas para el reconocimiento digital de caracteres, utilizando la técnica OCR (Reconocimiento Óptico de Caracteres), que implementa métodos como binarización, etiquetado, esqueletización y proyección de trazas en las imágenes, para reconocer caracteres que optimizan los procesos en la abstracción y digitalización de libros, revistas u otras fuentes de información que pueden digitalizarse y luego manipularse en su formato digital.

Biografía del autor/a

Gustavo Medina Ángel, Centro de Investigación en Ingeniería y Ciencias Aplicadas, Universidad Autónoma del Estado de Morelos. Avenida Universidad 1001, Colonia Chamilpa, Cuernavaca, Morelos, México, C.P. 62209.

En 2008 estudio la Ingeniería en Sistemas Computacionales egresado de Instituto Tecnológico de Zacatepec (ITZ), en el 2016 se tituló como Maestro en Ingeniería y Ciencias Aplicadas de la Universidad Autónoma del Estado de Morelos (AUEM), actualmente es profesor de la Facultad de Contaduría, Administración e Informática asi como en la escuela de Estudios Superiores de Mazatepec y es desarrollador de Software Independiente. Ha impartido talleres de programación avanzada en Java (2015), en el Centro de Educación Continua (CEC) del Instituto Politécnico Nacional (IPN), también ha impartido talleres de Programación en Arduino dentro de la UAEM y ha participado como asesor en línea para el curso de programación en Android para Docentes de Nivel Medio Superior, por medio de la SEP-eUAEM. Actualmente dirige la tesis para la obtención de la licenciatura en informática de dos asesorados.

Yessica Yazmin Calderón Segura, Centro de Investigación en Ingeniería y Ciencias Aplicadas, Universidad Autónoma del Estado de Morelos. Avenida Universidad 1001, Colonia Chamilpa, Cuernavaca, Morelos, México, C.P. 62209

En el 2009 obtuvo su título de Ingeniera en Informática en la universidad Politécnica del Estado de Morelos. Su maestra en Ingeniería y Ciencias Aplicadas en el 2011 y en el 2015 obtuvo el grado de Doctor en Ingeniería y Ciencias Aplicadas. La Dra. Yessica Yazmin Calderón Segura, actualmente trabaja como catedrática de la Facultad de Ciencias Químicas e Ingeniería, así mismo en la Facultad de Contaduría, Administración e Informática y se desempeña como ayudante de SNI III, escribiendo artículos de alto Impacto y participando en congresos Nacionales e Internacionales, con el Dr. Gennadiy Burlak del Centro de Investigación en Ingeniería y Ciencias Aplicadas. La Dra. Yessica Yazmin Calderón Segura, tiene amplios conocimientos en algoritmos, análisis de ciclos computacionales, estadística de datos, modelos de procesos de datos, nano estructuras, optimización y programación. La Dra. Yessica Yazmin Calderón Segura, termino sus estudios en el Centro de Investigación en Ingeniería y Ciencias Aplicadas con una tesis muy detallada y de excelente contenido. Con esta tesis la Doctora ha publicado 12 artículos en revistas indexadas internacionales y nacionales. Ha participado en 40 congresos Nacionales e Internacionales y cuenta con el Premio Estatal al Investigador

Gennadiy Burlak, Centro de Investigación en Ingeniería y Ciencias Aplicadas, Universidad Autónoma del Estado de Morelos. Avenida Universidad 1001, Colonia Chamilpa, Cuernavaca, Morelos, México, C.P. 62209

n 1975 estudió la licenciatura y maestría en la Universidad Nacional de Kiev (KNU), en la Facultad de Física y en el Departamento de Física Teórica. El Ph. D. (candidato en Ciencias físico-matemáticas) y el D. Sc. (doctor en Ciencias físico-matemáticas), los obtuvo también en la KNU en 1979 y 1988, respectivamente. Trabajó como catedrático del Departamento de Física Teórica. Actualmente, es Profesor-Investigador Titular “C” del Centro de Investigaciones en Ingeniería y Ciencias Aplicadas (CIICAp) de la Universidad Autónoma del Estado de Morelos (UAEM), desde 1998. El Dr. Burlak es autor y coautor de cuatro libros y 140 artículos en revistas internacionales. Ha participado en 157 ponencias en congresos nacionales e internacionales. Bajo de su dirección han graduado: 3 tesis de doctorado y 8 tesis de maestría y licenciatura. Actualmente 4 tesis de doctorado en proceso bajo de su dirección.

Citas

Oliveira, L.S., Sabourin, R., Bortolozzi, F., Suen, C.Y. A methodology for feature selection using multiobjective genetic algorithms for handwritten digit string recognition. International Journal of Pattern Recognition and Artificial Intelligence. 2003,17( 06), 903- 929. https://doi.org/10.1142/S021800140300271X

Bazzi, I., Schwartz, R., Makhoul, J. An omnifont open-vocabulary OCR system for English and Arabic. IEEE Transactions on Pattern Analysis and Machine Intelligence. 1999, 21(6), 495-504. https://doi.org/10.1109/34.771314

Bortolozzi, F., Britto Jr, A.S., Oliveira, L.S., Morita M. Automatic recognition of handwritten numerical strings: A recognition and verification strategy. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2002, 24(11), 1438-1454. https://doi.org/10.1109/TPAMI.2002.1046154

Ramírez-Ortegón, M.A., Tapia, E., Ramírez-Ramírez, L.L., Rojas,R., Cuevas, E. Transition pixel: A concept for binarization based on edge detection and gray-intensity histograms. Pattern Recognition. 2010, 43(4), 1233-1243. https://doi.org/10.1016/j.patcog.2009.11.006

Ramírez-Ortegón, M.A., Ramírez-Ramírez, L.L., Märgner,V., Messaoud, I.B., Cuevas, E., Rojas, R. An analysis of the transition proportion for binarization in handwritten historical documents. Proceedings of 8th International Conference on Document Analysis and Recognition. 2014, 17(2), 139-160. https://doi.org/10.1016/j.patcog.2014.02.003

Ramírez-Ortegón M.A., Märgner, Volker., Cuevas,E., Rojas, R. An optimization for binarization methods by removing binary artifacts. Pattern Recognition Letters. 2013, 34(11), 1299-1306. https://doi.org/10.1016/j.patrec.2013.04.007

Čisar, P., Čisar, S. M., Subošić, D., Đikanović, P., & Đukanović, S. Optimization Algorithms in Function of Binary Character Recognition. Acta Polytechnica Hungarica. 2015, 12(7), 77-87.

Yokobayashi, M., Wakahara,T. Binarization and Recognition of Degraded Characters Using a Maximum Separability Axis in Color Space and GAT Correlation. Pattern Recognition. 2006, 2, 885-888. https://doi.org/10.1109/ICPR.2006.326

Morita M., Sabourin, Robert., Bortolozzi, F., Suen, C.Y. Segmentation and recognition of handwritten dates: an HMM-MLP hybrid approach. Document Analysis and Recognition. 2003, 6(4), 248-262. https://doi.org/10.1007/s10032-003-0114-z

Yokobayashi, M., Wakahara,T. Segmentation and recognition of characters in scene images using selective binarization in color space and GAT correlation. Document Analysis and Recognition. 2005, 1,167-171. https://doi.org/10.1109/ICDAR.2005.208

Hoshen, J., R, Kopelman. Percolation and cluster distribution I: Cluster multiple labeling technique and critical concentration algorithm. Physical Review B. 1976 , 14(8), 3438-3445. https://doi.org/10.1103/PhysRevB.14.3438

Britto-Jr, A.S., Sabourin R., Bortolozzi F. The recognition of handwritten numeral strings using a two-stage HMM-based method. International Journal on Document Analysis and Recognition. 2003, 5(2-3), 2003. https://doi.org/10.1007/s10032-002-0085-5

Zhong, Y., Karu, K., & Jain, A. K. Locating text in complex color images. Pattern recognition. Pattern recognition. 1995, 28(10), 1523-1535. https://doi.org/10.1016/0031-3203(95)00030-4

Friston, K., Ashburner, J., Frith, C. D., Poline, J. B., Heather, J. D., & Frackowiak, R. S. Spatial registration and normalization of images. Human brain mapping. 2014, 3(3), 165-189. https://doi.org/10.1002/hbm.460030303

Mozaffari, S., Faez, K., Märgner, V., El-Abed, H. Lexicon reduction using dots for off-line Farsi/Arabic handwritten word recognition. Pattern Recognition Letters. 2008, 29(6), 724-734. https://doi.org/10.1016/j.patrec.2007.11.009

Lam, L., Lee, S. W., & Suen, C. Y. Hinning methodologies-a comprehensive survey. EEE Transactions on pattern analysis and machine intelligence. 2011, 14(9), 869-885. https://doi.ieeecomputersociety.org/10.1109/34.161346

Stentiford, F.W.M., & Mortimer, R.G. Some new heuristics for thinning binary handprinted characters for OCR. IEEE Transactions on Systems, Man, and Cybernetics. 1983, SMC-13(1), 81-84. https://doi.org/10.1109/TSMC.1983.6313034

Watrous, L. E., & Wheeler, Q. D. The out-group comparison method of character analysis. Systematic Biology. 1981, 30(1), 1-11. https://doi.org/10.1093/sysbio/30.1.1

Chen, J. L., & Lee, H. J. An efficient algorithm for form structure extraction using strip projection. Pattern recognition. 1998, 31(9), 1353-1368. https://doi.org/10.1016/S0031-3203(97)00156-8

Schneider, J. W., & Borlund, P. Matrix comparison, Part 1: Motivation and important issues for measuring the resemblance between proximity measures or ordination results. Journal of the Association for Information Science and Technology. 2007, 58(11), 1586-1595. https://doi.org/10.1002/asi.20643

S.F.J. Ceballos. MICROSOFT C#. LENGUAJE Y APLICACIONES. 2nd ed.: RA-MA EDITORIAL, 2007.

Elagouni, K., Garcia, C., Mamalet, F., & Sébillot, P. Text recognition in multimedia documents: a study of two neural-based ocrs using and avoiding character segmentation. Journal on Document Analysis and Recognition. 2014, 17(1), 19-31. https://doi.org/10.1007/s10032-013-0202-7

Li, H., Doermann, D., & Kia, O. Automatic text detection and tracking in digital video. IEEE transactions on image processing. 2000, 9(1), 147-156. https://doi.org/10.1109/83.817607

Descargas

Publicado

28-02-2018

Cómo citar

Medina Ángel, G., Calderón Segura, Y. Y., & Burlak, G. (2018). Reconocimiento de caracteres mediante OCR (Optical Character Recognition). Programación matemática Y Software, 10(1), 44–56. https://doi.org/10.30973/progmat/2018.10.1/6

Número

Sección

Artículos

Artículos más leídos del mismo autor/a

1 2 > >>