Proposición de un modelo para la acentuación automática de palabras ambiguas del español, utilizando etiquetado de texto

Autores/as

  • Raymundo Montiel Lira División de Estudios de Posgrado e Investigación, Instituto Tecnológico de Apizaco, MÉXICO
  • Blanca Estela Pedroza Méndez División de Estudios de Posgrado e Investigación, Instituto Tecnológico de Apizaco, MÉXICO
  • María Guadalupe Medina Barrera División de Estudios de Posgrado e Investigación, Instituto Tecnológico de Apizaco, MÉXICO
  • Carlos Pérez Corona División de Estudios de Posgrado e Investigación, Instituto Tecnológico de Apizaco, MÉXICO

DOI:

https://doi.org/10.30973/progmat/2010.2.1/3

Palabras clave:

desambiguación del sentido de la palabra (DSA)

Resumen

La acentuación de palabras cuando se escribe un texto en español es un problema de ambigüedad, debido a que muchas palabras llevan acento o no dependiendo del contexto de la frase. El problema de la ambigüedad está relacionado con la asignación de etiquetas o categorías gramaticales a las palabras dentro de una frase, es decir, cuando se indica si se trata de un verbo, un sustantivo, etcétera. En el presente artículo se propone un modelo que ayuda a determinar en forma automática si una palabra con acento diacrítico debe llevar o no acento ortográfico, con base en la asignación de etiquetas y mediante la aplicación de métodos híbridos —algoritmos supervisado y no supervisado. Posteriormente, el método se aplica en el diseño de un programa de cómputo cuya función es de apoyo en la enseñanza de las reglas de acentuación y con el cual se realiza la acentuación automática de palabras ambiguas. Este método podría ser una herramienta en un procesador de palabras.

Biografía del autor/a

Raymundo Montiel Lira, División de Estudios de Posgrado e Investigación, Instituto Tecnológico de Apizaco, MÉXICO

M.C. Raymundo Montiel Lira. Obtuvo el grado de Licenciado en Informática en el año 2006 en el Instituto Tecnológico de Apizaco, Tlaxcala y el de Maestro en Sistemas Computacionales en el año 2009 en el mismo instituto, actualmente es docente e investigador en el Instituto Tecnológico Superior de San Martín Texmelucan, Puebla. Su área de investigación es Procesamiento de Lenguaje Natural.

Blanca Estela Pedroza Méndez, División de Estudios de Posgrado e Investigación, Instituto Tecnológico de Apizaco, MÉXICO

M.C. Blanca Estela Pedroza Méndez. Estudió la licenciatura en Matemáticas Aplicadas en la Universidad Autónoma de Tlaxcala. Posteriormente se graduó como Maestro en Ciencias Computacionales en la Benemérita Universidad Autónoma de Puebla. Es profesora de tiempo completo de la División de Estudios de Posgrado e Investigación del Instituto Tecnológico de Apizaco. Actualmente se encuentra desarrollando investigaciones en el área de Procesamiento de Lenguaje Natural.

María Guadalupe Medina Barrera, División de Estudios de Posgrado e Investigación, Instituto Tecnológico de Apizaco, MÉXICO

M. en C. María Guadalupe Medina Barrera. Estudió la Maestría en Ciencias en Ciencias Computacionales en el área de Sistemas Basados en Conocimiento, por el Centro Nacional de Investigación y Desarrollo Tecnológico (cenidet). Sus áreas de interés son: Visión Artificial, Procesamiento Digital de Imágenes, Reconomiento de Patrones, Graficación y Animación Digital. Actualmente es Jefa de la División de Estudios de Posgrado e Investigación del Instituto Tecnológico de Apizaco, donde también es docente, impartiendo cátedra a nivel Licenciatura y Posgrado desde el 2002, siendo directora de tesis y revisora de diversos proyectos de investigación y desarrollo tecnológico.

Carlos Pérez Corona, División de Estudios de Posgrado e Investigación, Instituto Tecnológico de Apizaco, MÉXICO

M.C. Carlos Pérez Corona. Profesor- Investigador en la facultad de Ciencias Básicas, Ingeniería y Tecnología de la Universidad Autónoma de Tlaxcala. Profesor de Tiempo Parcial de la División de Estudios de Posgrado e Investigación del Instituto Tecnológico de Apizaco. Estudió la Licenciatura en Informática en el Instituto Tecnológico de Apizaco (1992). Tiene una especialidad en Simulación y Control de Procesos de Ingeniería Química, en la Facultad de Ciencias Básicas, Ingeniería y Tecnología de la Universidad Autónoma de Tlaxcala(1995) y una Maestría en Inteligencia Artificial, en conjunto LANIA- Universidad Veracruzana (1999). Sus áreas de Interés son: Redes Neuronales, Redes Bayesianas, Minería de Datos, Sistemas Distribuidos, Sistemas Multiagentes y Redes de Computadoras.

Citas

Pascual, F., Domine Microsoft© Office XP Profesional, versión 2002, edición especial, Alfaomega, México, 2002.

Yarowsky, D., “Decision List for Lexical Ambiguity Resolution: Application to Accent Restoration in Spanish and French”, en Proceeding of the XXXII Annual Meeting of the Association for Computational Linguistics, 1994, pp. 88-95.

Perea, J., Etiquetado de textos y su aplicación a la traducción, University of Granada (investigación inédita), 2005.

Stevenson, M. y Y. Wilks, “Combining Independent Knowledge Sources for Word Sense Disambiguation”, en R. Mitkov (ed.), Recent Advances in Natural Language Processing, John Benjamins Publisher, 2000. https://doi.org/10.1075/cilt.189.14wil

Dempster A., N. Laird et al., “Maximum Likelihood from Incomplete Data Via the EM Algorithm”, Journal of Royal Statistical Society (Series B, Metodological), vol. 39, núm. 1, 1977, pp. 1-38. https://www.jstor.org/stable/2984875

Baum, L., “Statistical Inference for Probabilistic Functions Finite State Markov Chains”, Annual Mathematic Statistical, vol. 37, 1966, pp. 1554-1563. https://www.jstor.org/stable/2238772

Yarowsky, D., “A Comparison of Corpus- Based Techniques for Restoring Accents in Spanish and French Text”, Proceedings of the II Annual Wordshop on Very Large Text Corpora, Kyoto, 1994. https://doi.org/10.1007/978-94-017-2390-9_7

Real Academia Española, Banco de datos (CREA). Corpus de referencia del español actual, en Internet (http://www.rae.es), página consultada el 29 de abril de 2009.

Rabiner, L. R., “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, IEEE, vol. 77, núm. 2, 1989, pp. 257-286.

Wagacha, P., G. De Pauw et al., “A Grapheme-Based Approach for Accent Restoration in Gikuyu”, en Proceedings of the V International Conference on Language Resources and Evaluation, 2006, pp. 1937-1940.

Bobiceva, V., “O altã metodã de restabilire a semnelor diacritice”, en I. Pistol, D. Cristea y D. Tufiş (eds.), Resurse Lingvistice şi Instrumente pentru Prelucrarea Limbii Române, 2008, pp. 179-188.

De Pauw, G., P. W. Wagacha y De Schryver, G. M., “Automatic Diacritic Restoration for Resource-Scarce Language”, en V. Matousek y P. Mautner (eds.), TSD 2007, LNAI 4629, 2007, pp. 170-179. https://doi.org/10.1007/978-3-540-74628-7_24

Descargas

Publicado

30-06-2010

Cómo citar

Montiel Lira, R., Pedroza Méndez, B. E., Medina Barrera, M. G., & Pérez Corona, C. (2010). Proposición de un modelo para la acentuación automática de palabras ambiguas del español, utilizando etiquetado de texto. Programación matemática Y Software, 2(1), 32–43. https://doi.org/10.30973/progmat/2010.2.1/3

Número

Sección

Artículos

Artículos más leídos del mismo autor/a