Implementación del clasificador naive Bayes para la acentuación automática de palabras ambiguas del español

Autores/as

  • Yesenia Nohemí González Meneses Instituto Tecnológico de Apizaco. Av. Instituto Tecnológico s/n. Apizaco, Tlaxcala, México
  • Blanca Estela Pedroza Méndez Instituto Tecnológico de Apizaco. Av. Instituto Tecnológico s/n. Apizaco, Tlaxcala, México
  • Francisco López Briones Instituto Tecnológico de Apizaco. Av. Instituto Tecnológico s/n. Apizaco, Tlaxcala, México
  • Carlos Pérez Corona Instituto Tecnológico de Apizaco. Av. Instituto Tecnológico s/n. Apizaco, Tlaxcala, México
  • José Federico Ramírez-Cruz Instituto Tecnológico de Apizaco. Av. Instituto Tecnológico s/n. Apizaco, Tlaxcala, México

DOI:

https://doi.org/10.30973/progmat/2014.6.1/3

Palabras clave:

ambigüedad en la acentuación, clasificador naive Bayes, etiquetado de texto

Resumen

En este artículo se analiza uno de los problemas más representativos en el tratamiento del lenguaje español, que es el de la ambigüedad en la acentuación gráfica de las palabras. En la escritura del español se utiliza el acento gráfico o tilde, el cual determina la pronunciación o interpretación correcta de las palabras. Algunos vocablos de construcción similar pueden llevar tilde o no, o la llevan en diferente sílaba, lo cual permite que tomen diferentes sentidos en relación con su contexto, para lo cual se utiliza la llamada tilde diacrítica. La asignación correcta de la tilde diacrítica en este proyecto es abordada como un problema de clasificación, donde con base en el contexto se determina si las palabras ambiguas llevan esta marca o no. Para ello se entrenó un modelo con el clasificador naive Bayes.

Biografía del autor/a

Yesenia Nohemí González Meneses, Instituto Tecnológico de Apizaco. Av. Instituto Tecnológico s/n. Apizaco, Tlaxcala, México

Yesenia Nohemí González Meneses es egresada de la Licenciatura en Informática del Instituto Tecnológico de Apizaco. Obtuvo el grado de Maestra en Ciencias con Especialidad en Sistemas Computacionales por la Universidad de las Américas, Puebla. Actualmente es docente investigador del Instituto Tecnológico de Apizaco. Sus áreas de investigación son procesamiento de lenguaje natural e ingeniería de software y bases de datos.

Blanca Estela Pedroza Méndez, Instituto Tecnológico de Apizaco. Av. Instituto Tecnológico s/n. Apizaco, Tlaxcala, México

Blanca Estela Pedroza Méndez es egresada de la Universidad Autónoma de Tlaxcala de la Licenciatura en Matemáticas Aplicadas (1993), obtuvo el grado de Maestra en Ciencias de la Computación por la Benemérita Universidad Autónoma de Puebla (1998). Actualmente es coordinadora de la Maestría en Sistemas Computacionales y docente investigador del Instituto Tecnológico de Apizaco. Sus áreas de investigación son procesamiento del lenguaje natural y tutoriales inteligentes.

Francisco López Briones, Instituto Tecnológico de Apizaco. Av. Instituto Tecnológico s/n. Apizaco, Tlaxcala, México

Francisco López Briones es egresado de la Licenciatura en Informática del Instituto Tecnológico de Apizaco. Obtuvo el grado de Maestro en Sistemas Computacionales por el Instituto Tecnológico de Apizaco (2011). Actualmente es docente de la Universidad Tecnológica de Tlaxcala. Su área de interés es el procesamiento de lenguaje natural.

Carlos Pérez Corona , Instituto Tecnológico de Apizaco. Av. Instituto Tecnológico s/n. Apizaco, Tlaxcala, México

Carlos Pérez Corona estudió la Licenciatura en Informática en el Instituto Tecnológico de Apizaco (1992). Tiene una especialidad en Simulación y Control de Procesos de Ingeniería Química, en la Facultad de Ciencias Básicas, Ingeniería y Tecnología de la Universidad Autónoma de Tlaxcala (1995) y una Maestría en Inteligencia Artificial, por las instituciones LANIA-Universidad Veracruzana (1999). Actualmente es profesor investigador en la facultad de Ciencias Básicas, Ingeniería y Tecnología de la Universidad Autónoma de Tlaxcala. Es profesor de tiempo parcial de la División de Estudios de Posgrado e Investigación del Instituto Tecnológico de Apizaco. Sus áreas de interés son redes neuronales, redes bayesianas, sistemas multiagentes y redes de computadoras.

José Federico Ramírez-Cruz, Instituto Tecnológico de Apizaco. Av. Instituto Tecnológico s/n. Apizaco, Tlaxcala, México

José Federico Ramírez-Cruz se graduó de Ingeniero Industrial en Electrónica en el Instituto Tecnológico de Puebla en 1993. Obtuvo el grado de Maestro en Ciencias con la especialidad de Electrónica por el Instituto Nacional de Astrofísica y Óptica en 1994 y de Doctorado en Ciencias, con especialidad en el área de Ciencias Computacionales, por el Instituto Nacional de Astrofísica y Óptica en 2003. Realizó una estancia postdoctoral en la Universidad de Texas, en El Paso, en 2011. Es docente de tiempo completo del Instituto Tecnológico de Apizaco. Sus áreas de interés son algoritmos evolutivos, procesamiento paralelo y aprendizaje automático.

Citas

Moreno Sandoval. A. (1998). Lingüstica computacional: introducción a los modelos simbólicos, estadísticos y biológicos. Madrid, Síntesis.

Simard, M. (1996). Automatic restoration of accents in french text. Industry Canada. Centre for Information Technology Innovation. Automatic Restoration.

Gelbukh. A. Galicia Haro. S. (2007). Investigaciones en análisis sintáctico para el español. Instituto Politécnico Nacional.

Traductores. Capítulo 1. Lenguajes. (Consultado junio de 2009). Disponible en: http://tikal.cifn.unam.mx/~jsegura/academic/traductores/Cap1.htm

Universitat Politècnica de Catalunya. (consultado noviembre de 2010). “Freeling Home Page”. Centro de investigación TALP, Universitat Politècnica de Catalunya. Disponible en: http://nlp.lsi.upc.edu/freeling/

Ríos Gaona, M. (2008). “Desambiguación de sentidos de palabras usando sinónimos”. ESCOM-IPN.

Garcia, V. (2010). “Distribuciones de clases no balanceadas: métricas, análisis de complejidad y algoritmos de aprendizaje”. Tesis Doctoral. Departament de llenguatges i Sistemes Informàtics, Universitat Jaume I.

Monjas Llorente, M. Á. (Consultado junio 2009). “Cómo acentuar en español”. Versión 2.01. 2 de febrero de 1998. Disponible en: http://www.dat.etsit.upm.es/~mmonjas/acentos.html

Real Academia Española. (2005). Diccionario panhispánico de dudas.

Real Academia Española. (1999). Ortografía de la Lengua Española. Edición revisada por las Academias de la lengua Española.

Sánchez, C. R. (2008). “Clasificación de entidades nombradas utilizando información global”. Tesis de Maestría, INAOE.

Refaeilzadeh, P. (2008). Cross-validation. Arizona State University

Descargas

Publicado

28-02-2014

Cómo citar

González Meneses, Y. N., Pedroza Méndez, B. E., López Briones, F., Pérez Corona , C. ., & Ramírez-Cruz, J. F. (2014). Implementación del clasificador naive Bayes para la acentuación automática de palabras ambiguas del español. Programación matemática Y Software, 6(1), 14–22. https://doi.org/10.30973/progmat/2014.6.1/3

Número

Sección

Artículos

Artículos más leídos del mismo autor/a