Implementación del clasificador naive Bayes para la acentuación automática de palabras ambiguas del español
DOI:
https://doi.org/10.30973/progmat/2014.6.1/3Palabras clave:
ambigüedad en la acentuación, clasificador naive Bayes, etiquetado de textoResumen
En este artículo se analiza uno de los problemas más representativos en el tratamiento del lenguaje español, que es el de la ambigüedad en la acentuación gráfica de las palabras. En la escritura del español se utiliza el acento gráfico o tilde, el cual determina la pronunciación o interpretación correcta de las palabras. Algunos vocablos de construcción similar pueden llevar tilde o no, o la llevan en diferente sílaba, lo cual permite que tomen diferentes sentidos en relación con su contexto, para lo cual se utiliza la llamada tilde diacrítica. La asignación correcta de la tilde diacrítica en este proyecto es abordada como un problema de clasificación, donde con base en el contexto se determina si las palabras ambiguas llevan esta marca o no. Para ello se entrenó un modelo con el clasificador naive Bayes.
Citas
Moreno Sandoval. A. (1998). Lingüstica computacional: introducción a los modelos simbólicos, estadísticos y biológicos. Madrid, Síntesis.
Simard, M. (1996). Automatic restoration of accents in french text. Industry Canada. Centre for Information Technology Innovation. Automatic Restoration.
Gelbukh. A. Galicia Haro. S. (2007). Investigaciones en análisis sintáctico para el español. Instituto Politécnico Nacional.
Traductores. Capítulo 1. Lenguajes. (Consultado junio de 2009). Disponible en: http://tikal.cifn.unam.mx/~jsegura/academic/traductores/Cap1.htm
Universitat Politècnica de Catalunya. (consultado noviembre de 2010). “Freeling Home Page”. Centro de investigación TALP, Universitat Politècnica de Catalunya. Disponible en: http://nlp.lsi.upc.edu/freeling/
Ríos Gaona, M. (2008). “Desambiguación de sentidos de palabras usando sinónimos”. ESCOM-IPN.
Garcia, V. (2010). “Distribuciones de clases no balanceadas: métricas, análisis de complejidad y algoritmos de aprendizaje”. Tesis Doctoral. Departament de llenguatges i Sistemes Informàtics, Universitat Jaume I.
Monjas Llorente, M. Á. (Consultado junio 2009). “Cómo acentuar en español”. Versión 2.01. 2 de febrero de 1998. Disponible en: http://www.dat.etsit.upm.es/~mmonjas/acentos.html
Real Academia Española. (2005). Diccionario panhispánico de dudas.
Real Academia Española. (1999). Ortografía de la Lengua Española. Edición revisada por las Academias de la lengua Española.
Sánchez, C. R. (2008). “Clasificación de entidades nombradas utilizando información global”. Tesis de Maestría, INAOE.
Refaeilzadeh, P. (2008). Cross-validation. Arizona State University
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2014 Programación Matemática y Software

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Usted es libre de:
![]() |
Compartir — compartir y redistribuir el material publicado en cualquier medio o formato. |
![]() |
Adaptar — combinar, transformar y construir sobre el material para cualquier propósito, incluso comercialmente. |
Bajo las siguientes condiciones:
![]() |
Atribución — Debe otorgar el crédito correspondiente, proporcionar un enlace a la licencia e indicar si se realizaron cambios. Puede hacerlo de cualquier manera razonable, pero de ninguna manera que sugiera que el licenciador lo respalda a usted o a su uso. |
Sin restricciones adicionales: no puede aplicar términos legales o medidas tecnológicas que restrinjan legalmente a otros a hacer cualquier cosa que permita la licencia. |