Evaluando la similitud semántica en textos cortos usando el contexto relacionado y DISCO

Autores/as

  • Franco Rojas-López Universidad Politécnica Metropolitana de Puebla
  • Mariano Larios Gómez Benemérita Universidad Autónoma de Puebla
  • Adriana Hernández-Beristain Benemérita Universidad Autónoma de Puebla
  • Jorge Jaime Juárez-Lucero Universidad Politécnica Metropolitana de Puebla

DOI:

https://doi.org/10.30973/progmat/2019.11.1/1

Palabras clave:

Contexto relacionado, información mutua, hipótesis distribucional, procesamiento de lenguaje natural

Resumen

Medir el grado de similitud semántica entre textos o conceptos es una tarea desafiante e importante en varias aplicaciones de Recuperación de Información y Procesamiento del Lenguaje Natural. Dada la importancia de la tarea, en este artículo se propone un método para medir la similitud semántica entre un par de oraciones usando la técnica “Hipótesis Distribucional”, para recuperar desde la Web, contextos relacionados con el conjunto de entrenamiento. Los contextos relacionados son un componente importante para calcular la similitud semántica entre pares de oraciones. En el artículo se presentan los resultados obtenidos desde un conjunto de entrenamiento estándar. La evaluación empírica muestra que el enfoque propuesto supera el baseline, así como algunos métodos propuestos previamente en el conjunto de entrenamiento estándar.

Biografía del autor/a

Franco Rojas-López, Universidad Politécnica Metropolitana de Puebla

Es profesor de tiempo completo en la universidad Politécnica Metropolitana de Puebla. Recibió el grado de maestro en ciencias de la computación en la Benemérita Universidad Autónoma de Puebla, posteriormente el grado de doctor en el Centro de Investigación y de Estudios Avanzados del Instituto Politécnico Nacional. Sus áreas de interés son representación y manejo de conocimiento, sistemas de recomendación y chatbots.

Mariano Larios Gómez, Benemérita Universidad Autónoma de Puebla

Profesor investigador tiempo completo en la Benemérita Universidad Autónoma de Puebla (BUAP). Recibió su grado de licenciatura y maestría en ciencias de la computación en la facultad de ciencias dela computación (BUAP) 1997-2001 y 2001-2003 respectivamente. Estudios de doctorado en sistemas en transportes inteligentes en Compiègne-Francia 2013. Desde 2004 es profesor en la facultad de ciencias de la computación (BUAP). Su interés en la investigación incluye tópicos en cómputo distribuido, blockchain, cómputo de alto rendimiento, sistemas de tiempo real y computo pervasivos. Actualmente colabora en proyectos de investigación sobre supercómputo en el laboratorio nacional del suroeste LNS.

Adriana Hernández-Beristain, Benemérita Universidad Autónoma de Puebla

Realizó sus estudios de Licenciatura en el IT de Tehuacán (1994-1999) en la carrera de Ing. en Sistemas Computacionales, posteriormente realizó sus estudios de maestría en la Facultad de Ciencias de la Computación de la Benemérita Universidad Autónoma de Puebla (2001-2004). Sus intereses de investigación son sobre los sistemas de Información y Comunicación, Sistemas Distribuidos; Seguridad de redes y VoIp. Ha participado en varios proyectos de investigación, entre los que destaca: “Entorno para la comunicación efectiva por Telepresencia entre las dependencias de H. Ayuntamiento de Puebla” en donde desarrollo un entorno de comunicación utilizando la innovación tecnológica y la TelePresencia basada en CISCO. Actualmente labora como Profesor Investigador TC en la BUAP, imparte cursos en el área de redes de computadoras y de certificación en CCNA de CISCO, ha publicado varios artículos en revistas y memorias en extenso. 

Jorge Jaime Juárez-Lucero, Universidad Politécnica Metropolitana de Puebla

Docente investigador de la Universidad Politécnica Metropolitana de Puebla. Estudió las licenciaturas en Ciencias de la Computación y Biología en la Benemérita Universidad Autónoma de Puebla, la Maestría en Optoelectrónica en la BUAP y realizó estudios de doctorado en Ciencias Biomédicas básicas en la Universidad Autónoma de San Luis Potosí, durante su formación científica se ha interesado, entre otras cosas, por relacionar la Biomedicina con las Ciencias Computacionales.

Citas

Bobadilla, J., Ortega, F., Hernando, A. Recommender Systems Survey. KnowledgeBased Systems. 2013, 46, 109-132. https://doi.org/10.1016/j.knosys.2013.03.012

Qazanfari, K., Youssef, A., Keane, Kai. Nelson, J, A novel recommendation system to match college events and groups to students. Computing Research Repository. 2017, 246, 1- 10. https://doi.org/10.1088/1757-899X/261/1/012017

Zhang, S., Yao, L., Sun, A., Tay, Y. Deep Learning based Recommender System: A Survey and New Perspectives. Computing Research Repository. 2017, 1-35. https://doi.org/10.1145/3285029

López, I., Maritxalar, M., Agirre, A., Rigau, G., Uria, L., Agirre, E. Interpretable Semantic Textual Similarity: Finding and explaining differences between sentences. Computing Research Repository. 2016, 119, 186–199. https://doi.org/10.1016/j.knosys.2016.12.013

Nielsen, R., Ward, W., Martin, J. Recognizing Entailment in Intelligent Tutoring Systems. Natural Language Engineering. 2009, 15, 479-501, 2009. https://doi.org/10.1017/S135132490999012X

Hliaoutakis, A., Varelas, G., Voutsakis, E., Petrakis, E., Milios, E. Information retrieval by semantic similarity. International journal on semantic Web and information systems (IJSWIS. 2006, 2(3), 55-73. https://doi.org/10.4018/jswis.2006070104

Curran, J. R. From distributional to semantic similarity, University of Edinburg. College of Science and Engineering. School of Informatics. 2004.

Lingling, M., Runqing, H., Junzhong, G. A review of semantic similarity measures in wordnet, International Journal of Hybrid Information Technology. 2013, 6(1), 1-12

Kohail, S., Rekaby, A., Biemann, C. STS-UHH at SemEval-2017 Task 1: Scoring Semantic Textual Similarity Using Supervised and Unsupervised Ensamble. Proceedings of the 11th International Workshop on Semantic Evaluation. 2017, 175-179. http://dx.doi.org/10.18653/v1/S17-2025

Spiewak, M., Sobecki, P., Karas, D. OPI-JSA at SemEval-2017 Task 1: Application of Ensemble learning for computing semantic textual similarity. Proceedings of the 11th International Workshop on Semantic Evaluation. 2017, 139-143. http://dx.doi.org/10.18653/v1/S17-2018

Kiros, R., Zhu, Y., Salakhutdinov, R. Zemel, R. Antonio Torralba, Raquel Urtasun, and Sanja Fidler. 2015. Skip-thought vectors. In Proceedings of the 28th International Conference on Neural Information Processing Systems. 2015, 2, 3294-3302.

Bollegala, D., Matsuo, Y., Ishizuka, M. A web search engine-based approach to measure semantic similarity between words. IEEE Transactions on knowledge and Data Engineering. 2011, 23(7), 977-990. https://doi.org/10.1109/TKDE.2010.172

Mohebbi, M., Talebpour, A. Texts Semantic Similarity Detection Based Graph Approach. The International Arab Journal of Information Technology. 2016, 13(2), 246-251.

Pedersen T., Patwardhan, S., Michelizzi J. WordNet::Similarity: Measuring the Relatedness of Concepts. in Proceedings of the 19th National Conference on Artificial Intelligence, 2004, 1024- 1025.

Bill, D., Chris, D., Chris, B. Unsupervised Construction of Large Paraphrase Corpora: Exploiting Massively Parallel News Sources. In Proceedings of the 20th International Conference on Computational Linguistics. 2004.

López, I., Sosa-Sosa, V., Rojas, F., Tello, E. Improving selection of synsets from WordNet for domain-specific Word sense disambiguation. Computer Speech & Language. 2017, 128-145. https://doi.org/10.1016/j.csl.2016.06.003

Kenneth, C., Hanks, P. Word Association Norms, Mutual Information, and Lexicography. Computational Linguistics. 1990, 16(1), 22-29. https://doi.org/10.3115/981623.981633

Tom, K., de Rijke, Maarten, de R. Short Text Similarity with Word Embeddings. Conference on Information and Knowledge Management. 2015, 1411-1415. https://doi.org/10.1145/2806416.2806475

Landauer, T., and Dumais, S. A solution to Plato´s problem: The latent semantic analysis theory of acquisition, induction and representation of knowledge, Psychological review, p. 211, 1997. https://psycnet.apa.org/doi/10.1037/0033-295X.104.2.211

Descargas

Publicado

28-02-2019

Cómo citar

Rojas-López, F., Larios Gómez, M., Hernández-Beristain, A., & Juárez-Lucero, J. J. (2019). Evaluando la similitud semántica en textos cortos usando el contexto relacionado y DISCO. Programación matemática Y Software, 11(1), 1–8. https://doi.org/10.30973/progmat/2019.11.1/1

Número

Sección

Artículos

Artículos más leídos del mismo autor/a