Evaluating semantic similarity in short texts using related context and DISCO

Authors

  • Franco Rojas-López Universidad Politécnica Metropolitana de Puebla
  • Mariano Larios Gómez Benemérita Universidad Autónoma de Puebla
  • Adriana Hernández-Beristain Benemérita Universidad Autónoma de Puebla
  • Jorge Jaime Juárez-Lucero Universidad Politécnica Metropolitana de Puebla

DOI:

https://doi.org/10.30973/progmat/2019.11.1/1

Keywords:

distributional hypothesis, mutual information, natural language processing, related context, semantic similarity

Abstract

Measuring the degree of semantic similarity between texts or concepts is a challenge task and important in several applications in Information Retrieval and Natural Language Processing. Given the importance of the task, a method is proposed to measure the semantic similarity between a pair of sentences using the technique Distributional Hypothesis to extract from the web related contexts to the training set. The related contexts are an important component to calculate the semantic similarity between pairs of sentences. The article presents the results obtained from a standard training set. The empirical evaluation shows that the proposed approach exceeds the baseline, as well as some methods previously proposed in the standard training set.

Author Biographies

Franco Rojas-López, Universidad Politécnica Metropolitana de Puebla

Es profesor de tiempo completo en la universidad Politécnica Metropolitana de Puebla. Recibió el grado de maestro en ciencias de la computación en la Benemérita Universidad Autónoma de Puebla, posteriormente el grado de doctor en el Centro de Investigación y de Estudios Avanzados del Instituto Politécnico Nacional. Sus áreas de interés son representación y manejo de conocimiento, sistemas de recomendación y chatbots.

Mariano Larios Gómez, Benemérita Universidad Autónoma de Puebla

Profesor investigador tiempo completo en la Benemérita Universidad Autónoma de Puebla (BUAP). Recibió su grado de licenciatura y maestría en ciencias de la computación en la facultad de ciencias dela computación (BUAP) 1997-2001 y 2001-2003 respectivamente. Estudios de doctorado en sistemas en transportes inteligentes en Compiègne-Francia 2013. Desde 2004 es profesor en la facultad de ciencias de la computación (BUAP). Su interés en la investigación incluye tópicos en cómputo distribuido, blockchain, cómputo de alto rendimiento, sistemas de tiempo real y computo pervasivos. Actualmente colabora en proyectos de investigación sobre supercómputo en el laboratorio nacional del suroeste LNS.

Adriana Hernández-Beristain, Benemérita Universidad Autónoma de Puebla

Realizó sus estudios de Licenciatura en el IT de Tehuacán (1994-1999) en la carrera de Ing. en Sistemas Computacionales, posteriormente realizó sus estudios de maestría en la Facultad de Ciencias de la Computación de la Benemérita Universidad Autónoma de Puebla (2001-2004). Sus intereses de investigación son sobre los sistemas de Información y Comunicación, Sistemas Distribuidos; Seguridad de redes y VoIp. Ha participado en varios proyectos de investigación, entre los que destaca: “Entorno para la comunicación efectiva por Telepresencia entre las dependencias de H. Ayuntamiento de Puebla” en donde desarrollo un entorno de comunicación utilizando la innovación tecnológica y la TelePresencia basada en CISCO. Actualmente labora como Profesor Investigador TC en la BUAP, imparte cursos en el área de redes de computadoras y de certificación en CCNA de CISCO, ha publicado varios artículos en revistas y memorias en extenso. 

Jorge Jaime Juárez-Lucero, Universidad Politécnica Metropolitana de Puebla

Docente investigador de la Universidad Politécnica Metropolitana de Puebla. Estudió las licenciaturas en Ciencias de la Computación y Biología en la Benemérita Universidad Autónoma de Puebla, la Maestría en Optoelectrónica en la BUAP y realizó estudios de doctorado en Ciencias Biomédicas básicas en la Universidad Autónoma de San Luis Potosí, durante su formación científica se ha interesado, entre otras cosas, por relacionar la Biomedicina con las Ciencias Computacionales.

References

Bobadilla, J., Ortega, F., Hernando, A. Recommender Systems Survey. KnowledgeBased Systems. 2013, 46, 109-132. https://doi.org/10.1016/j.knosys.2013.03.012

Qazanfari, K., Youssef, A., Keane, Kai. Nelson, J, A novel recommendation system to match college events and groups to students. Computing Research Repository. 2017, 246, 1- 10. https://doi.org/10.1088/1757-899X/261/1/012017

Zhang, S., Yao, L., Sun, A., Tay, Y. Deep Learning based Recommender System: A Survey and New Perspectives. Computing Research Repository. 2017, 1-35. https://doi.org/10.1145/3285029

López, I., Maritxalar, M., Agirre, A., Rigau, G., Uria, L., Agirre, E. Interpretable Semantic Textual Similarity: Finding and explaining differences between sentences. Computing Research Repository. 2016, 119, 186–199. https://doi.org/10.1016/j.knosys.2016.12.013

Nielsen, R., Ward, W., Martin, J. Recognizing Entailment in Intelligent Tutoring Systems. Natural Language Engineering. 2009, 15, 479-501, 2009. https://doi.org/10.1017/S135132490999012X

Hliaoutakis, A., Varelas, G., Voutsakis, E., Petrakis, E., Milios, E. Information retrieval by semantic similarity. International journal on semantic Web and information systems (IJSWIS. 2006, 2(3), 55-73. https://doi.org/10.4018/jswis.2006070104

Curran, J. R. From distributional to semantic similarity, University of Edinburg. College of Science and Engineering. School of Informatics. 2004.

Lingling, M., Runqing, H., Junzhong, G. A review of semantic similarity measures in wordnet, International Journal of Hybrid Information Technology. 2013, 6(1), 1-12

Kohail, S., Rekaby, A., Biemann, C. STS-UHH at SemEval-2017 Task 1: Scoring Semantic Textual Similarity Using Supervised and Unsupervised Ensamble. Proceedings of the 11th International Workshop on Semantic Evaluation. 2017, 175-179. http://dx.doi.org/10.18653/v1/S17-2025

Spiewak, M., Sobecki, P., Karas, D. OPI-JSA at SemEval-2017 Task 1: Application of Ensemble learning for computing semantic textual similarity. Proceedings of the 11th International Workshop on Semantic Evaluation. 2017, 139-143. http://dx.doi.org/10.18653/v1/S17-2018

Kiros, R., Zhu, Y., Salakhutdinov, R. Zemel, R. Antonio Torralba, Raquel Urtasun, and Sanja Fidler. 2015. Skip-thought vectors. In Proceedings of the 28th International Conference on Neural Information Processing Systems. 2015, 2, 3294-3302.

Bollegala, D., Matsuo, Y., Ishizuka, M. A web search engine-based approach to measure semantic similarity between words. IEEE Transactions on knowledge and Data Engineering. 2011, 23(7), 977-990. https://doi.org/10.1109/TKDE.2010.172

Mohebbi, M., Talebpour, A. Texts Semantic Similarity Detection Based Graph Approach. The International Arab Journal of Information Technology. 2016, 13(2), 246-251.

Pedersen T., Patwardhan, S., Michelizzi J. WordNet::Similarity: Measuring the Relatedness of Concepts. in Proceedings of the 19th National Conference on Artificial Intelligence, 2004, 1024- 1025.

Bill, D., Chris, D., Chris, B. Unsupervised Construction of Large Paraphrase Corpora: Exploiting Massively Parallel News Sources. In Proceedings of the 20th International Conference on Computational Linguistics. 2004.

López, I., Sosa-Sosa, V., Rojas, F., Tello, E. Improving selection of synsets from WordNet for domain-specific Word sense disambiguation. Computer Speech & Language. 2017, 128-145. https://doi.org/10.1016/j.csl.2016.06.003

Kenneth, C., Hanks, P. Word Association Norms, Mutual Information, and Lexicography. Computational Linguistics. 1990, 16(1), 22-29. https://doi.org/10.3115/981623.981633

Tom, K., de Rijke, Maarten, de R. Short Text Similarity with Word Embeddings. Conference on Information and Knowledge Management. 2015, 1411-1415. https://doi.org/10.1145/2806416.2806475

Landauer, T., and Dumais, S. A solution to Plato´s problem: The latent semantic analysis theory of acquisition, induction and representation of knowledge, Psychological review, p. 211, 1997. https://psycnet.apa.org/doi/10.1037/0033-295X.104.2.211

Published

2019-02-28

How to Cite

Rojas-López, F., Larios Gómez, M., Hernández-Beristain, A., & Juárez-Lucero, J. J. (2019). Evaluating semantic similarity in short texts using related context and DISCO. Programación Matemática Y Software, 11(1), 1–8. https://doi.org/10.30973/progmat/2019.11.1/1

Most read articles by the same author(s)