Evaluando la similitud semántica en textos cortos usando el contexto relacionado y DISCO
DOI:
https://doi.org/10.30973/progmat/2019.11.1/1Palabras clave:
Contexto relacionado, información mutua, hipótesis distribucional, procesamiento de lenguaje naturalResumen
Medir el grado de similitud semántica entre textos o conceptos es una tarea desafiante e importante en varias aplicaciones de Recuperación de Información y Procesamiento del Lenguaje Natural. Dada la importancia de la tarea, en este artículo se propone un método para medir la similitud semántica entre un par de oraciones usando la técnica “Hipótesis Distribucional”, para recuperar desde la Web, contextos relacionados con el conjunto de entrenamiento. Los contextos relacionados son un componente importante para calcular la similitud semántica entre pares de oraciones. En el artículo se presentan los resultados obtenidos desde un conjunto de entrenamiento estándar. La evaluación empírica muestra que el enfoque propuesto supera el baseline, así como algunos métodos propuestos previamente en el conjunto de entrenamiento estándar.
Citas
Bobadilla, J., Ortega, F., Hernando, A. Recommender Systems Survey. KnowledgeBased Systems. 2013, 46, 109-132. https://doi.org/10.1016/j.knosys.2013.03.012
Qazanfari, K., Youssef, A., Keane, Kai. Nelson, J, A novel recommendation system to match college events and groups to students. Computing Research Repository. 2017, 246, 1- 10. https://doi.org/10.1088/1757-899X/261/1/012017
Zhang, S., Yao, L., Sun, A., Tay, Y. Deep Learning based Recommender System: A Survey and New Perspectives. Computing Research Repository. 2017, 1-35. https://doi.org/10.1145/3285029
López, I., Maritxalar, M., Agirre, A., Rigau, G., Uria, L., Agirre, E. Interpretable Semantic Textual Similarity: Finding and explaining differences between sentences. Computing Research Repository. 2016, 119, 186–199. https://doi.org/10.1016/j.knosys.2016.12.013
Nielsen, R., Ward, W., Martin, J. Recognizing Entailment in Intelligent Tutoring Systems. Natural Language Engineering. 2009, 15, 479-501, 2009. https://doi.org/10.1017/S135132490999012X
Hliaoutakis, A., Varelas, G., Voutsakis, E., Petrakis, E., Milios, E. Information retrieval by semantic similarity. International journal on semantic Web and information systems (IJSWIS. 2006, 2(3), 55-73. https://doi.org/10.4018/jswis.2006070104
Curran, J. R. From distributional to semantic similarity, University of Edinburg. College of Science and Engineering. School of Informatics. 2004.
Lingling, M., Runqing, H., Junzhong, G. A review of semantic similarity measures in wordnet, International Journal of Hybrid Information Technology. 2013, 6(1), 1-12
Kohail, S., Rekaby, A., Biemann, C. STS-UHH at SemEval-2017 Task 1: Scoring Semantic Textual Similarity Using Supervised and Unsupervised Ensamble. Proceedings of the 11th International Workshop on Semantic Evaluation. 2017, 175-179. http://dx.doi.org/10.18653/v1/S17-2025
Spiewak, M., Sobecki, P., Karas, D. OPI-JSA at SemEval-2017 Task 1: Application of Ensemble learning for computing semantic textual similarity. Proceedings of the 11th International Workshop on Semantic Evaluation. 2017, 139-143. http://dx.doi.org/10.18653/v1/S17-2018
Kiros, R., Zhu, Y., Salakhutdinov, R. Zemel, R. Antonio Torralba, Raquel Urtasun, and Sanja Fidler. 2015. Skip-thought vectors. In Proceedings of the 28th International Conference on Neural Information Processing Systems. 2015, 2, 3294-3302.
Bollegala, D., Matsuo, Y., Ishizuka, M. A web search engine-based approach to measure semantic similarity between words. IEEE Transactions on knowledge and Data Engineering. 2011, 23(7), 977-990. https://doi.org/10.1109/TKDE.2010.172
Mohebbi, M., Talebpour, A. Texts Semantic Similarity Detection Based Graph Approach. The International Arab Journal of Information Technology. 2016, 13(2), 246-251.
Pedersen T., Patwardhan, S., Michelizzi J. WordNet::Similarity: Measuring the Relatedness of Concepts. in Proceedings of the 19th National Conference on Artificial Intelligence, 2004, 1024- 1025.
Bill, D., Chris, D., Chris, B. Unsupervised Construction of Large Paraphrase Corpora: Exploiting Massively Parallel News Sources. In Proceedings of the 20th International Conference on Computational Linguistics. 2004.
López, I., Sosa-Sosa, V., Rojas, F., Tello, E. Improving selection of synsets from WordNet for domain-specific Word sense disambiguation. Computer Speech & Language. 2017, 128-145. https://doi.org/10.1016/j.csl.2016.06.003
Kenneth, C., Hanks, P. Word Association Norms, Mutual Information, and Lexicography. Computational Linguistics. 1990, 16(1), 22-29. https://doi.org/10.3115/981623.981633
Tom, K., de Rijke, Maarten, de R. Short Text Similarity with Word Embeddings. Conference on Information and Knowledge Management. 2015, 1411-1415. https://doi.org/10.1145/2806416.2806475
Landauer, T., and Dumais, S. A solution to Plato´s problem: The latent semantic analysis theory of acquisition, induction and representation of knowledge, Psychological review, p. 211, 1997. https://psycnet.apa.org/doi/10.1037/0033-295X.104.2.211
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2019 Programación Matemática y Software
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Usted es libre de:
Compartir — compartir y redistribuir el material publicado en cualquier medio o formato. |
Adaptar — combinar, transformar y construir sobre el material para cualquier propósito, incluso comercialmente. |
Bajo las siguientes condiciones:
Atribución — Debe otorgar el crédito correspondiente, proporcionar un enlace a la licencia e indicar si se realizaron cambios. Puede hacerlo de cualquier manera razonable, pero de ninguna manera que sugiera que el licenciador lo respalda a usted o a su uso. |
Sin restricciones adicionales: no puede aplicar términos legales o medidas tecnológicas que restrinjan legalmente a otros a hacer cualquier cosa que permita la licencia. |