如何计算两个文档的相似度

发布网友发布时间：2022-04-20 03:57

共2个回答

热心网友时间：2022-04-14 19:31

如何计算两个文档的相似度
winmerge用这个
操作步骤为：
FC——文件比较命令
1．功能：比较文件的异同，并列出差异处。
2．类型：外部命令
3．格式：FC[盘符：][路径名]〈文件名〉[盘符：][路径名][文件名][/A][/B][/C][/N]
4．使用说明：
（1）选用/A参数，为ASCII码比较模式；
（2）选用/B参数，为二进制比较模式；
（3）选用/C参数，将大小写字符看成是相同的字符。
（4）选用/N参数，在ASCII码比较方式下，显示相异处的行号。

热心网友时间：2022-04-14 20:49

当前课程图谱中所有课程之间的相似度全部基于gensim计算，自己写的调用代码不到一百行，topic模型采用 LSI (Latent semantic indexing, 中文译为浅层语义索引），LSI和 LSA （Latent semantic analysis，中文译为浅层语义分析）
1） TF-IDF，余弦相似度，向量空间模型
这几个知识点在信息检索中是最基本的，入门级的参考资料可以看看吴军老师在《数学之美》中第11章“如何确定网页和查询的相关性”和第14章“余弦定理和新闻的分类”中的通俗介绍或者阮一峰老师写的两篇科普文章“ TF-IDF与余弦相似性的应用（一）：自动提取关键词 ”和“ TF-IDF与余弦相似性的应用（二）：找出相似文章 ”。

专业一点的参考资料推荐王斌老师在中科院所授的研究生课程“ 现代信息检索(Modern Information Retrieval) ”的课件，其中“第六讲向量模型及权重计算”和该主题相关。或者更详细的可参考王斌老师翻译的经典的《信息检索导论》第6章或者其它相关的信息检索书籍。

2）SVD和LSI
想了解LSI一定要知道SVD（ Singular value decomposition , 中文译为奇异值分解），而SVD的作用不仅仅局限于LSI，在很多地方都能见到其身影，SVD自诞生之后，其应用领域不断被发掘，可以不夸张的说如果学了线性代数而不明白SVD，基本上等于没学。想快速了解或复习SVD的同学可以参考这个英文tutorail: Singular Value Decomposition Tutorial , 当然更推荐MIT教授 Gilbert Strang的线性代数公开课和相关书籍，你可以直接在网易公开课看相关章节的视频。

关于LSI，简单说两句，一种情况下我们考察两个词的关系常常考虑的是它们在一个窗口长度（譬如一句话，一段话或一个文章）里的共现情况，在语料库语言学里有个专业点叫法叫 Collocation ，中文译文搭配或词语搭配。而LSI所做的是挖掘如下这层词语关系： A和C共现，B和C共现，目标是找到A和B的隐含关系，学术一点的叫法是second-order co-ocurrence 。

声明：本网页内容为用户发布，旨在传播知识，不代表本网认同其观点，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。
E-MAIL:11247931@qq.com