中文短句相似度匹配方法?

发布网友 发布时间:2022-04-23 10:14

我来回答

9个回答

热心网友 时间:2022-04-19 04:20

一、原始落后的VSM
网上搜索关键词“短文本 相似度”,出来的结果基本上都是以BOW(Bag of words)的VSM方案,大致流程如下:

分词 —> 提取关键词 —> 计算tf或if-idf,以向量的形式替换原文本 —> 文本相似度的问题转变为计算向量相似度
一开始这样的一个思路,很清晰明了,而且网上相应的资料也很多,然后就开搞吧。

1、把所有短文本去掉标点符号,用jieba分词分好词,去除停用词,得到分好的文本;

2、按一定规则抽取特征词汇,作为后期向量的每一维;

3、用sklearn库中的原生方法CountVectorizer、TfidfVectorizer等得到矩阵;

4、每个短文本计算对应得到的向量,采用K-Means聚类的方法进行非监督学习。

文本分类的大致思路基本上就如上所述,具体的细节调整就视实际情况而定。然而,想法是美好的,现实是残酷的,全部分好词的文本,抽取的特征词较多,即向量的维度较大,且向量是稀疏的,在使用K-Means时,会出现有个别cluster下的文本数量特别大;

热心网友 时间:2022-04-19 05:38

描写春节的词语。
喜气洋洋,万事如意。恭喜发财。一帆风顺。

热心网友 时间:2022-04-19 07:13

中国电锯相似的匹配方法,按照上面一个设定直接去做,我觉

热心网友 时间:2022-04-19 09:04

中文短句相似度匹配方法,他的匹配方法是很多的

热心网友 时间:2022-04-19 11:12

中文短句相似度的匹配方法有很多。

热心网友 时间:2022-04-19 13:37

看完短句相似就匹配方法,这个得去问语文老师或者上哪个博士去问一问?

热心网友 时间:2022-04-19 16:18

中文短句的相似度的匹配的句子的,分析思考的句子的。

热心网友 时间:2022-04-19 19:16

相似度匹配的方法,你可以用中国知网来查询查询这个相似程度。

热心网友 时间:2022-04-19 22:31

那他们的匹配方法我想大概是可以认真的去读一下,其实匹配也就是意思相。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com