如何通过词向量技术来计算2个文档的相似度

发布网友

共2个回答

热心网友

最近正好组内做了一个文档相似度的分享。决定回答一发。
首先，如果不局限于NN的方法，可以用BOW+tf-idf+LSI/LDA的体系搞定，也就是俗称的01或one hot representation。
其次，如果楼主指定了必须用流行的NN，俗称word-embedding的方法，当然首推word2vec（虽然不算是DNN）。然后得到了word2vec的词向量后，可以通过简单加权/tag加权/tf-idf加权等方式得到文档向量。这算是一种方法。当然，加权之前一般应该先干掉stop word，词聚类处理一下。
还有，doc2vec中的paragraph vector也属于直接得到doc向量的方法。特点就是修改了word2vec中的cbow和skip-gram模型。依据论文《Distributed Representations of Sentences and Documents》(ICML 2014)。
还有一种根据句法树加权的方式，是ICML2011提出的，见论文《Parsing Natural Scenes and Natural Language with Recursive Neural Networks》，后续也有多个改编的版本。
当然，得到词向量的方式不局限于word2vec，RNNLM和glove也能得到传说中高质量的词向量。

热心网友

gensim

Doc2vec网页链接

全部栏目

如何通过词向量技术来计算2个文档的相似度