基于Lucene3.5版本、TF-IDF、余弦相似实现的文本相似度算法。
详细介绍《基于Lucene、TF-IDF、余弦相似性实现长文本相似度检测》
使用webmagic爬取华为应用市场应用的描述信息,当做样本。
在工程的conf/doc目录有1000多个应用样本。
具体代码实现在工程下面的AppStoreProcessor.java类
在使用Lucene进行TF-IDF计算之前,需要先对长文本进行分词,选取的是jieba的java版本。
| Name | Name | Last commit date | ||
|---|---|---|---|---|
基于Lucene3.5版本、TF-IDF、余弦相似实现的文本相似度算法。
详细介绍《基于Lucene、TF-IDF、余弦相似性实现长文本相似度检测》
使用webmagic爬取华为应用市场应用的描述信息,当做样本。
在工程的conf/doc目录有1000多个应用样本。
具体代码实现在工程下面的AppStoreProcessor.java类
在使用Lucene进行TF-IDF计算之前,需要先对长文本进行分词,选取的是jieba的java版本。