一、需求

对登记纳税人的注册地址进行相似度计算,发现单个纳税人可能存在的一址多注册。

二、数据

数据来源:登记纳税人数据

数据量:百万级

部分数据展示: tupian 三、数据预处理

1,取数,从hive中提取数据 tupian 2,去重、构造专业词库、分词、去停用词 tupian

原创文章,转载请注明出处:http://ruanbaobit.top/article/afdasfd/