收藏到会员中心

文档题目:

基于字符编辑的字符串匹配算法的实现

基于字符编辑的字符串匹配算法的实现
上传会员: panmeizi
提交日期: 2013-09-21 12:43:28
文档分类: 计算机
浏览次数: 32
下载次数: 0
下载地址: 点击标题下载 基于字符编辑的字符串匹配算法的实现 (需要:25 积分)  如何获取积分?
下载提示: 不支持迅雷等下载工具,请右键另存为下载,或用浏览器下载。不退出登录1小时内重复下载不扣积分。
文档介绍: 以下为文档部分内容,全文可通过注册成本站会员下载获取。也可加管理员微信/QQ:17304545代下载。
文档字数:
文档字数:8972
基于字符编辑的字符串匹配算法的实现
摘  要
随着信息技术的迅猛发展,各种数据生成以及数据采集设备的广泛使用,人们获取到的数据量指数级增长,但是人们从海量数据中获取信息的方便性并没有得到有效的改善,究其原因,其一就是数据质量大大下降,不足以满足应用的需求。
本文介绍了对数据质量研究的必要性以及目前数据质量研究的热点,并着重介绍通过记录连接来改善数据质量问题。通过匹配技术中的编辑距离算法、Jaro-Winkler算法达到进行记录连接的目的,并对算法的原理及其实现作了阐述,通过计算两个记录的相似度来解决基于字符编辑的字符串匹配问题,实现对重复相似记录的检测以达到数据连接的目的,最后对匹配技术对数据质量研究的展望。
关键词:数据质量; 记录连接; 匹配; 编辑距离; Levenshtein算法; Jaro-Winkler算法
目   录
摘  要 i
ABSTRACT ii
第一章 绪论 - 1 -
第二章 编辑距离 (Edit distance) - 3 -
2.1 Levenshtein算法思想 - 3 -
2.2 Levenshtein算法原理 - 3 -
2.3 算法的实现 - 4 -
2.3.1 Levenshtein算法 - 4 -
2.3.2 Levenshtein算法实现 - 5 -
2.4 正确性说明 - 6 -
2.5 Levenshtein算法补充说明 - 6 -
第三章 Jaro-Winkler距离(Jaro-Winkler Distance) - 7 -
3.1 Jaro算法 - 7 -
3.1.1 Jaro算法原理 - 7 -
3.1.2 Jaro算法实现 - 7 -
3.2 Jaro-winkler算法 - 10 -
3.2.1 Jaro-winkler原理 - 10 -
3.2.2 Jaro-winkler实现 - 10 -
3.2.3 算法相关补充说明 - 12 -
结束语 - 13 -
致谢 - 14 -
参考文献 - 15 -
附录 - 16 -


(本文由word文档网(www.wordocx.com)会员上传,如需要全文请注册成本站会员下载)

热门文档下载

相关文档下载

上一篇基于多种检测技术的源代码相似度.. 下一篇基于客户端体验的政府门户网站优化

相关栏目

最新文档下载

推荐文档下载