收藏到会员中心

文档题目:

基于Nutch的搜索引擎实现及中文扩展(含开题)

基于Nutch的搜索引擎实现及中文扩展(含开题)
上传会员: panmeizi
提交日期: 2013-09-22 12:43:08
文档分类: 计算机
浏览次数: 36
下载次数: 0
下载地址: 点击标题下载 基于Nutch的搜索引擎实现及中文扩展(含开题) (需要:20 积分)  如何获取积分?
下载提示: 不支持迅雷等下载工具,请右键另存为下载,或用浏览器下载。不退出登录1小时内重复下载不扣积分。
文档介绍: 以下为文档部分内容,全文可通过注册成本站会员下载获取。也可加管理员微信/QQ:17304545代下载。
文档字数:
文档字数:19341
 基于Nutch的搜索引擎实现及中文扩展
摘    要
搜索引擎是为满足人们网络信息搜索应运而生的网络工具,它是互联网信息查询的导航针,是沟通用户与网络信息的桥梁。然而,随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种搜索需求,尽管Web搜索是漫游Internet的基本要求, 并且现有web搜索引擎的数目却在下降。 这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益。于是强有力的搜索工具成为这些网民们的渴盼。作为Apache开源子项目,Nutch 提供完整的搜索引擎框架,在对全文进行索引的时候,索引部分采用了开源工具包Lucene进行全文索引。通过对Nutch的二次开发,我们可以利用它强大的网络资源采集功能对网络资源进行采集,并加工进入本地库,最后让用户直接面对有效的信息。
本文重点讨论搜索引擎原理,基于Nutch的搜索引擎的实现架构,同时网页抓取过程做了深入的研究和分析;最后,对在早期Nutch的版本的基础上如何更好的支持中文,实现中文分词搜索给出问题的解决方案,并对基于Nutch的搜索引擎的应用进行了讨论。
关键词:搜索引擎,抓取器,Nutch,中文分词目录
1绪论 1
1.1 课题背景  1
1.2 搜索引擎的现状 2
1.2.1搜索引擎的发展历史 2
1.2.2搜索引擎的分类 3
1.2.3当前主流搜索引擎简介 4
1.3 论文组织结构 5
2搜索引擎基本组成及数据结构 6
2.1搜索引擎基本组成及工作流程 6
2.1.1基本组成 6
2.1.2工作流程 6
2.2 存储结构 8
2.2.1页面存储库 8
2.2.2词典库 8
2.2.3 Hits列表 9
2.3 索引结构 10
2.3.1文档索引库 10
2.3.2前向索引表 10
2.3.3后向索引表 11
3基于Nutch的搜索引擎实现的关键技术 11
3.1网页抓取技术研究与设计 11
3.1.1抓取技术的协议分析 11
3.1.2通信协议 12
3.1.3 HTML解析 13
3.2 网页抓取方法 13
4 基于Nutch实现架构 16
4.1 基于Nutch的搜索引擎开发环境和体系结构 16
4.1.1 基于Nutch的搜索引擎的开发环境 16
4.1.2基于 Nutch的搜索引擎的体系结构 16
4.2 基于Nutch的搜索引擎的抓取过程运行 20
4.3 搜索结果展示 22
5 Nutch中文扩展设计与实现 23
5.1中文分词和搜索引擎 23
5.2 中文分词算法 23
5.2.1 基于字符串匹配的分词算法 24
5.2.2基于理解的分词方法 25
5.2.3基于统计的分词方法 25
5.3 中文分词难点 26
5.4 Nutch分析 27
5.5 Nutch中文搜索 28
5.5.1 Nutch中文分词 28
5.5.2 JavaCC分析 29
5.5.3利用JavaCC构造中文分析模块 31
5.6小结 33
结论 33
总结 33
展望 33
致谢 34
参考文献 34


(本文由word文档网(www.wordocx.com)会员上传,如需要全文请注册成本站会员下载)

热门文档下载

相关文档下载

上一篇基于Miscore的物业管理系统(含开.. 下一篇基于OSGI标准的离线系统的设计与..

相关栏目

最新文档下载

推荐文档下载