基于Nutch的搜索引擎实现及中文扩展(含开题) 基于Nutch的搜索引擎实现及中文扩展(含开题)-word文档网

文档字数：19341

基于Nutch的搜索引擎实现及中文扩展

摘要

搜索引擎是为满足人们网络信息搜索应运而生的网络工具,它是互联网信息查询的导航针,是沟通用户与网络信息的桥梁。然而,随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种搜索需求,尽管Web搜索是漫游Internet的基本要求, 并且现有web搜索引擎的数目却在下降。这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益。于是强有力的搜索工具成为这些网民们的渴盼。作为Apache开源子项目，Nutch 提供完整的搜索引擎框架，在对全文进行索引的时候，索引部分采用了开源工具包Lucene进行全文索引。通过对Nutch的二次开发，我们可以利用它强大的网络资源采集功能对网络资源进行采集，并加工进入本地库，最后让用户直接面对有效的信息。

本文重点讨论搜索引擎原理，基于Nutch的搜索引擎的实现架构，同时网页抓取过程做了深入的研究和分析；最后，对在早期Nutch的版本的基础上如何更好的支持中文，实现中文分词搜索给出问题的解决方案，并对基于Nutch的搜索引擎的应用进行了讨论。

关键词：搜索引擎，抓取器，Nutch，中文分词目录

1绪论 1

1.1 课题背景 1

1.2 搜索引擎的现状 2

1.2.1搜索引擎的发展历史 2

1.2.2搜索引擎的分类 3

1.2.3当前主流搜索引擎简介 4

1.3 论文组织结构 5

2搜索引擎基本组成及数据结构 6

2.1搜索引擎基本组成及工作流程 6

2.1.1基本组成 6

2.1.2工作流程 6

2.2 存储结构 8

2.2.1页面存储库 8

2.2.2词典库 8

2.2.3 Hits列表 9

2.3 索引结构 10

2.3.1文档索引库 10

2.3.2前向索引表 10

2.3.3后向索引表 11

3基于Nutch的搜索引擎实现的关键技术 11

3.1网页抓取技术研究与设计 11

3.1.1抓取技术的协议分析 11

3.1.2通信协议 12

3.1.3 HTML解析 13

3.2 网页抓取方法 13

4 基于Nutch实现架构 16

4.1 基于Nutch的搜索引擎开发环境和体系结构 16

4.1.1 基于Nutch的搜索引擎的开发环境 16

4.1.2基于 Nutch的搜索引擎的体系结构 16

4.2 基于Nutch的搜索引擎的抓取过程运行 20

4.3 搜索结果展示 22

5 Nutch中文扩展设计与实现 23

5.1中文分词和搜索引擎 23

5.2 中文分词算法 23

5.2.1 基于字符串匹配的分词算法 24

5.2.2基于理解的分词方法 25

5.2.3基于统计的分词方法 25

5.3 中文分词难点 26

5.4 Nutch分析 27

5.5 Nutch中文搜索 28

5.5.1 Nutch中文分词 28

5.5.2 JavaCC分析 29

5.5.3利用JavaCC构造中文分析模块 31

5.6小结 33

结论 33

总结 33

展望 33

致谢 34

参考文献 34