收藏到会员中心

文档题目:

基于java网络蜘蛛程序(含开题+任务书+PPT)

基于java网络蜘蛛程序(含开题+任务书+PPT)
上传会员: panmeizi
提交日期: 2013-09-22 12:52:59
文档分类: 计算机
浏览次数: 31
下载次数: 0
下载地址: 点击标题下载 基于java网络蜘蛛程序(含开题+任务书+PPT) (需要:10 积分)  如何获取积分?
下载提示: 不支持迅雷等下载工具,请右键另存为下载,或用浏览器下载。不退出登录1小时内重复下载不扣积分。
文档介绍: 以下为文档部分内容,全文可通过注册成本站会员下载获取。也可加管理员微信/QQ:17304545代下载。
文档字数:
文档字数:12995
摘  要
在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。网络蜘蛛程序是Web搜索引擎技术中关键的一部分。
本论文基于现有的知识理论实现了蜘蛛程序,从给定网址开始进行爬行搜索,利用数据库队列技术管理网页链接,将访问过的网页资源下载到本地硬盘保存。通过使用Lucene工具包对下载资源。利用java.url中的类实现Spider程序与外界通讯,以及处理网页中的URL连接,对蜘蛛程序的核心类(通讯核心、蜘蛛程序工作核心),资源索引的建立与搜索新型了详细的研究。
通过设计分析,完成了自己的蜘蛛爬行程序。程序按照初始设计功能完成,实现了对网络资源的收集和整理。功能通过了测试,程序可以正常稳定运行
最后论文对全文进行了总结,并对为了发展的方向进行了展望。
关键字:HTTP,线程,Spider,Lucene目   录
1  绪 论 1
1.1课题研究背景 1
1.2国内外研究现状 1
1.3 本论文的结构 4
2 程序设计目标及策略 5
2.1程序分析 5
2.1.1 多线程搜索 5
2.1.2 数据库队列管理 5
2.1.3 检索引擎——Lucene 6
2.2功能点技术分析 6
2.2.1 Spider如何获取URL链接的获取 6
2.2.2 程序结构的选择 6
2.2.3利用递归构造Spider 6
2.2.4利用非递归构造Spider 7
2.2.5 Spider程序的队列 7
2.2.6全文索引 8
3 程序设计与实现、测试 9
3.1 HTTP类及相关类的设计与实现 9
3.2 蜘蛛程序工作核心类设计与实现 13
3.2.1 蜘蛛程序中线程的设计 13
3.2.2 多线程同步 14
3.3 Spider类及其相关类的实现 15
3.3.1 ISpiderReportable接口 15
3.3.2 IWorkloadStorable接口 15
3.3.3 SpiderSQLWorkload类 16
3.3.4 SpiderWorker类 16
3.3.5 SpiderDone类 18
3.3.6 Spider类 19
3.4程序测试 20
3.4.1硬件环境 20
3.4.2软件环境 20
3.4.3测试用例 20
3.4.4测试结论 21
4 总结 22
致 谢 25
参考文献 26
附录:代码 27


(本文由word文档网(www.wordocx.com)会员上传,如需要全文请注册成本站会员下载)

热门文档下载

相关文档下载

上一篇基于Jasperreport技术的动态报表.. 下一篇基于Linux的GIS服务器的设计与实..

相关栏目

最新文档下载

推荐文档下载