收藏到会员中心

文档题目:

用Java来开发一个Web数据抽取工具

用Java来开发一个Web数据抽取工具
上传会员: panmeizi
提交日期: 2014-04-04 08:44:19
文档分类: 计算机
浏览次数: 42
下载次数: 0
下载地址: 点击标题下载 用Java来开发一个Web数据抽取工具 (需要:25 积分)  如何获取积分?
下载提示: 不支持迅雷等下载工具,请右键另存为下载,或用浏览器下载。不退出登录1小时内重复下载不扣积分。
文档介绍: 以下为文档部分内容,全文可通过注册成本站会员下载获取。也可加管理员微信/QQ:17304545代下载。
文档字数:
文档字数:9776
摘要

本课题是介绍如何用Java来开发一个Web数据抽取工具。主要内容就是实现Spider(发现、搜集网页信息需要有高性能的“网络蜘蛛”程序去自动地在互联网中搜索信息),解析HTML(Web中的信息都是建立在HTML协议之上的,所以网络机器人在检索网页时的第一个问题就是如何解析HTML),提高程序性能(利用Java的多线程技术在Internet中拥有海量的Web页面中开发出高效的Spider程序)。Eclipse开发工具采用Spider核心技术遍历URL下载整个Web站点。我通过设计和调用各种Java类实现了上述技术的要求。本设计程序本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如:自动登录)和使用cookies来处理session。它还有灵活的下载规则(如:通过网页的URL,大小,MIME类型等)来限制下载。经过程序运行测试,效果良好。
关键词: 数据抽取,Java类,Web Spider,Java多线程

 目录

摘要 I
Abstract II
第一章 绪论 1
1.1 背景 1
1.2 设计目的及实现方法 1
1.3 国内外的现状 1
第二章 相关技术综述和技术背景 3
2.1 开发工具Eclipse 3
2.2 核心技术——Spider 4
2.3 Spider设计 6
2.4 Spider中采用提高程序性能的技术 9
第三章 总体设计 11
3.1 设计原则 11
3.2 功能目标设计 11
3.3 设计描述 11
3.4 设计的实现 12
3.5 说明 19
第四章 运行与测试 24
第五章 总结 28
致谢 28
参考文献 29

(本文由word文档网(www.wordocx.com)会员上传,如需要全文请注册成本站会员下载)

热门文档下载

相关文档下载

上一篇珍珠销售系统 下一篇网上书店系统的设计及实现

相关栏目

最新文档下载

推荐文档下载