收藏到会员中心
|
文档题目: |
用Java来开发一个Web数据抽取工具 |
 |
上传会员: |
panmeizi |
提交日期: |
2014-04-04 08:44:19 |
文档分类: |
计算机 |
浏览次数: |
42 |
下载次数: |
0
次 |
|
|
下载地址: |
用Java来开发一个Web数据抽取工具 (需要:25 积分) 如何获取积分? |
下载提示: |
不支持迅雷等下载工具,请右键另存为下载,或用浏览器下载。不退出登录1小时内重复下载不扣积分。
|
文档介绍: |
以下为文档部分内容,全文可通过注册成本站会员下载获取。也可加管理员微信/QQ:17304545代下载。
|
文档字数: |
|
文档字数:9776 摘要
本课题是介绍如何用Java来开发一个Web数据抽取工具。主要内容就是实现Spider(发现、搜集网页信息需要有高性能的“网络蜘蛛”程序去自动地在互联网中搜索信息),解析HTML(Web中的信息都是建立在HTML协议之上的,所以网络机器人在检索网页时的第一个问题就是如何解析HTML),提高程序性能(利用Java的多线程技术在Internet中拥有海量的Web页面中开发出高效的Spider程序)。Eclipse开发工具采用Spider核心技术遍历URL下载整个Web站点。我通过设计和调用各种Java类实现了上述技术的要求。本设计程序本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如:自动登录)和使用cookies来处理session。它还有灵活的下载规则(如:通过网页的URL,大小,MIME类型等)来限制下载。经过程序运行测试,效果良好。 关键词: 数据抽取,Java类,Web Spider,Java多线程
目录
摘要 I Abstract II 第一章 绪论 1 1.1 背景 1 1.2 设计目的及实现方法 1 1.3 国内外的现状 1 第二章 相关技术综述和技术背景 3 2.1 开发工具Eclipse 3 2.2 核心技术——Spider 4 2.3 Spider设计 6 2.4 Spider中采用提高程序性能的技术 9 第三章 总体设计 11 3.1 设计原则 11 3.2 功能目标设计 11 3.3 设计描述 11 3.4 设计的实现 12 3.5 说明 19 第四章 运行与测试 24 第五章 总结 28 致谢 28 参考文献 29
(本文由word文档网(www.wordocx.com)会员上传,如需要全文请注册成本站会员下载) |
|
|
|