收藏到会员中心

文档题目:

面向电子商务网站的专业网络爬虫设计与实现(含开题+任务书)

面向电子商务网站的专业网络爬虫设计与实现(含开题+任务书)
上传会员: panmeizi
提交日期: 2013-09-23 09:31:36
文档分类: 计算机
浏览次数: 59
下载次数: 0
下载地址: 点击标题下载 面向电子商务网站的专业网络爬虫设计与实现(含开题+任务书) (需要:20 积分)  如何获取积分?
下载提示: 不支持迅雷等下载工具,请右键另存为下载,或用浏览器下载。不退出登录1小时内重复下载不扣积分。
文档介绍: 以下为文档部分内容,全文可通过注册成本站会员下载获取。也可加管理员微信/QQ:17304545代下载。
文档字数:
文档字数:14299
面向电子商务网站的专业网络爬虫设计与实现
摘   要
    网络爬虫是一个自动下载网页的程序,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到该URL对列为空为止。
    本文设计的这款面向电子商务网站的专业网络爬虫,只对电子商务网站进行信息搜索,让用户可以尽可能多的找到自己关心的商品信息。面向电子商务网站的专业网络爬虫的工作流程十分复杂,需要根据一定的网页分析过滤与电子商务商品信息无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到保存URL的队列为空为止。另外,所有被爬虫抓取的网页将会被系统存贮。    文章在分析网络爬虫的工作原理的基础上,结合多线程技术,设计了这个网络爬虫程序。

关键字:搜索引擎,网络爬虫,电子商务
目   录
摘   要 I
Abstract II
目   录 III
1 绪论 4
1.1 课题背景及意义 4
1.2 国内外研究现状 2
1.3 爬虫程序在电子商务的应用 3
1.4 本文所要完成的工作 4
2 网络爬虫 5
2.1 搜索引擎概述 5
2.1.1 通用搜索引擎概述 5
2.1.2 专业搜索引擎介绍 5
2.1.3 搜索引擎的性能指标 7
2.2 网络爬虫概述 9
2.2.1 网络爬虫简介 9
2.2.2 网络爬虫工作原理 9
3 专业网络爬虫的设计 10
3.1 爬虫设计原理 10
3.2 线程技术的应用 10
3.2.1 创建线程 10
3.2.2  线程间通信 11
3.3 网络爬虫结构分析 11
3.3.1 如何解析HTML 11
3.3.2 Spider程序结构 13
3.3.3 构造Spider程序 15
3.3.4 URL筛选策略 18
3.4 运行结果分析 18
结论 20
致谢 21
参考文献 22

(本文由word文档网(www.wordocx.com)会员上传,如需要全文请注册成本站会员下载)

热门文档下载

相关文档下载

上一篇软件测试过程与改进技术(含开题+.. 下一篇面向领域的工作流模板的设计与实..

相关栏目

最新文档下载

推荐文档下载