收藏到会员中心
|
文档题目: |
基于java的lucene全文搜索子系统 |
 |
上传会员: |
panmeizi |
提交日期: |
2014-03-31 09:16:06 |
文档分类: |
计算机 |
浏览次数: |
17 |
下载次数: |
0
次 |
|
|
下载地址: |
基于java的lucene全文搜索子系统 (需要:25 积分) 如何获取积分? |
下载提示: |
不支持迅雷等下载工具,请右键另存为下载,或用浏览器下载。不退出登录1小时内重复下载不扣积分。
|
文档介绍: |
以下为文档部分内容,全文可通过注册成本站会员下载获取。也可加管理员微信/QQ:17304545代下载。
|
文档字数: |
|
文档字数:11610 基于Java的Lucene全文搜索子系统
摘要 随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前Web搜索引擎(Search Engine)技术正成为计算机科学界和信息产业界争相研究、开发的对象。 搜索引擎 (Search Engine)是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,收集因特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。 本文介绍了传统的基于关系数据库like检索的网站站内检索方案的不足,对开源的Lucene信息检索技术进行了分析,对比了Lucene与关系数据库的区别。在Lucene检索体系的基础上,采用Spring框架,结合网络爬虫Heritrix、Ajax等技术,最终建立起基于Java的Lucene全文搜索子系统的过程。
关键词: Lucene 全文检索 中文分词 Spider 全表扫描 目 录 摘要 II 关键词: II Abstract III Keywords: III 目 录 IV 第一章 前言 1 1.1 系统必要性分析 1 1.1.1 企业网站本身的需要 1 1.1.2 站内全文搜索引擎的优势 2 1.2 Lucene全文搜索应用概述 3 1.2.1 Lucene背景 3 1.2.2 Lucene全文搜索的实现机制 3 1.3 Lucene的创新之处 5 第二章 搜索引擎的基本原理 6 2.1 搜索引擎的基本组成及其功能 6 2.1.1 业务流程 6 2.1.2 组件流程简介 6 2.1.3 搜索引擎程序各组成部分的功能详细介绍 7 2.2 信息检索系统构造过程 8 第三章 实例具体开发过程 9 3.1 实例开发准备 9 3.2 实例具体制作过程 10 3.2.1 网页清单抓取 10 3.2.2 为网页清单定制 11 3.2.3 建立全文文本数据库 12 3.2.4 建立关系数据库 15 3.2.5 WEB平台的搭建 19 3.2.6 Lucene的数据同步方案 23 3.2.7 实例存在的问题 24 结束语 25 致谢 26 参考文献 27
(本文由word文档网(www.wordocx.com)会员上传,如需要全文请注册成本站会员下载) |
|
|
|