基于java的lucene全文搜索子系统基于java的lucene全文搜索子系统-word文档网

字数：3338

基于Java的Lucene全文搜索子系统

文献综述

前言：

随着互联网的迅猛发展，信息量的暴增，搜索引擎成为了用户查找信息的主要工具。尤其2000年以来，Google的巨大成功让整个世界都把眼光投到搜索引擎这个领域中。仿佛一夜之间，各种各样的搜索服务席卷而来，从google、Yahoo到百度、MSN、中搜、Sogou等，搜索引擎的品牌越来越多，服务也越来越丰富。随着搜索服务的扩展，企业级的网站也意识到在自身网站上建立起一个优秀的搜索引擎将在提高服务水平、网站信息质量等方面起着不容忽视的作用。事实证明，为网站提供良好的搜索服务既是用户基本的需求，也是一个功能完善、体系成熟的网站的象征。基于Java的Lucene全文搜索子系统作为一个站内全文搜索的应用与实现，本文将以此进行必要性与相关应用的概述。

一、系统必要性分析

如今，伴随着web2.0的普及，网络信息呈指数级急速增长，各种各样的网站都需要为其本身加入搜索功能，以满足用户的需要。另外，在企业级的应用市场上，系统网站内全文信息检索的需求也一直在增加，各种文档处理、内容管理软件都需要加入全文检索的功能。相对于google、百度此类门户搜索引擎以及传统的站内搜索，站内全文搜索具备一下几个优势：

（1）从搜索位置上看，调查表明约80%用户只关注搜索结果的前5页信息，然而企业网站在门户搜索引擎下的位置难以定位（往往需要较大的成本）。

（2）从搜索深度上看，google等搜索引擎通过网络Spider收集网页，对于网站内隐藏很深的网页很难索引到的。特别是对于需要完成用户身份验证，出于OCR识别技术的困难，spider对付这类图形验证码往往是力不从心的，而且倘若涉及内网，门户搜索引擎更是无法采集。

（3）从系统设计上看，传统的站内搜索通常采用数据库字段like查询来实现的，这对响应时间、软硬件性能的影响极大，（例如：如果信息量大，大量的预处理后的sql语句规程在Shared Pool里，shared pool很快就会被耗干，于是“ORA-04031”的错误就出现了），以及从代码的重用、软件的测试维护上看，全文搜索将是解决这些问题很好的途径。