有很多网站都在网页上加个“站内搜索引擎”、“搜索引擎”、“全文检索”等等相关字样。

用户一用,结果发现,既不能多关键组合查询,也不能支持国际语法,甚至不能支持全文检索,就更别谈不支持相关性排序等真正的搜索引擎具备的功能了。这些搜索和真正的站内搜索引擎有和区别呢?

真正的全文检索应具备 相关性排序技术 和 分词索引功能。 如果需要进行互联网的信息抓取和采集那么还需要网络蜘蛛模块。 分词、索引、排序这是全文检索的基本和核心,缺一不可。全文检索至少需要具备中文分词、索引、相关性排序功能。

所以简单考查一个站内搜索引擎的真伪只需要知道:能否实现相关性排序、国际标准的搜索语法、动态摘要、飘红、支持海量数据多并快速发查询、搜索耗时极短。

(当然这只是全文检索的基本内容,一个全文检索的搜索引擎的品质好坏还和相关的技术水平、各种技术的结合、产品的管理有很大关系。 评价全文检索的标准是用户体验度,今后我们会提供相关方面的内容)

常用的站内搜索技术比较:

  基于数据库的搜索 基于spider抓取的站内搜索 全文检索者站内搜索软件系统
原理 数据库搜索 通过Spider抓取网页,经html解析,分词,索引实现网页式站内搜索。 对数据库数据进行html解析、图片缩略,分词,索引,实现站内搜索。
检索效率 非常低下 消耗大量硬件资源 高效 高效
检索范围 无法完成全文检索(可以用sql的单字索引功能最简单的完成索引功能实现最低级的全文检索),只能进行标题检索。 数据库效率太低,无法开展各种附加功能。 网页检索 优点:不需要做各种工作,直接即可使用 缺点: 1.有大量的不必要的信息影响搜索结果的排序和显示的效果。严重影响精确度。 2.部分页面无法抓取到。 3.用户对搜索范围和内容以及体现的结果无法精确控制 标题+内容 基于内容分析的排序方法。基于内容分析排序是最佳的排序方法。 标题和内容可控制,搜索结果准确到位。 内容可控,用户可对搜索的内容范围和体现的结果进行精确的控制
检索语法 支持标准的国际搜索语法。 支持标准的国际搜索语法。
动态摘要 摘要内容不清晰各种垃圾信息过多 提供动态摘要,摘要清晰精确,便于用户快速寻找到需要的信息。
关键词飘红
内容的范围 可控制 不可有效控制,动态网页抓取效果不佳,没有链接的网页无法抓取,页面出现杂乱信息影响搜索结果。对于时间控制也无法做到精准,对于栏目的归属无法做到准确。 可有效控制,您可以把多个字段拆分合并,可以确定那些需要,哪些不需要。所有动态网页和没有链接的网页均可有效收入。 栏目控制精准。
图片缩略
同义词
相关性排序
其他 低效率低质量的平台无法开展增值服务 二次研发成本高 具有持续不断的升级能力和良好的售后服务。
成本 价格高 以产品形式运作,多家客户分摊成本,成本相对低廉。运维成本低。
维护成本  不大 维护量不大。 程序维护无须投入,但是需要进行一定量的内容维护。 经过简单培训即可胜任。

站内搜索产品概述:



  中文名称:站内搜索产品
  英文名称:InSite Search Engine
  英文简称:InSiteSE
  当前版本:5.1

主要面向客户和应用领域:

  针对大中型网站、政府网站,电子商务网站等等,帮助他们建立站内搜索引擎系统。站内搜索产品是企业级搜索引擎产品在互联网站上的一个应用,其继承了搜索引擎的优异的性能,并加入了一些网站搜索的特性功能。

功能及特点:

  (1)核心技术
A.基于语义分析的高级分词技术
B.多语言,编码格式自动识别
C.搜索引擎与数据库无缝集成,支持各类文档及附件检索
D.拼音搜索
E.分布式系统、支持亿级数据检索
F.智能摘要、关键字提取技术
   (2)特点
A.专业级产品
针对大中型网站设计,在产品技术上采用了最新的语义分析,词性,词频标注技术,关键字与摘要提取技术,确保您的系统在国内的搜索领域的领先水平。
B.产品稳定
搜索引擎的核心,产品稳定。
C.操作简易
傻瓜式操作向导,可针对CMS、内容发布系统单独开发数据接口。
D.多数据库支持
支持各种主流数据库,如MSSQL、Access、MySQL、Oracle、DB2、Sybase、达梦数据库、人大金仓等。
E.搜索引擎与数据库技术无缝集成
支持直接从用户数据库获取数据建立索引,支持多种文档格式解析,图片处理。
F.专业客服
本公司提供专门的客服服务,7x24小时为您解决各种问题。
G.分布式支持
分布式系统支持,可承受更大数据量。达10TB级别。


服务器要求:

(1)CPU: P4 2.0以上
(2)内存:2G以上
(3)硬盘:80G以上

性能指标:

(1)支持分布式多台部署
(2)支持数据量上亿
(3)查询效率 平均0.5s以内
(4)每天可更新数据量 300万以内

其它服务:

(1)免费mail,QQ,MSN在线技术支持服务
(2)免费5x8小时电话支持服务
(3)二次开发技术支持
(4)系统部署服务
(5)一年内免费版本升级服务
(6)三年内免费补丁服务

 

 

 

eNet硅谷动力消息踏入2006年,行业垂直型搜索引擎成了搜索引擎市场继通用搜索后的又一颗耀眼新星。网民对搜索应用的精准细分需求的日益加剧,让应用于特定领域如求职、搜房、医药、旅游等行业的行业垂直型搜索引擎纷繁涌现。

  一时间,搜索引擎市场仿佛就成了通用搜索和行业搜索双分天下。

  但直至2006年10月,懒汉搜索引擎的横空出世,在强大技术优势和市场推动下,站内搜索的应用价值再次引起IT业界的重视和关注,索引擎市场两极分化之势日趋向三足鼎立之局演化。

  与通用搜索引擎和行业搜索引擎不同,站内搜索引擎连接着网站自身资源和用户双向利益的共现。通用搜索引擎和行业搜索引擎是对他人信息的汇总利 用,掠夺网站尤其是成长阶段网站的用户,而站内搜索引擎是在网站具有高价值的信息资源的前提下,给其用户提供高效的信息查询服务,是对网站服务的提升。

  对于网站个体而言,通用搜索和行业搜索是网站发展早期宣传的途径之一,对早期用户的积累具有不可否定的作用;但在长远发展中,通用搜索和行业搜索反而成为用户忠诚度和网站价值体现的阻碍,激发自身资源的价值,摆脱依附寄生的局面,站内搜索引擎是必要条件之一。

  一直以来,通用搜索一统搜索引擎市场的天下,即便行业垂直型搜索引擎也只是对“泛”的浓缩,集中高利用率的资源领域。站内搜索对网站的发展意义 重大却无法得到成长,原因不在于站内搜索没有价值,而在于受高级应用的站内搜索引擎技术的不成熟和网站自身成长没有达到一定的高度两大因素限制。

  懒汉站内搜索引擎在10月推出以来,就赢得许多用户对其高效、高精准、智能化的搜索能力的关注,尤其是懒汉为各大中型网站提供了一个属于自己的 站内搜索引擎,网站可以利用这个媲美百度、google的站内搜索引擎在竞争日益激烈是互联网市场中树立一面鲜明特征的旗帜,把用户凝聚其中。

  通用搜索引擎以“博”取天下,行业搜索引擎以“精”争天下,站内搜索以“特”助网站赢天下,搜索引擎的发展最终还是要把价值回归到个体网站这个母体中。