认识搜索引擎

什么是搜索引擎

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。

Web信息资源的特性

海量规模；
分散无序；
动态更新，不稳定；
种类或形式多种多样；
非结构化或半结构化；
主义冗余、质量缺乏控制；
需求和使用方式个性化；

搜索引擎的发展

早期的搜索引擎：早期以AltaVista、Excite为代表，用于自动采集网页的“机器人”程序相对较弱，一般只对网页的标题、URL等信息进行自动索引，对返回的检索结果有时也不排序；
全文搜索引擎的普及：对网页的全文进行自动采集与索引，支持全文检索；

搜索引擎的分类

按内容或数据收录的范围分：

综合类搜索引擎:google 百度
专业类搜索引擎:也叫垂直搜索引擎，是针对特定的行业、领域、主题的专门搜索引擎。由于只面对一个方面，垂直搜索提供的结果更加专业、深入、具体和有序。如mp3搜索，结果全是歌曲，有歌词，能方便地试听。除mp3搜索外，常用的有图片搜索、视频搜索、新闻搜索。如果想找图片、视频、了解新闻，那么直接用相应的垂直搜索无疑更高效。如，Business

按信息的组织方式或检索方式分：

索引式搜索引擎:google 百度
目录式搜索引擎:Yahoo Galaxy go.com goguides
元搜索引擎：万纬 MetaCrawler Mamma Search Dogpile ixquick; fefoo limmz
终端元搜索引擎软件：WebFerret 飓风
集合式搜索引擎：该搜索引擎类似元搜索引擎，区别在于它并非同时调用多个搜索引擎进行搜索，而是由用户从提供的若干搜索引擎中选择，如HotBot在2002年底推出的搜索引擎。
门户搜索引擎：AOLSearch、MSNSearch等虽然提供搜索服务，但自身既没有分类目录也没有网页数据库，其搜索结果完全来自其他搜索引擎。

计算机检索技术

布尔逻辑检索
截词检索(truncation searching)用截断的词的一个局部进行检索，并认为凡满足这个词局部中的所有字符的资料，都为命中的资料；截词是指用符号代替变化的部分。如“system?"、"comput?"、"wom?n"、"?ology";
字段限定检索(limit searching):限定在数据库记录中的一个或几个字段范围内查找检索词；
词位置检索：指限定检索词之间的位置关系；(proximate searching)
聚类检索：首先要把将全部资料按相似度进行聚类归档，检索时直接在类目内匹配；
相关反馈与提问式扩展技术：指系统对检索词进行适当的修正后再进行检索；
可视化检索技术:对检索词构造、检索过程、检索结果都可考虑可视化；

名词

网页快照：是搜索引擎对该链接有效时在其服务器做的一个备份；
高级搜索：可以让我们不输入搜索引擎的语法就能使用搜索引擎支持的很多功能，以缩小搜索范围、提供更精确的搜索结果。
搜索结果页：用户在输入关键词，单击搜索按钮后，搜索引擎进入的页面，显示出根据关键词做出的搜索结果列表。每一项内容一般包括统计行、网页标题、网页摘要、网址、网页快照等内容；
搜索语法：利用语法可以进行更复杂的条件搜索，可大大提高搜索的效率和精度；需要注意的是，所有搜索引擎可能有一些共同的语法规则，也有自己的规则，另外，随着某一搜索引擎的发展与完善，自身的语法规则可能也会有不断的更新和完善；
搜索引擎默认搜索类别，“网页”：其实是搜索综合的内容，包括文本、图片、视频、音频等，网页是网络基本的单元，一切内容都可纳入其中；“网页”搜索内容全面、丰富、包罗万象，但往往也需要更多的时间去筛选需要的内容；与之相对应的是垂直搜索（也叫分类搜索，对应于搜索引擎上的其它选项卡），由于只面对一个方面，垂直搜索提供的结果更加专业、深入、具体和有序。

搜索引擎分类比较


分类	定义	优点	缺点	举例站点
目录式	以人工或半半自动方式搜集信息，由编辑员查看信息后，人工形成信息摘要，并将信息置于事先确定的分类框架中。	信息准确、导航质量高。	需人工介入、维护量大、信息量小、信息更新不及时；	yahoo
机器人索引	由一个称为蜘蛛的机器人程序以某种策略自动地在互联网中发现和搜集信息，由索引器为搜集到的信息建立索引；用户查询时，检索器根据用户的查询输入检索索引库，并将查询结果返回给用户；	信息量大，更新及时，毋需人工干预；	返回信息过多，有很多无关的垃圾信息，用户必须从结果中进行筛选；	google、ltavista、locos、百度、搜狐、中搜
元搜索引擎	没有自己的数据，而是将用户的查询请求同时向多个搜索引擎递交，将返回的结果进行重复排除、重新排序等处理后，作为自己的结果返回给用户。	返回结果的信息更大、更全。	用户需做更多的筛选；	webcrawler

搜索引擎组成及工作步骤


搜索引擎组成		搜索引擎工作步骤
1 搜索器	其功能是在互联网中漫游，发现和搜集信息；	1 爬行	搜索引擎是通过一种特定规律的软件跟踪网页的链接，从一个链接爬到另外一个链接，像蜘蛛在蜘蛛网上爬行一样，所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的，它需要遵从一些命令或文件的内容。
2 索引器	其功能是理解搜索器所搜索到的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表；	2 抓取存储	搜索引擎是通过蜘蛛跟踪链接爬行到网页，并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时，也做一定的重复内容检测，一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容，很可能就不再爬行。
3 检索器	其功能是根据用户的查询在索引库中快速检索文档，进行相关度评价，对将要输出的结果排序，并能按用户的查询需求合理反馈信息；	3 预处理	搜索引擎将蜘蛛抓取回来的页面，进行各种步骤的预处理。 ⒈提取文字 ⒉中文分词 ⒊去停止词 ⒋消除噪音搜索引擎需要识别并消除这些噪声，比如版权声明文字、导航条、广告等 ⒍正向索引 ⒎倒排索引 ⒏链接关系计算 ⒐特殊文件处理
4 用户接口	其作用是接纳用户查询、显示查询结果、提供个性化查询项。	4 排名	用户在搜索框输入关键词后，排名程序调用索引库数据，计算排名显示给用户，排名过程与用户直接互动的。但是，由于搜索引擎的数据量庞大，虽然能达到每日都有小的更新，但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。