搜索引擎的工作原理及构成部份浅析

是seo从业人员每天都要打交道的，所以想做好优化就必需要了解搜索引擎的工作原理，首先要明白搜索引擎由哪些部分构成，因为这些都跟搜索引擎的工作流程相关连，今天就对搜索引擎的构成部份进行浅析。

搜索引擎的工作原理及构成

一、爬虫。

也称为蜘蛛，它的来访非常的重要，爬虫会抓取出网络上的页面、程序或者脚本，采集网站可以访问的页面内容从而进行缓存。搜索引擎最重要的是响应时间，如果你在搜索内容的时候，需要一分钟后才能反馈给你结果，用户的体验感会大打折扣，搜索引擎为了满足速度的需求，都采取缓存的做法。

对于爬虫来说，更青睐网站运营时间长、持续高质量内容产出、有抓取深度的站点比较感兴趣。那么爬虫什么时候来抓取页面呢？spider会检测你的网页文章的更新频率，对每一个URL集合计算出最适合爬虫抓取的时间，然后在访问抓取。爬虫也有自己的工作目标，它要对抓取的网页进行描述和定义、要对网页进行过滤、还有URL的索引策略。

二、用户搜索界面。
目前最大的仍是百度，随着信息量的不断增加，技术的不断成熟，搜索界面也变得越加规范化。用户在搜索的时候经常会涉及到这几个方面：
1、展现提示词。用户在搜索框输入任何文字的时候都会展示提示词，而且中文搜索中若用户输入拼音，系统照样可以识别提示。
2、相关搜索提示词。当用户搜索一个关键词的时候，系统会根据用户的搜索词给出更多的提示词，换一个关键词搜索到的内容有可能就大不相同。
3、类别搜索。信息的种类繁多，用户可以按类别将搜索范围减小，也可以在搜索的结果中导航，做到来往通用。

三、预处理。

要说搜索引擎最复杂的是什么，那一定是预处理了，排名的算法几乎都是在这个环节产生。在搜索引擎抓取到一个页面的时候，要将网页中的代码、非正文内容等进行去除，留下关键词，利用代码和关键词密度等等分析出重要的词组，进行分词储存在数据库中与URL一一对应。搜索引擎还要去除重复与转载网页、对重要信息进行分析。概括来说，搜索引擎是控制蜘蛛爬取，对数据进行筛选报错，处理好URL的对应关系，将其保存在索引数据当中。

四、文本挖掘。
文本挖掘的方法有很多，常用的就是全文搜索、关键词提取、文本摘要、中文分词等等。搜索引擎有个文档集，进行文档挖掘可以对文本进行分析识别数字、日期名字等等，也可以做特征提取比如文本摘要、关键词提取和特征选择，或者进行分类、检索、聚类、自动问答等等。

闽南SEO

搜索引擎的工作原理及构成部份浅析

发表回复取消回复

「企业网络推广方案」分享手机端优化技巧：注意移动页面的可读性与用户体验

「seo先学什么」和黑帽seo

相关推荐

发表回复 取消回复

发表回复取消回复