注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

易水寒

风萧萧兮易水寒这里是你学习的基地,SEO、网络推广,电商营销,微信营销教程

 
 
 

日志

 
 

搜索引擎是如何工作的  

2010-11-24 10:45:31|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
在我们踏入学习搜索引擎优化之前,也许我们最先想了解的是关于搜索引擎如何工作的问题?

  当你初步的了解了搜索引擎工作的大概流程和机制,你学习seo的思路就会更加清晰。掌握seo技术也会更加迅速。

  好了。废话不多说。

  我们一起来看看搜索引擎到底是如何工作的吧?~~

  我们这里就以google为例子吧。

  其实搜索引擎的工作大概流程如下:

搜索引擎是如何工作的 - 易水寒 - 易水寒

  (按上图所示分左边右边来看搜索引擎是如何工作的)

  看了上面的图片后其实基本我们都明白了。如果还不明白请继续看下文:

  首先:是搜索者在搜索引擎上敲下了关键词。

  比如:seo俱乐部

  也就是上面图片中左上部分:

  第一步,匹配搜索请求。据说他们会把用户输入进去的关键词,比如什么的seo俱乐部,称作“搜索项”。

  用户一旦输入搜索项然后敲下了回车后,搜索引擎就开始分析搜索请求了-----检查搜索引擎请求的每个搜索项,并且将作一件令人很多seoer紧张的事情:把哪个网页放在第一位,第二位,第三位。。。

  而哪些作为分析的依据可能不同的搜索引擎有所不同或者有所侧重。但这一步基本是一样的。

  比如这期间会有(以下东西说起来就比较深奥和繁琐,不一一详细解说了):

  发现词的变体和矫正拼写:查找词组,非词组和停止词(像英文里,同样一个量词,但是有复数和单数,搜索引擎会根据这些微末的信息做出不同的判断;比如输错字的情况怎么提供答案。你可以试试在搜索引擎里输入:“举乐部”,谷歌就会问你:“您是不是要找:俱乐部!”没错,“俱乐部”正才正是我要找的。
接着会进入上图的右边部分的工作,按匹配搜索请求到分析搜索请求的这个过程里,将会进行以下步骤的处理:

  A:检查词组,非词组和停止词:

  检查词组和非词组.就是说当搜索者输入搜索请求时,搜索引擎会进行分析判断后作出一种过滤.把一个短句中认为是非词组的给过滤掉,然后又判断哪些词组作为关键词进行搜索,最后按分析的各页面的最合适的页面排序显示出来.

  比如当我们搜索”一种绿茶”,很可能” 一种”会被判定成非词组.

  另外像一种,一张,一个,这些词,搜索引擎一般不会去搜索他们,被称之为”停词(stop word)”.对于中文来说,我们一般会去以这些词来命名于产品.所以几乎也没有把这些词作关键词来处理.但是,在英文肯就会出现比较多.比如”The limited”

B:检查词序:

  比如我们搜索”网站优化”和”优化网站”时,得到的结果一般是不一样的,这是因为搜索引擎在排序时也会考虑到词序问题.

  C:处理搜索运算符号

  比如”+-”号.这里用英文打比喻比较好说.

  我们搜索白宫.英文: “the white house”但是这样的话搜索引擎有可能把the作为停止词给省略了,这样就会显示一些我们不想要的信息来,比如关于描述白房子(white house)的信息.

  因此我们可以这样来做精确搜索 +the white house,这样就可以确保显示在最前的都是关于白宫的信息页面.

  再比如:我们想搜索seoclub (它是一个提供搜索引擎优化信息的网站),但是还有一个叫seoclub tv(它是一个讲搜索引擎优化的电视台),这个时候如果我们想省略掉搜索结果里面的关于这个电视台的信息,而只把seoclub相关的信息显示在最前面.我们就可以这样写:seoclub –tv对一个搜索引擎营销者来说,了解这些就可以避免在给产品或网站取名的时候,取一些会跟其他词一起出现的(就是需要加上类似”+-”才能搜索到的)的名字

  (其实这些常被seoer来作为他们在查找信息的时候使用的一些过滤手法)

  接着就到了搜索引索库了,也就是下面的第二步。

  第二步:选择与搜索引擎请求匹配的结构

  当我们看完上面的几个步骤后,到了这里其实也更容易理解了.只是在个匹配的搜索结果,还有一个是付费的搜索结果在内.这里就不讲了,我们只讲自然搜索.

  A:选择自然搜索匹配的结果

  自然搜索引擎使用搜索索引库定位最匹配的网页.基本上,通过分析搜索请求决定查找什么词-------不仅是在搜索请求中键入的那些词,还有词的所有变体(比如this 和these,或者 woman 和women),以及忽略哪些词(停止词和非词组)。搜索引擎查看搜索请求中的每个词,看哪些网页包含这些词。

  搜索引索库可以被看做一个按字母顺序排列成的列表(说更通俗点,就是像一本词海或者说百科全书,具体可以查阅――如何最通用的去理解这个概念:什么是seo),列出了互联网每一个网页上的每一个词(参照下图表):

  

搜索引擎是如何工作的 - 易水寒 - 易水寒

  搜索引擎怎样被从索引库中找到示意.自然搜索引擎检查网页列表的索引,网页列表列出了包含搜索引擎请求中的每个词的所有网页.

  以上只是一个最简单的例子。


事实上,搜索者常常不是这么单一的去搜索一个问题。比如,他不会搜索美食节,可能是广州美食节,上海美食节等等。于是,搜索引擎就要做多方面的分析判断。首先会先找出含有该关键词的所有页面,给出一个含有“广州”和“美食节”的网页列表。大多数的搜索引擎在遇到这种情况时,都是先显示同时含有“广州”和“美食节”或者是“上海”和“美食节”的网页。

  还有一种情况,就是更长的句子。比如“广州美食节在哪一天”,显然,美食节,将是这个关键词里的关键词,所以,一些只含有美食节的网页也很有可能会显示在前面。

  关于搜索引擎是如何工作的解说。就讲到这。事实上,搜索引擎工作的复杂性,一时讲不了那么清楚,而且我们也无法彻底清楚。

  评论这张
 
阅读(384)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017