SEO是什么意思?SEO等于搜索引擎优化,它是基于搜索引擎的一种网络营销方式,隶属于SEM!!

新手seo必读的搜索引擎优化工作原理

SEO优化技术 SEO教程 0评论

经过搜索引擎蜘蛛抓取页面,索引程序计算得到倒排索引后,搜索引擎就准备好可以随时处理用户搜索了。用户在搜索框输入查询词后,排名程序调用索引库数据,计算排名显示给用户,排名过程是与用户直接互动的。

1、搜索词处理

搜索引擎在接收到用户输入的搜索词后,需要对搜索词做一些处理,才能进入排名过程,搜索词处理包括以下几方面:

(1)、中文分词。与页面索引时一样,搜索词也必须进行中文分词,将查询字符串转换为以词为基础的关键词组合。分词原理与页面分词相同。

(2)、去停止词。指令处理和索引时一样,搜索引擎也需要把搜索词中的停止词去掉,最大限度地提高排名相关性及效率。

(3)、指令处理。查询词完成分词后,搜索引擎默认的处理方式是在关键词之间使用“与”逻辑。打个比方,用户搜索”减肥方法”关键词时,程序分词为”减肥”(代号:A)和”方法”(代号:B)两个词,搜索引擎排序时默认认为,用户寻找的是既包含”减肥”,也包含”方法”的页面。有A没B或者有B没A的页面会被认为是不符合搜索条件的。这只是为了简化的说明原理而已,实际上还是可以看到只包含一部分关键词的搜索结果。另外用户输入的查询词中还可能包含一些高级搜索指令(以后文章里会提及),如加号。减号等。搜索引擎都需要做出相应识别和相应处理。搜索矫正

(4)、拼写错误矫正。用户如果输入了明显错误的字或英文单词拼错,搜索引擎会提示用户正确的用字和拼法。

(5)、整合搜索触发。某些搜索词会触发整合搜索。比如,明星姓名就经常触发图片和视频内容。当前的热门话题又容易触发资讯内容。哪些词触发哪些整合搜索,也需要在搜索词处理阶段计算。

(6)、搜索框提示。用户在搜索框填写过程中,搜索引擎就根据热门搜索数据给出多组可能的查询词,减少用户输入时间。

2、文件匹配

搜索词经过处理后,搜索引擎得到的是以词为基础的关键词集合。文件匹配阶段就是找出含有所有搜索关键词的所有文件。在索引部分提到的倒排索引使得文件匹配能够快速完成。如下图所示:seo排名规则

假设用户搜索”关键词2″和”关键词7″,排名程序只要在倒排索引中找到”关键词2″和”关键词7″这两个词,就能找到分别含有这两个词的所有页面。经过简单求交集就能找出既包含”关键词2″和”关键词7″的所有页面:文件1和文件6。

3、初始子集的选择

找到包含所有关键词的匹配文件后,还不能进行相关性计算,因为找到的文件经常会有几十万几百万,甚至上千万。要对这么多文件实时进行相关性计算,需要的时间还是太长。实际上用户也不会看几十万个页面,绝大部分用户只查看前两页,也就是前20个结果,搜索引擎只需显示最重要的一部分页面即可。搜索结果页面通常最多显示100页。Google、Yahoo!、搜狗显示100页,百度显示76页,通常是64页,必应貌似没有固定值,会根据不同查询词而变化,但也不会超过100页。

但问题来了,还没有计算相关性时,搜索引擎又如何知道哪100页结果是最相关的?所以用于最后相关性计算的初始页面子集选择,必须依靠其他特征而不是相关性,其中最重要的就是页面权重。由于所有匹配文件都已经具备了最基本的相关性(这些文件都包含所有查询关键词),搜索引擎通常会用相关性的页面特征选出一个初始子集。初始子集的数目视多少?几万个?或许更多,外人并不知道。不过可以肯定的是,当匹配页面数目巨大时,搜索引擎不会对这么多页面进行实时计算,而必须选出页面权重较高的一个子集,再对子集中的页面进行相关性计算。

4、相关性计算

计算相关性是排名过程中最重要的一步,相关性计算是搜索引擎算法中最令SEO感兴趣的部分。

影响相关性的主要因素包括以下几部分:

(1)、关键词常用程度。经过分词后的多个关键词,对整个搜索字符串的意义贡献度并不相同。越常用的词对搜索词的意义贡献度越小。反之,越不常用的词对搜索词的意义贡献度越大。

例如:假设用户输入关键词是”我们冥王星”。”我们”这个词常用程度非常高,在很多页面上都会出现,它对”我们冥王星”这个搜索词辨识度和意义相关度贡献就很小。找出那些包含”我们”这个词的页面,对搜索排名相关性几乎没有任何影响,有太多页面包含”我们”这个词。相反,”冥王”我们冥王星”这个搜索词会更为相关。

常用词的极致就是停止词,对页面意义完全没有影响。所以搜索引擎对搜索词串中的关键词并不是一视同仁地处理,而是根据常用程度进行加权。不常用的词加权系数高,常用词加权系数低,排名算法对不常用的词给予更多的关注。

假设A,B两个页面都各自出现”我们”及”冥王星”两个词。但是”我们”这个词在A页面出现于普通文字中,”冥王星”这个词在A页面出现于标题标签中。B页面正相反,”我们”出现在标题标签中,而”冥王星”出现在普通文字中。那么针对”我们冥王星”这个搜索词,A页面将更相关。

(2)、词频及密度。一般认为在没有关键词堆积的情况下,搜索词在页面中出现的次数越多,密度越高,说明页面与搜索词越相关。当然这只是一个大致直观规律,实际情况要复杂得多,出现频率及密度只是排名因素的很小一部分。

(3)、关键词位置及形式。就像在索引部分中提到的,页面关键词出现的格式和位置都被记录在索引库中。关键词出现在比较重要的位置,如标题标签、黑体、H1等,说明页面与关键词越相关。这一部分就是页面SEO所要解决的。

(4)、关键词距离。切分后的关键词完整匹配地出现,说明与搜索词最相关。比如:搜索”减肥方法”时,页面上连续完整出现”减肥方法”这四个字是最相关的。如果”减肥”和”方法”两个词没有连续匹配出现,出现的距离近一些,也被搜索引擎认为相关性稍微大一些。

(5)、链接分析及页面权重。除了页面本身的因素,页面之间的链接和权重关系也影响关键词的相关性,其中最重要的是锚文字。页面有越多以搜索词为锚文字的导入链接,说明页面的相关性越强。

链接分析还包括了链接源页面本身的主题,锚文字周围的文字等。

5、排名过滤及调整

选出匹配文件子集,计算相关性后,大体排名就已经确定了。之后搜索引擎可能还有一些过滤算法,对排名进行轻微调整,其中最主要的过滤就是施加惩罚。一些有作弊嫌疑的页面,虽然按照正常的权重和相关性计算排到前面,但搜索引擎的惩罚算法却可能在最后一步把这些页面调到后面去。典型的例子是百度的11位,Google的负6,负30,负950等算法。

6、排名显示

所有排名确定后,排名程序调用原始页面的标题标签、说明标签、快照日期等数据显示在页面上。有时搜索引擎需要动态生成页面摘要,而不是调用页面本身的说明标签。

7、搜索缓存

用户搜索的查询词有很大一部分是重复的。按照2/8定律,20%的搜索词占到了总搜索次数的80%,按照长尾理论,最常见的搜索词没有占到80%那么多,但通常也有一个比较粗大的头部,很少一部分搜索词占到了所有搜索次数的很大一部分。尤其是有热门新闻发生时,每天可能有几百万认搜索完全相同的词。

如果每次搜索都重新处理排名可以说是很大的浪费。搜索引擎会把最常见的搜索词及结果存入缓存,用户搜索时直接从缓存中调用,而不必经过文件匹配和相关性计算,大大提高了排名效率,缩短了搜索反应时间。

8、查询及日志

搜索用户的IP地质、搜索的查询词、搜索时间,以及点击了哪些结果页面,搜索引擎都记录形成日志。这些日志文件中的数据对搜索引擎判断搜索结果质量、调整搜索算法、预期搜素趋势都有 重要意义。

搜索引擎工作原理后记

以上几篇文章我们简单介绍了搜索引擎的工作过程,当然实际搜索引擎的工作步骤与算法是非常复杂得。这三篇文字的说明很简单,但其中有很多的技术难点。而且搜索引擎还在不断的优化算法,优化数据库格式。不同搜索引擎的工作步骤也会有差异,但大致所有主流搜索引擎的基本工作原理都是如此,在过去几年及可以预期的未来几年,都不会有实质性的改变。

转载请注明: SEO优化技术»
本文地址: http://www.cw615.com/440.html
喜欢 (0)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址