要想在搜索引擎中有好的排名表现,网站收录是基础。另一方面,页面收录的数量级也代表了网站的整体质量。在我看来,要想收录网站,首先要了解搜索引擎的工作原理,这样才能迎合搜索规则,让网站收录达到理想状态。搜索引擎的工作原理非常复杂,下面我们就来简单说一下搜索引擎如何收集并实现网页的排名。
一、搜索引擎工作过程大致可以分为三个阶段:
1.蜘蛛爬行和抓取:
搜索引擎蜘蛛通过跟踪链接来查找和访问网页,读取网页的Html代码,并将其存储在数据库中。
2.内容预处理:
索引程序对抓取的页面数据进行文本提取、中文分词、索引、倒排索引等处理,供排名程序调用。
3.关键词内容排名:
用户输入查询词后,排名程序调用索引数据库数据,计算相关性,然后按照一定格式生成搜索结果页面。
二、蜘蛛爬行方式
1、蜘蛛通道
相信大家都知道。当蜘蛛访问任何网站时,它都会首先访问网站根目录中的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件和目录,蜘蛛会遵守协议,不会抓取被禁止的URL。
2、跟踪链接
为了在互联网上抓取尽可能多的页面,搜索引擎蜘蛛会跟踪页面上的链接,并从一个页面爬到下一个页面。最简单的爬行策略分为两种:一种是深度优先,另一种是广度优先。深度意味着蜘蛛沿着发现的链接爬行,直到前面没有其他链接,然后返回靠前页,沿着另一个链接爬行。
是指当蜘蛛在一个页面上找到多个链接时,它不会一路跟随一个链接前进,而是一次爬完页面上所有的一级链接,然后沿着二级页面上找到的链接爬到三级页面。
3、引蜘蛛
如果SEO人员想被收录到百度网站上,就要尽量吸引蜘蛛来抓取,因为蜘蛛只能抓取有价值的页面。这里有五个影响因素:网站和页面权重、页面更新程度、导入链接、与首页的距离和URL结构。
4、地址库
为了避免反复抓取和爬取网站,搜索引擎会建立一个地址数据库,记录已经找到但没有爬取的页面,以及已经爬取的页面。蜘蛛在页面上找到链接后不会立即访问,而是将网址存储在地址库中,然后统一安排爬行。
5、地址库中有几个网址来源:
(1)手动输入种子网站;
(2)蜘蛛抓取页面后,从HTML中解析出新的链接URL,并与地址库中的数据进行比较。如果地址库中没有网站,将存储在地址库中进行访问;
(3)站长通过界面提交的网址;
(4)站长通过XML网站地图和站长平台提交的网址;
(5)文件存储。搜索引擎蜘蛛捕获的数据存储在原始页面数据库中。
(6)爬行时检测复制的内容。
三、内容预处理
"预处理"也被称为"索引",因为索引的主要内容是预处理:
1、提取文字
我们存储在原始页面数据库中的是HTML代码,其中不仅包含用户可以直接在页面上看到的文本内容,还包含JS、AJAX等搜索引擎无法用于排名的其他内容。首先要做的是从HTML文件中移除这些无法解决的内容,提取出可以排序的文本内容。
2、中文分词
分词是中文搜索引擎的一个独特步骤,在存储/处理页面/用户搜索时基于词。基本上有两种方法:一种是基于字典匹配,另一种是基于统计。
3、去停止词
无论是英文还是中文,页面上有一些词出现频率很高,对内容没有影响,比如:的、啊、哈等。这些单词叫停止词。搜索引擎将删除这些停止词,使数据主题更加突出,并减少不必要的计算。
4、去噪声词
大多数页面中有一些内容对页面的主题贡献不大。比如A页的内容是一篇关于百度网站的文章,关键词是百度网站。然而,除了解释这个内容的主要内容之外,还有页眉、页脚和广告等区域一起组成了这个页面。
出现在这些部分的单词可能与页面内容本身的关键词无关。搜索引擎的排序程序在对数据进行排序时无法参考这些有噪声的内容,因此需要在预处理阶段对这些噪声进行区分和消除。消除噪音的方法是根据HTML标签将页面分成块,如页眉标签和页脚标签等。删除这些区域后,剩下的就是页面的主要内容。
5、内容去重
也就是说,重复的网页被删除,同一篇文章经常在同一网站的不同网站/不同地址重复出现。为了用户的体验,重复数据删除是必要的,搜索引擎将识别并删除页面上的重复内容。这个过程也叫内容去重,也是影响百度网站收录的点之一。
6、正向索引
简称索引。经过以上步骤(提取、分词、消噪、去重),搜索引擎最终得到能够反映页面主要内容、以词为单位的较早内容。
接下来,搜索引擎的索引程序提取关键词,并根据由分词程序划分的单词将页面转换成由关键词组成的***。同时需要记录频率、频次、格式(如标题标签、黑体、H标签、锚文本等。)和每个关键词在页面上的位置(如页面的靠前段等)。).搜索引擎的索引程序会将页面和关键词构成的词库结构存储到索引数据库中。
7、倒排索引
远期指数不能直接用于排名。假设用户搜索关键字。如果只有正向索引,排名程序需要扫描索引数据库中的所有文件,找出包含关键字的文件,然后计算相关性。
这种计算无法满足实时返回排名结果的要求。搜索引擎会提前对所有关键词进行分类,将正向索引数据库重构为反向索引,将文件到关键词的映射转换为关键词到文件的映射。在倒排索引中,关键字是主键,每个关键字对应一系列文件。例如,显示在下面靠前行右侧的文件都是包含关键字1的文件。这样,当用户搜索关键词时,排序程序在倒排索引中定位该关键词,并且可以立即找出所有关键词的文件。
四、搜索结果排名
经过前面的蜘蛛抓取页面,对数据预处理和索引程序计算得到倒排索引后,搜索引擎就准备好可以随时处理用户搜索了。用户在搜索框输入想要查询的内容后,排名程序调用索引库的数据,计算排名后将内容展示在搜索结果页中。
1、搜索词处理
搜索引擎接收到用户输入的搜索词后,需要对搜索词做一些处理,然后才进入排名过程。搜索词处理过程包括:中文分词、去停止词、指令处理。
完成上面的步骤后,搜索引擎对剩下的内容的默认处理方式是在关键词之间使用"与"逻辑。
比如用户在搜索框中输入"减肥的方法",经过分词和去停止词后,剩下的关键词为"减肥"、"方法",搜索引擎排序时默认认为,用户想要查询的内容既包含"减肥",也包含"方法"。
2、文件匹配
搜索词经过上面的处理后,搜索引擎得到的是以词为单位的关键词***。进入的下一个阶段:文件匹配阶段,就是找出含有所有关键词的文件。在索引部分提到的倒排索引使得文件匹配能够快速完成,假设用户搜索"关键词1 关键词2",排名程序只要在倒排索引中找到"关键词1"和"关键词2"这两个词,就能找到分别含有这两个词的所有页面文件。
3、初始子集的选择
找到包含所有关键词的匹配文件后,还不能对这些文件进行相关性计算,因为在实际情况中,找到的文件经常会有几十、几百万,甚至上千万个。要对这么多文件实时进行相关性计算,需要的时间还是挺长的。百度搜索引擎,最多只会返回760条结果,所以只需要计算前760个结果的相关性,就能满足要求。
由于所有匹配文件都已经具备了最基本的相关性(这些文件都包含所有查询关键词),搜索引擎会先筛选出1000个页面权重较高的一个文件,通过对权重的筛选初始化一个子集,再对这个子集中的页面进行相关性计算。
4、相关性计算
用权重选出初始子集之后,就是对子集中的页面计算关键词相关性的步骤了。计算相关性是排名过程中最重要的一步,影响相关性的主要因素包括如下几个方面:
① 关键词常用程度
经过分词后的多个关键词,对整个搜索字符串的意义贡献并不相同。越常用的词对搜索词的意义贡献越小,越不常用的词对搜索词的意义贡献越大。所以搜索引擎对搜索词串中的关键词并不是一视同仁地处理,而是根据常用程度进行加权。不常用的词加权系数高,常用词加权系数低,排名算法对不常用的词给予更多关注。
② 词频及密度
一般认为在没有关键词堆积的情况下,搜索词在页面中出现的次数多,密度越高,说明页面与搜索词越相关。当然这只是一个大致规律,实际情况未必如此,所以相关性计算还有其他因素。出现频率及密度只是因素的一部分,而且重要程度越来越低。
③ 关键词位置及形式
就像在索引部分中提到的,页面关键词出现的格式和位置都被记录在索引库中。关键词出现在比较重要的位置,如标题标签、黑体、H1等,说明页面与关键词越相关,这一部分就是页面SEO所要解决的。
④ 关键词距离
切分后的关键词完整匹配的出现,说明与搜索词最相关。比如搜索"减肥方法"时,页面上连续完整出现"减肥方法"四个字是最相关的。如果"减肥"和"方法"两个词没有连续匹配出现,出现的距离近一些,也被搜索引擎认为相关性稍微大一些。
⑤ 链接分析及页面权重
除了页面本身的因素,页面之间的链接和权重关系也影响关键词的相关性,其中最重要的是锚文字。页面有越多以搜索词为锚文字的导入链接,说明页面的相关性越强。链接分析还包括了链接源页面本身的内容主题、锚文字周围的文字等。
小结:了解这些知识对于我们做百度网站收录有重要意义,比如标题要包含用户可能搜索的需求词,正文适量体现关键词或拆分词有助于判断内容与用户搜索词的相关性。
五、SEO搜索引擎营销推广
1、定位好网站推广的目标
一个网站在发展过程中有着不一样的目标,有可能会是寻找客户,增加流量等等,所以确定好合适的推广目标有助于选择一个好的关键词。
2、搜集信息,了解市场情况
市场信息千变万化,随时随地的了解市场的情况是非常有必要的,通过了解市场的基本情况,掌握信息动态达到选取关键词的目的。
靠前利用竞价方式提高网站名次,大部分用户不会看搜索引擎后3页的内容,只有排名靠前的信息才会得到用户的关注。通过竞价的方式来获取名次是许多中小网站常用的一种方法,这种方法能够快速提高网站名次,带来人气与流量,缺点就是要花钱,如果有需要选择这种方式也是可行的。
第二优化内部,找出适合搜索引擎搜索的法制。搜索引擎进行收录有一套基本的法则,如果你的网站顺应了搜索引擎的法则名次就能够得到很大的提高,相反网站与搜索引擎法则相违背的话,名次肯定不是很理想的。
3、选取人气比较旺的搜索引擎,如百度、搜狗、360搜索等。
4、要选取最恰当的关键词,因为只有选取了相关度高的关键词,才能让查找者方便找到。
5、要确保排名靠前,信息搜索者在搜索引擎上使用关键词搜索时,会查找到无数个登记注册的企业网站,然而,查找者往往只关注排在前十或二十位的企业网站。
六、那么如何符合搜索引擎的法则呢
1、网页设计中减少图片和FLASH文件,在网页中图片和FLASH过多会影响网站内部的速度,而且搜索引擎在识别有一些图片和FLASH的时候并不能够完全识别出来,搜索引擎就会认为是废的,这样的话网站的PR值分会得到降低。
2、可以利用单页设置关键词来提高名次,关键词在搜索引擎中占了很大一部分比重,提高关键词的设置也可以达到优化网站的目的。
3、友情链接要选好、用好。友情链接用好了能够给网站带来很大的流量,这都是网站站长需要做的实在的事情。
搜索引擎推广方法总结:
搜索引擎可以说是网民的超级百科全书,想要知道任何东西,都可以通过搜搜引擎来实现。据统计,网站四分之三以上的访问量都来自搜索引擎推荐,正因搜索引擎的存在,给企业推广产品和服务提供了良好的契机。当我们做好一个网站并发布了,那我们要怎么做才能让我们的网站被搜索引擎收录呢?
TAG:搜索引擎的工作流程是什么