搜索引擎工作原理–预处理 - 提取文字

时间：2012-03-29 15:10 次来源：未知

搜索引擎工作原理 – 预处理 -- 提取文字

在我们过去说读的一些关于SEO优化的书中，把“预处理”也简称为“索引”，因为索引时预处理最主要的步骤。

搜索蜘蛛抓取原始页面，并不能直接用于查询排名处理。搜索引擎数据库中的页面数都在数万亿级别上,用户输入搜索词后，如果靠排名程序对这么多页面进行分析计算。计算量太大。不可能在一两秒内返回结果。因此抓取来的页面必须经过预处理，存入数据库，为后面查询排名做准备。

爬行和抓取一样，预处理也是在后台提前完成的，用户搜索时感觉不到这个过程。

现在的搜索引擎还是以文字内容为基础。蜘蛛抓取HTML页面中的代码，除了用户在浏览器可以看到的文字之外，还包含了大量的HTML格式标签、JavaScript程序等无法用于排名的内容，搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序。提取可以用于排名的网页页面文字内容。

除了可见文字之外，搜索引擎也会提取一些特殊的包含文字信息的代码，如Mate标签中的文字、如片替代文字、Flash文件的替代文字、链接锚文字。

宝鸡网站建设公司

0917 3876090

搜索引擎工作原理–预处理 - 提取文字