• 客服
    咨询
  • 公告3
  • 关注

    关于时代 更多优惠活动等您来拿!
    宝鸡网络公司微信 扫一扫关注——微信公众号 时代手机浏览 扫一扫立即手机浏览
  • 关闭
  • 顶部
  • 搜索引擎工作原理–预处理 - 提取文字

    时间:2012-03-29 15:10 来源:未知
    搜索引擎工作原理 – 预处理 -- 提取文字

    在我们过去说读的一些关于SEO优化的书中,把“预处理”也简称为“索引”,因为索引时预处理最主要的步骤。

    搜索蜘蛛抓取原始页面,并不能直接用于查询排名处理。搜索引擎数据库中的页面数都在数万亿级别上,用户输入搜索词后,如果靠排名程序对这么多页面进行分析计算。计算量太大。不可能在一两秒内返回结果。因此抓取来的页面必须经过预处理,存入数据库,为后面查询排名做准备。

    爬行和抓取一样,预处理也是在后台提前完成的,用户搜索时感觉不到这个过程。

    现在的搜索引擎还是以文字内容为基础。蜘蛛抓取HTML页面中的代码,除了用户在浏览器可以看到的文字之外,还包含了大量的HTML格式标签、JavaScript程序等无法用于排名的内容,搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序。提取可以用于排名的网页页面文字内容。

    除了可见文字之外,搜索引擎也会提取一些特殊的包含文字信息的代码,如Mate标签中的文字、如片替代文字、Flash文件的替代文字、链接锚文字。