什么是爬虫

百度需要对网页经行计算,所以百度平台的服务器会发出一串数据到整个互联网的页面上来,这串数据就叫做爬虫。 每个搜索引擎都有自己的爬虫, 百度的爬虫叫做百度蜘蛛,360的叫360只蜘蛛,谷歌的叫谷歌机器人,必应的叫必应机器人。

这串代码来了之后就会对网页进行抓取,也就是下载这个页面。下载了页面以后,网站才会被计算,才会有排名。如果网站没有爬虫来爬,就代表这个网页只有自己观看。

模拟普通用户

为什么要模仿普通用户?蜘蛛看我们的网站进行计算得分,计算的标准就是看网站对百度有没有帮助,能不能吸引到更多的用户,能不能帮助使用百度的人解决需求。模拟普通用户就是初步的检查网站的基本信息。凡是需要vip或者登录才能访问的页面,百度都不会抓取。比如QQ空间。

百度蜘蛛来网页时会有两个步骤。第一个就是来访。来访之后就会返回,即带回数据。这意味着蜘蛛在返回的时候就会计算网页的价值,如果网页没有价值,那么蜘蛛就会减少来访频率或者不来访。因为百度蜘蛛会访问无数个页面,没有价值的网站就不会来访,以节约资源。

© 版权声明
评论 抢沙发

请登录后发表评论