什么是爬虫

百度需要对网页经行计算，所以百度平台的服务器会发出一串数据到整个互联网的页面上来，这串数据就叫做爬虫。每个搜索引擎都有自己的爬虫，百度的爬虫叫做百度蜘蛛，360的叫360只蜘蛛，谷歌的叫谷歌机器人，必应的叫必应机器人。

这串代码来了之后就会对网页进行抓取，也就是下载这个页面。下载了页面以后，网站才会被计算，才会有排名。如果网站没有爬虫来爬，就代表这个网页只有自己观看。

模拟普通用户

为什么要模仿普通用户？蜘蛛看我们的网站进行计算得分，计算的标准就是看网站对百度有没有帮助，能不能吸引到更多的用户，能不能帮助使用百度的人解决需求。模拟普通用户就是初步的检查网站的基本信息。凡是需要vip或者登录才能访问的页面，百度都不会抓取。比如QQ空间。

百度蜘蛛来网页时会有两个步骤。第一个就是来访。来访之后就会返回，即带回数据。这意味着蜘蛛在返回的时候就会计算网页的价值，如果网页没有价值，那么蜘蛛就会减少来访频率或者不来访。因为百度蜘蛛会访问无数个页面，没有价值的网站就不会来访，以节约资源。

文章版权归作者所有，未经允许请勿转载。