首页 > SEO技术 > 网页抓取Spider每遇到一个新文档!

网页抓取Spider每遇到一个新文档!

2022-01-08 02:16 SEO技术 123 ℃
正文

Spider每遇到一个新文档,都要搜索其页面的链接网页。搜索引擎蜘蛛访问web页面的过程类似普通用户使用浏览器访问其页面,即B/S模式。引擎蜘蛛先向页面提出访问请求,服务器接受其访问请求并返回HTML代码后,把获取的HTML代码存入原始页面数据库。搜索引擎使用多个蜘蛛分布爬行以提高爬行速度。搜索引擎的服务器遍布世界各地,每一台服务器都会派出多只蜘蛛同时去抓取网页。如何做到一个页面只访问一次,从而提高搜索引擎的工作效率。在抓取网页时,搜索引擎会建立两张不同的表,一张表记录已经访问过的网站,一张表记录没有访问过的网站。当蜘蛛抓取某个外部链接页面URL的时候,需把该网站的URL下载回来分析,当蜘蛛全部分析完这个URL后,将这个URL存入相应的表中,这时当另外的蜘蛛从其他的网站或页面又发现了这个URL时,它会对比看看已访问列表有没有,如果有,蜘蛛会自动丢弃该URL,不再访问。

本文TAG:

标签云

热门文章

业务地区

重庆,北京,天津,上海,河北,石家庄,山西,太原,内蒙古,辽宁,沈阳,吉林,长春,黑龙江,哈尔滨,江苏,南京,浙江,杭州,江西,南昌,安徽,合肥,福建,莆田,福州,厦门,山东,济南,青岛,河南,郑州,湖北,武汉,湖南,长沙,广东,广州,深圳,广西,南宁,海南,海口,四川,成都,贵州,贵阳,云南,昆明,西藏,陕西,西安,甘肃,兰州,青海,西宁,宁夏,银川,新疆
渝洋SEO博客