Python爬虫(一)基础准则和基本概念
爬虫、网络机器人、spider、crawler,都是一个东西,就是一些程序对目标进行有规律有目的性的自动的信息收集。当然实际上爬虫并不会真正去到目的地,但是会发送请求过去,并拿到回复,回复可能是空,也可能是html、json等。
爬虫、网络机器人、spider、crawler,都是一个东西,就是一些程序对目标进行有规律有目的性的自动的信息收集。当然实际上爬虫并不会真正去到目的地,但是会发送请求过去,并拿到回复,回复可能是空,也可能是html、json等。
前面介绍了用请求解析页面数据、headless加载页面js等资源的方式。我们也可以关注一下现有的轮子,一些比较优秀的爬虫框架。这里介绍一下scrapy,并以快速爬取网站全站的链接为例子说明。
scrapy是非常强大...