crawlspider怎么用 scrapy动态页面爬取

文章插图
干货分享！scrapy全站爬取数据以及crawlspider怎么用
前几节课我们用到了全站爬取数据。是通过定义一个通用URL ，利用yield关键字进行翻页爬取从而获取全站数据，今天我们介绍crawlspider这种爬虫快快速几行代码帮助我们爬取全站数据，下面是基本操作步骤。
1.新建一个文件夹，命名为lianxi2.新建爬虫文件，命名为paqu 由于我们这次建立的爬虫是crawlspider这种爬虫，因此我们建立爬虫文件与之前稍有差异（如下图），在爬虫文件名之前新增了“-t crawl”
3.打开爬虫文件。我们会发现爬虫文件与之前，不太一样，在请求模块多了个rules元组，包含几个参数：
1）allow用来填写正则表达式，我们需要翻页爬取的内容就在这里定义规则，需要注意的是allow参数没有必要写出要提取的url完整的正则表达式，部分即可，只要能够区别开来
2）callback用来解析数据
3）当follow为True时，爬虫会从获取的response中取出符合规则的url ，再次进行爬取，如果这次爬取的response中还存在符合规则的url ，则再次爬取，无限循环，直到不存在符合规则的url 。
当follow为False是，爬虫只从start_urls 的response中取出符合规则的url ，并请求。
4.简单应用crawlspider爬虫 start_urls设置起始网址， allow设置正则表达式，根据网址的规律，写出网址的翻页特征，以以下网址为例，变化的是page值因此用数字代替，我们输出response ，就可以看到请求的页面。（自行设置setting）

以上关于本文的内容，仅作参考！温馨提示：如遇健康、疾病相关的问题，请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容，希望对您有所帮助：