crawlspider怎么用 scrapy动态页面爬取


crawlspider怎么用 scrapy动态页面爬取

文章插图
干货分享!scrapy全站爬取数据以及crawlspider怎么用
前几节课我们用到了全站爬取数据 。是通过定义一个通用URL , 利用yield关键字进行翻页爬取从而获取全站数据 , 今天我们介绍crawlspider这种爬虫快快速几行代码帮助我们爬取全站数据 , 下面是基本操作步骤 。
1.新建一个文件夹 , 命名为lianxi2.新建爬虫文件 , 命名为paqu 由于我们这次建立的爬虫是crawlspider这种爬虫 , 因此我们建立爬虫文件与之前稍有差异(如下图) , 在爬虫文件名之前新增了“-t crawl”
3.打开爬虫文件 。我们会发现爬虫文件与之前 , 不太一样 , 在请求模块多了个rules元组 , 包含几个参数:
1)allow用来填写正则表达式 , 我们需要翻页爬取的内容就在这里定义规则 , 需要注意的是allow参数没有必要写出要提取的url完整的正则表达式 , 部分即可 , 只要能够区别开来
2)callback用来解析数据
3)当follow为True时 , 爬虫会从获取的response中取出符合规则的url , 再次进行爬取 , 如果这次爬取的response中还存在符合规则的url , 则再次爬取 , 无限循环 , 直到不存在符合规则的url 。
当follow为False是 , 爬虫只从start_urls 的response中取出符合规则的url , 并请求 。
4.简单应用crawlspider爬虫 start_urls设置起始网址 , allow设置正则表达式 , 根据网址的规律 , 写出网址的翻页特征 , 以以下网址为例 , 变化的是page值因此用数字代替 , 我们输出response , 就可以看到请求的页面 。(自行设置setting)


    以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

    「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: