文章插图
一、建立IP代理池的思路:
做爬虫时,遇到访问太频繁IP被封是难以避免的,而本地单个IP是不足以进行大规模爬取,并且自己并不想购买付费代理,那么,构建一个IP代理池是非常有必要的 。思路如下:
图1
二、建立IP 代理池的步骤:
- 爬取代理IP:搜索选择代理IP网站,选取免费代理;代码如下:
# _*_ coding:UTF-8 _*_# 开发作者:Jason Zhang# 创建时间:2020/12/29 17:58# 文件名称:爬取代理IP.PY# 开发工具:PyCharmimport requestsimport lxml.htmlimport osheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}url_list = ['http://www.xicidaili.com/nn/%r' % i for i in range(1,10)]ip_list = []for url in url_list:r = requests.get(url,headers=headers)etree = lxml.html.fromstring(r.text)ips = etree.xpath('//tr[@class="odd"]')for ip in ips:IP = ip.xpath('//td/text()')ip = IP[0] +':'+ IP[1]ip_list.append(ip)f = open('ip.txt','wb')f.write(','.join(ip_list).encode('utf-8'))f.close(
- 验证代理IP:
# _*_ coding:UTF-8 _*_# 开发作者:关中老玉米# 创建时间:2020/12/29 18:27# 文件名称:验证代理IP.PY# 开发工具:PyCharmimport requestsip_list = open('ip.txt').read().split(',')headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}qurl = 'https://www.baidu.com' #用百度来测试IP是否能正常连网for i in ip_list: #设置超时时间timeout为2 s,超时则为不可用IPr = requests.get(url, proxies={'http': 'http://' + ip[i]}, headers=headers,timeout=2)if r.text:qip.append(qip[i])else:continuef = open('quality_ip.txt','wb')f.write(','.join(quality_ip).encode('utf-8'))f.close()
- 使用代理IP:
# _*_ coding:UTF-8 _*_# 开发作者:Jason Zhang# 创建时间:2020/12/31 18:03# 文件名称:使用代理IP.PY# 开发工具:PyCharm# (1)使用随机 IP,代码如下:import randomimport requestsip_list = open('quality_ip.txt').read().split(',')headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}url = 'http://*********'r = requests.get(url, proxies={'http': 'http://'+random.choice(ip_list)},headers=headers)# (2)因为免费的代理时效很短,在后续的爬取任务中很容易失效,所以当出现访问错误(响应码不等于 200)时,更换 IP,代码如下:ip_list = open('qip.txt').read().split(',')headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}for ip in ip_list:for i in range(len(url_list)):r = requests.get(url_list[i], proxies={'http': 'http://'+ip},headers=headers)if r.status_code != 200:break
以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!
「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助:- 一键cdn服务器搭建 阿里云cdn加速教程
- 教程教您轻松搭建网站 php网站搭建教程
- 五行属性认定的六大定律
- 八字看工作稳定情况
- lol上分最稳的英雄 lol投降指令快捷键
- 投资小利润高的小生意 做什么赚钱最快最稳又不用本
- 球蛋白正常值是多少?
- 新婚夫妻感情不稳定怎么办 新婚夫妻感情不和的原因
- 由八字看你命中注定的灾祸
- 2021公认十大最稳定路由器 路由器拆解可以做什么