这篇文章主要介绍了怎么建立代理Ip池,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。

说明

1、首先获取代理的json信息。

2、使用requests获取整个页面的text(字符串),然后使用split('\n') 将每行分割后形成的列表,方便该列表采用json.loads()方法,将每行的字符串转换成json对象,最终取值。

实例

  #!/usr/bin/env python3
 
 
 
  # coding:utf-8
 
 
 
  #lanxing
 
 
 
  import json
 
 
 
  import telnetlib
 
 
 
  import requests
 
 
 
  import random
 
 
 
  proxy_url = 'https://raw.githubusercontent.com/fate0/proxylist/master/proxy.list'
 
 
 
  # proxyList = []
 
 
 
  #定义函数,验证代理ip是否有效
 
 
 
  def verify(ip,port,type):
 
 
 
  proxies = {}
 
 
 
  try:
 
 
 
  telnet = telnetlib.Telnet(ip,port=port,timeout=3) #用这个ip请访问,3s自动断开,返回tiemout
 
 
 
  except:
 
 
 
  print('unconnected')
 
 
 
  else:
 
 
 
  #print('connected successfully')
 
 
 
  # proxyList.append((ip + ':' + str(port),type))
 
 
 
  proxies['type'] = type
 
 
 
  proxies['host'] = ip
 
 
 
  proxies['port'] = port
 
 
 
  proxiesJson = json.dumps(proxies)
 
 
 
  #保存到本地的proxies_ip.json文件
 
 
 
  with open('proxies_ip.json','a+') as f:
 
 
 
  f.write(proxiesJson + '\n')
 
 
 
  print("已写入:%s" % proxies)
 
 
 
  #定义函数,带着url地址去获取数据
 
 
 
  def getProxy(proxy_url):
 
 
 
  response = requests.get(proxy_url)
 
 
 
  #print(type(response))
 
 
 
  # 用split('\n') 将每一行分割之后组成的列表,消除换行影响
 
 
 
  proxies_list = response.text.split('\n')
 
 
 
  for proxy_str in proxies_list:
 
 
 
  # 用json.loads()方法,将每一行的字符串转换为json对象,最后取值
 
 
 
  proxy_json = json.loads(proxy_str)
 
 
 
  host = proxy_json['host']
 
 
 
  port = proxy_json['port']
 
 
 
  type = proxy_json['type']
 
 
 
  verify(host,port,type)
 
 
 
  #主函数,入口
 
 
 
  if __name__ == '__main__':
 
 
 
  getProxy(proxy_url)