爬虫之代理ip的用法

#coding:utf-8
from urllib import request

url= 'http://www.baidu.com'
# 准备代理ip地址
proxy_ip = {
    'http':'139.224.135.94:80'
}
# 根据代理ip建立代理对象
proxy_handler = request.ProxyHandler(proxy_ip)
# 本身建立一个发送请求的对象
opener = request.build_opener(proxy_handler)
# 挂载opener对象
request.install_opener(opener)
# open()发起请求
# response = opener.open(url)
# print(response.read().decode('utf-8'))


ip_list = [
    '139.224.135.94:80',
    '211.159.171.58:80',
    '180.114.229.48:61234',
    '115.213.203.209:808',
    '119.28.152.208:80',
    '122.72.18.34:80',
    '120.79.184.10:6666',
    '120.92.88.202:10000'
]

for ip in ip_list:
    try:
        proxy_han = request.ProxyHandler({'http:':ip})
        opener = request.build_opener(proxy_han)
        request.install_opener(opener)
        # timeout 设置超时时间
        resp = opener.open('http://www.baidu.com',timeout=0.1)
        print(len(resp.read().decode('utf-8')))
    except Exception as e:
        print(ip,'不可用')
        print(e)
    else:
        print(ip,'可用')

读写excel(xlrd、xlwt)

最近须要从多个excel表里面用各类方式整理一些数据,虽说原来用过java作这类事情,可是因为最近在学python,因此固然就决定用python尝试一下了。发现python果真简洁不少。这里简单记录一下。(因为是用到什么学什么,因此不算太深刻,高手勿喷,欢迎指导)html

1、读excel表java

读excel要用到xlrd模块,官网安装(http://pypi.python.org/pypi/xlrd)。而后就能够跟着里面的例子稍微试一下就知道怎么用了。大概的流程是这样的:python

一、导入模块数组

      import xlrdui

二、打开Excel文件读取数据编码

       data = xlrd.open_workbook('excel.xls')url

三、获取一个工做表spa

1  table = data.sheets()[0]          #经过索引顺序获取
2  table = data.sheet_by_index(0) #经过索引顺序获取
3  table = data.sheet_by_name(u'Sheet1')#经过名称获取

四、获取整行和整列的值(返回数组)代理

         table.row_values(i)调试

         table.col_values(i)

五、获取行数和列数 

        table.nrows

        table.ncols

六、获取单元格

  table.cell(0,0).value

        table.cell(2,3).value

就我本身使用的时候以为仍是获取cell最有用,这就至关因而给了你一个二维数组,余下你就能够想怎么干就怎么干了。得益于这个十分好用的库代码非常简洁。可是仍是有若干坑的存在致使话了必定时间探索。如今列出来供后人参考吧:

一、首先就是个人统计是根据姓名统计各个表中的信息的,可是调试发现不一样的表中各个名字貌似不可以匹配,开始怀疑过编码问题,不事后来发现是由于  空格。由于在excel中输入的时候极可能会顺手在一些名字后面加上几个空格或是tab键,这样看起来没什么差异,可是程序处理的时候这就是两个彻底  不一样的串了。个人解决方法是给每一个获取的字符串都加上strip()处理一下。效果良好

二、仍是字符串的匹配,在判断某个单元格中的字符串(中文)是否等于我所给出的的时候发现没法匹配,而且各类unicode也不太奏效,百度过一些解决  方案,可是都比较复杂或是没用。最后我采用了一个比较变通的方式:直接从excel中获取我想要的值再进行比较,效果是不错就是通用行不太好,个  呢不能问题还没解决。

2、写excel表

  写excel表要用到xlwt模块,官网下载(http://pypi.python.org/pypi/xlwt)。大体使用流程以下:

一、导入模块

  import xlwt

二、建立workbook(其实就是excel,后来保存一下就行)

  workbook = xlwt.Workbook(encoding = 'ascii')

三、建立表
  worksheet = workbook.add_sheet('My Worksheet')

四、往单元格内写入内容

  worksheet.write(0, 0, label = 'Row 0, Column 0 Value')

五、保存

  workbook.save('Excel_Workbook.xls')

因为个人需求比较简单,因此这上面没遇到什么问题,惟一的就是建议仍是用ascii编码,否则可能会有一些诡异的现象。

固然xlwt功能远远不止这些,他甚至能够设置各类样式之类的。

https://www.cnblogs.com/MrLJC/p/3715783.html

相关文章
相关标签/搜索