关于python也是在看教程和书以及视频学习,纯种小白(哈士奇的那种)html
加个代理ip,也能够不加直接使用本身的ip地址
代理ip -> '123.116.129.176'
西刺代理python
菜鸟教程的re模块express
更加详细的用法百度能够找到不少,我就不一一的列出来了
这里有个坑,第一个匹配出来的url地址不对,缘由是网页中有个非列表标签内的竟然和正则开始的匹配(列表标签)是一致的
部分代码浏览器
# 建立workbook和sheet对象 workbook = xlwt.Workbook() # excel 底部 sheet1 # 覆盖单元格 sheet1 = workbook.add_sheet('统计', cell_overwrite_ok=True) ... for i in content: # 在第 row + 1 行第 1 列写入序号 sheet1.write(row + 1, 0, row + 1, style) # 在第 row + 1 行第 2 列写入出版社_url sheet1.write(row + 1, 1, "https://read.douban.com{}".format(str(i[0])), style) # 在第 row + 1 行第 3 列写入LOGO_url sheet1.write(row + 1, 2, i[1], style) # 在第 row + 1 行第 4 列写入出版社名称 sheet1.write(row + 1, 3, i[2], style) # 在第 row + 1 行第 5 列写入在售数量 sheet1.write(row + 1, 4, int(i[3]), style) # 对在售数量求和 sum += int(i[3]) row += 1
时间模块的用法
获取当前时间并格式化:time.strftime("%Y%m%d%H%M%S", time.localtime())
须要注意,这里写个判断语句要等到基础数据都写入完毕以后在进行求和运算并写入ide