2015.12.30 日学习总结

时间 2019-11-08

标签 2015.12.30 学习总结繁體版

原文原文链接

---------2015.12.30---------------- html

学习心得：学习极客学院的python教程下的定向数据爬虫 python

学习成果：经过数据爬虫扒下了喜欢漫画网站的漫画(文章最后是代码)颇有成就感~~~~ 正则表达式

安装好第三方库文件 Requests 编程

学习笔记: 学习

安装python 第三方库撞墙时网站

选择下载网站（几乎全部的第三库文件） ui

http://www.lfd.uci.edu/~gohlke/pythonlibs/ url

whl文件 改后缀名为.zip 解压后 将解压后的最短文件明拷贝到 python安装位置的Lib文件夹里 spa

重点是要记住三个关键字 code

Search findall Sub

正则表达式的用法 经常使用的就是这几个

----[1]-----

# for each in pics_url: #用循环重复一块儿作就会换行

# print(each) #单独作不换行

----[2]-----

# # text = re.findall('">(.*?)</a></li>', html, re.S) #加上换行符号re.S 要慎用

----[3]-----

# # links = re.findall('href="(.*?)"', html, re.S)

# # #print(links) #单独打印报错

# # SyntaxError: Non-ASCII character '\xe7' in file D:/python_test/hello_word on line 50, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

# # 解决办法 作#-*-coding:utf8-*-声明

--------------------

但编程的时候 遇到如下几个问题 后面学习的话 我将带着问题去学习 固然若是有朋友能够帮忙解答，那就更好啦

--<1>---

# # title = re.search('<title>(.*?)</title>', html, re.S).group(1)

#为何要加group不加就是内存地址？

--<2>---

# text = re.findall('<ul>(.*?)</ul>', html, re.S)[0] #为何必定要加[0]?

--<3>---

# print('下载漫画中：',each) #'中文显示为\xe4\xb8\x8b\xe8\xbd\xbd\xe6\xbc\xab\xe7\x94\xbb\xe4\xb8\xad\xef\xbc\x9a？？？ 开始还提取了片头照片

附上个人把漫画的教程

# -*-coding:utf8-*-  import re  import requests

g = open('shuhui.txt','r')
htmls = g.read()
g.close()
pics_url = re.findall('<img src="(.*?)" alt="', htmls)

i = 1 for each in pics_url: print('now is downloading', each)
    pics = requests.get(each)
    fb = open('pics\\' + str(i) + '.jpg', 'wb')
    fb.write(pics.content)
    fb.close()
    i += 1

1. 今日学习总结
2. 3.7日学习总结
3. 2.21日学习总结
4. 2.26日学习总结
5. 2.25日学习总结
6. 2.20日学习总结
7. 2.24日学习总结
8. 学习ios每日总结
9. 2.22日学习总结
10. 2.27日学习总结
更多相关文章...
• XML 总结下一步学习什么呢？ - XML 教程
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• Tomcat学习笔记（史上最全tomcat学习笔记）
• 适用于PHP初学者的学习线路和建议