一、在导入一个包的时候,Python 会根据目录只有包含一个叫作 __init__.py 的文件才会被认做是一个包,放一个空的 :file:__init__.py就能够了。html
二、类的方法与普通的函数只有一个特别的区别——它们必须有一个额外的第一个参数名称, 按照惯例它的名称是 self,self表明的实例,self.__class__指向类。python
三、类中以"__"开头定义的变量为私有变量;mysql
四、pip升级:linux: pip2/3 install -U pip windows: python2/3 -m pip install -U piplinux
五、xpath路径表达式:git
六、json:对json模块的方法的注释:dump和dumps(从Python生成JSON),load和loads(解析JSON成Python的数据类型);dump和dumps的惟一区别是dump会生成一个类文件对象,dumps会生成字符串,同理load和loads分别解析类文件对象和字符串格式的JSON。github
七、python调试默认为warnning级别,只有大于该级别的才生效,日志级别大小关系为:CRITICAL > ERROR > WARNING > INFO > DEBUG > NOTSET,固然也能够本身定义日志级别。使用教程
redis
八、python链接mysql,ip地址填写"127.0.0.1",而不是"localhost",不然可能报错。sql
九、元组中只包含一个元素时,须要在元素后面添加逗号,eg:y = (1,)chrome
十、数据结构的符号:[] - 列表、(a,a,a)或 a,a,a - 元组 、{无键值对}或set() - 集合、{}或者{键值对} - 字典;json
十一、集合是一个无序不重复元素的集。基本功能包括关系测试和消除重复元素。
安装:
一、python3安装的时候,须要以下依赖:
yum install openssl-devel -y yum install zlib-devel -y
二、python3在安装make的时候,会提示:The necessary bits to build these optional modules were not found ,而后提示一些模块没有找到,解决方法 解决方法2。
yum install bzip2-devel ncurses bsddb gdbm-devel sqlite-devel readline-devel
爬虫:
1、python 自带的urlib2和urlib或者第三方模块requests
这种方案适合简单的页面爬虫,好比爬取博客园推荐文章。
urllib2和urllib是python自带模块可用来发送处理请求,虽然比较灵活但API易用性较差,因此通常都要进行二次封装,我曾经也进行过封装,最后发现本身封装出来的模块无限趋近于很是成熟的requests库,因此仍是直接使用requests吧,固然requests只发送和接受请求,对于页面分析还要配合lxml或beautifulsoup等第三方库进行。高级点的爬虫不只仅是发送和处理请求,还须要处理异常,请求速度控制等问题,这就须要咱们写额外的代码去控制,固然咱们能够本身写只是时间问题,但彻底没有必要,接下来我会介绍第二种方案。
若是本身写的话,能够用自带的urllib2,也能够用requests,解析可使用lxml,BeautifulSoup,实现动态解析,还有splinter等框架,还能够用threading模块实现多线程,或者使用协程框架gevent。
2、scrapy框架
scrapy是爬虫领取的佼佼者,目前我作的项目不管复杂与否,都采用scrapy进行,对于请求调度,异常处理都已经封装好了,并且有第三方的scrapy-redis还能够支持分布式,咱们把关注点放在更重要的页面分析和规则编写上,代码能够参考我github上的例子。
scrapy抓取虎嗅网文章: https://github.com/world1234567/scrapy_for_huxiu
3、python selenium
这种方式我称为终极必杀器,通常是实在没办法的时候才用,之前我在利用某家搜索引擎抓取文章时,该搜索引擎采用的比较高难度的反爬虫机制并且不断变化让人找不到规律,最典型的特色就是cookie会随机隐藏到某个页面js和图片中,解决方案就是模拟浏览器的行为加载全部js等静态资源文件,若是本身写个浏览器取解析太扯蛋了,若是chrome浏览器能开放接口,经过chrome的加载方式获取页面的内容就行了,这就是selenium了,selenium加上随机等待时间能够模拟出和人很是相似的操做行为,缺点就是速度较慢,可是通常爬虫对抓取速度要求不高,重要的是稳定性,这种方式对于抓取反爬虫机制作的好的大型网站比较适用。
总结,对于大部分爬虫需求直接用scrapy解决,若是解决不了再采用第一种或第三种方案,就这么简单。