Python爬虫(入门+进阶)学习笔记 1-2 初识Python爬虫

本人Mac + Anaconda(Python3) + PyCharm + Chromehtml


简单来讲,Anaconda是包管理器和环境管理器。Anaconda 附带了一大批经常使用数据科学包,它附带了 conda、Python 和 150 多个科学包及其依赖项。所以你能够当即开始处理数据。Anaconda 是在 conda(一个包管理器和环境管理器)上发展出来的。在数据分析中,你会用到不少第三方的包,而conda(包管理器)能够很好的帮助你在计算机上安装和管理这些包,包括安装、卸载和更新包。Anaconda 的下载文件比较大(约 500 MB),由于它附带了 Python 中最经常使用的数据科学包。若是计算机上已经安装了 Python,安装不会对你有任何影响。实际上,脚本和程序使用的默认 Python 是 Anaconda 附带的 Python。
python



PyCharm是一种Python IDE(Integrated Development Environment,集成开发环境),带有一整套能够帮助用户在使用Python语言开发时提升其效率的工具,好比调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发。
git


若是下载了PyCharm后,PyCharm中的Python是系统自带的2.x版本,而不是Anaconda中的Python 3.x,须要将Pycharm中Setting中Project Interpreter换成Anaconda目录下的Python:
程序员



爬虫三步走

  • 爬虫第一步:使用requests得到数据
  • 爬虫第二步:使用BeautifulSoup4解析数据
  • 爬虫第三步:使用pandas保存数据
import requests     
r = requests.get('https://book.douban.com/subject/1084336/comments/').text

from bs4 import BeautifulSoup
soup = BeautifulSoup(r,'lxml')
pattern = soup.find_all('p','comment-content')
for item in pattern:
    print(item.string)

import pandas
comments = []
for item in pattern:
    comments.append(item.string)    
df = pandas.DataFrame(comments)
df.to_csv('comments.csv')

Python 3 基础教程github


python如何安装第三方库

python的一大优点就在于python拥有强大的第三方库,经过这些第三方库能够快速的实现某些强大的功能,所以学会安装python的第三方库是使用python必备的一个技能。 
阅读Python 安装 第三方库的安装技巧,学会如何快速安装python第三方库。app


拓展阅读

在行业内很有几年经验的程序员都不能保证本身是彻底精通一门语言的,熟练Python基础知识补充材料可让你很好的完成这门课程的学习,但对于有志于在这个行业闯出一番天地的你而言,还有更多材料等待你去阅读。下面推荐给你一些高质量的学习资料:框架