学好爬虫技术能作到哪些很酷颇有趣颇有用的事情?

一个熟悉爬虫技术的人的独白!正则表达式

不得不说,Python爬虫对于我来讲真是个神器。以前在分析-些经济数据的时候,须要从网上抓取一些数据下来,想了不少方法,一开始是经过Excel,可是Excel只能爬下表格,局限性太大了。以后问了学编程的朋友,他说JavaScrip也能实现,因而懵懵董董地就去学Java (我那朋友是学Java的,我当时问他用Java能不能实现,他说JavaScript好像能够,当时我什么都不懂,就把JavaScript理解成是Java下的一个分支,觉得JavaScript只是ava其中-个包什么的,因而我便去学了一小会Java,无知惹的祸啊。。。)。编程

但整个Java体系也太庞大了 ,学起来力不从心,毕竟我只是要运用其中一部分功能而已,因而学没多久我就放弃了。就在我迷茫的时候,我发现了Python.....
爬虫ide

废话说多了,说说本身的学习经历吧。也给想学Python,想写爬虫的人一个参考。学习

一开始我是在网上本身找了个基础的视频来学,Python真是门简单的语言,以前懂一点Visual Basic,感受Python也很适合给无编程基础的人学习。网站

入门视频到最后,就作出了个人第一个爬虫一百度贴吧图片爬虫 (相信不少的教程都是以百度贴吧爬虫为经典例子来讲的。)url

一开始代码很简单,只能爬取第一页的数据,因而我加了一一个循环,就可以爬取制定页数的图片了。而且图片是有按顺序排列的,很是方便。在筛选网址的时候用正则表达式就行了。视频

但是我不常常混贴吧啊,也不多有要下载贴吧图片的需求。回归初衷吧。我对投资有兴趣,学编程有一个缘由也是为了投资服务。在7月股灾进行时的时候,我错过了一个明显的“捡钱”的机会,并不是自身专业知识不够,而是当时在准备考试,不多去看股市,这让我心有不甘:要是有个东西可以帮我自动爬取数据分析并推送就行了,因而有了如下学习轨迹:xml

1、爬取数据blog

在此顺便提一下,能够到公众号菜单栏的学习福利里面逛逛。里面有些教程仍是挺不错的。两个能够替代Python里urlib和re正则表达式的库,它们分别叫作requests和Ixml。教程

第一个库挺不错的,如今在获取网页源代码时,我都用这个库,你们若是有不懂的能够看看那个网站。第二个库因为我是用3.4版本的Python,折腾了好久没折腾进去,因而我发现了另外一个不错的库BeautifulSoup,详细教程参考: Python爬虫入门八之Beautiful Soup的用法

有了requests和Beautifulsoup,基本上能够实现我想要的不少功能了。我便作了一一个抓取分级基金数据的爬虫:

2、分析并推送

其实在此分析其实还谈不上,顶多算是筛选。(不过我相信随着 我数学能力提高会能有进一步的分析的,美好的祝愿。。。)筛选很简单,就是涨幅或收益率等等知足必定条件就保留下来,保留下来干吗?推送啊! ! !

将保存下来的数据经过邮件发送到本身的邮箱,手机上下载个软件,一切就大功告成了!

至此当时学习Python的目的就达到了,当时激动地要炸了! ! !

不过....那么好玩的东西,怎么能这么快就结束了?再折腾吧!

3、简单的界面

等等! Python好像不能直接弄成exe可执行文件,不能每次运行都开Python的窗口啊!强迫症怎么能忍! 1上网搜搜发现有诸如py2exe的包能够转换,但是老子是3.4版本啊! 折腾半天没搞定,算了!我不是会点VB吗,用那个吧。因而连界面都有了

相关文章
相关标签/搜索