[Python] 知乎多线程爬虫

时间 2019-11-10

原文原文链接

知乎多线程爬取问题：css

自打放了寒假，我就一直想把系统的学习一遍Python爬虫的知识。由于之前只是零碎的学习，形成许多东西都只是只知其一;不知其二。 git

项目灵感来源是以为单曲循环的歌至少让一我的曾经在聆听中感动过，歌曲的歌词中或许有触动他的旋律，也可能只是歌词恰巧与他的人生经历类似。不论怎样，我以为能让一我的单曲循环的歌一定不差，因此就但愿能得到这些歌曲名称并在网易云生成歌单。 github

然而，当我看到各位答主的答案后，我就发现有点麻烦了。
好比：sql

南山南数据库

----------------我是不安分的分割线---------好多评论里的小伙伴说不得不推荐傲寒也是马頔歌曲里我爱的一首若是说南山南是一见倾心被开头的“你在南方的艳阳天大雪纷飞我在北方的寒夜里四季如春”惊艳到一点也不为过而傲寒更可能是日久生情“若是全世界对你恶语相加我就对你说上一世情话” 这么美的歌词仍是在我某天一大凌晨苦逼化妆中猛然注意到的
而且因为这两首歌我下定了要学吉他的年头而且我已经单曲循环了两周了还没厌良心推荐服务器

做者：JoyHsu多线程

连接：https://www.zhihu.com/questio...ide

我发现有很多答案中歌名是和其它话混在一块儿的，那这样的状况怎么处理呢？

很天然的，我想起来了天然语言处理，奈何寒假还没时间看NLTK库，不过我却是知道jieba这个中文分词库，而后就直接试了一下，分出来的结果是这样的：

南山|n 南|n -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w 我|r 是|v 不安|a 分|v 的|u 分割线|n -|w -|w -|w -|w -|w -|w -|w -|w -|w 好多|m 评论|v 里|n 的|u 小|a 伙伴|n 说|v 不得|v 不|d 推荐|v 傲|a 寒|a 也|d 是|v 马|n 頔|n 歌曲|n 里|n 我|r 爱|v 的|u 一|m 首|q 若是|c 说|v 南山|n 南|n 是|v 一|m 见|v 钟情|n 被|p 开头|v 的|u 你|r 在|p 南方|n 的|u 艳阳天|n 大雪|n 纷飞|v 我|r 在|p 北方|n 的|u 寒|a 夜里|n 四|m 季|n 如春|v 惊艳|v 到|v 一点|m 也|d 不|d 为|p 过|v 而|c 傲|a 寒|a 更多|d 是|v 日|n 久|a 生情|v 若是|c 全世界|n 对|p 你|r 恶语|n 相|d 加|v 我|r 就|d 对|p 你|r 说|v 上|n 一世|n 情话|n 这么|r 美的|n 歌词|n 仍是|d 在|p 我|r 某|r 天|n 一|m 大|a 凌晨|n 苦|a 逼|v 化妆|v 中|n 猛然|d 注意|v 到|v 的|u 而且|c 因为|c 这|r 两首|n 歌|n 我|r 下定|v 了|u 要|v 学|v 吉他|n 的|u 年头|n 而且|c 我|r 已经|d 单曲|n 循环|v 了|u 两|m 周|n 了|u 还|d 没|d 厌|v 良心|n 推荐|v

看到了吧，南山和南被分了出来，然而南山南却没有分出来，傲寒也没有分出来，由于用的语料库都是好久之前的词语，不可能有歌名这种词语，而后我一度停了好几天都在思考怎么解决。
仍是没法解决，由于以我目前匮乏的专业知识只凭借瞎想是没有做用的。

而后我继续分析，发现有好多人都会使用书名号《》来引用歌名。
好比：

五月天《步步》

相似这样的答案仍是挺多的，我就直接拿正则匹配书名号里面的内容。

关于程序，知乎登陆部分是参考知乎上的一个回答（@xchaoinfo)。

我本身尝试把爬虫分红了解析器（parser)，数据流存储器(store)，以及规则器(rules)，实际上写的很low。不过也算有了那么点意思。

而后就是加了多线程，关于多线程的使用，我实测对于爬虫的效率绝对是有用的，由于爬虫大部分时间都是等待服务器响应而后下载，因此多线程彻底能够把等待的这部分时间来并行处理，节省时间。

关于存储这一部分，有不少选择，你彻底能够简单选择存储到文本文件，也能够存储到excel文件，最好是存储到数据库，使用起来会极大的方便。因此我一开始是学了Python的sqlite3模块，为了省事，由于sqlite3是自带的。我在会给出一些我学习看到的好的教程。

最后我想提的是，对于BeautifulSoup vs. lxml的效率。之前也没用过lxml，也没以为bs慢，直到我用了它之后，我估计之后不再想用bs了

首先是bs不支持xpath语法选择
重点是bs的效率是真的跟lxml差了好多倍

我感受xpath能够实现简化，由于你经过它抽取一个特定的元素只须要一个字符创(此处也许有人说bs的select也能够实现啊)，可是事实上bs对css selector支持的并非特别好，并且抛开效率不谈，xpath功能很丰富啊，还有不少函数以及操做符可使用，若是你认真学习它的话，文末我也会附上教程连接。

我写的代码实在是渣，写代码量太少了。
能够优化的点，爬虫结构的抽象，异常机制的使用，！！日志的使用。

参考连接：

代码连接：

爬取结果:
连接：excel文件密码：c7wt

原定计划是后续处理每个歌名在网易云里面经过API插曲评论数目，以评论数目做为关键字排序，而后建立一个歌单。
哇哇~~想一想仍是蛮有意思的@_@

最后，祝你们新的一年，学到更多的知识。