数据工程师妹子养成手记——数据库篇

这篇文章没有代码,请放心阅读。程序员

程序员最宝贵的东西是生命,生命属于程序员只有一次。一个程序员的一辈子应该这样度过:当她回首往事的时候,她不会由于搭建环境浪费时间而悔恨,也不会由于集群没法运行而羞耻。这样,在她开发的时候,她可以说:“个人整个生命和所有精力,都已经献给了开发中最重要的事情——设计程序,实现程序和调Bug。” ——P酱。算法

P酱是公司新来的实习生妹子。据说是一个文科生。文科生应该会去文案组或者策划组吧。什么?来数据组?让我来带?数据库

因而我和P酱生活工做在了一块儿。编程

<!--more-->缓存

P酱你会些什么?

“我叫P酱,在XX大学读研二,爱好是拍照和被拍,你们能够在B站找到我跳舞的视频,好比av170001。个人另一个爱好是写代码……”编程语言

当一个文科妹子说本身喜欢写代码的时候,整个办公室热闹了起来。分布式

“P酱,据说你喜欢写代码,那你写过什么东西吗?”新人介绍会议结束之后,我问P酱。学习

“通常都是各类分析程序,咱们的专业要作不少调查报告,他们都是用Excel来计算的。我喜欢用Python来把这些统计过程自动化。后来也写过自动写诗的程序、鬼畜视频生成器等等。”优化

“真不敢相信你是文科生。这么说你的兴趣是数据分析方向咯?”网站

“其实我对师父你作的爬虫颇有兴趣。可是据说会常常和网站发生对抗?女孩子仍是不要打打杀杀的好~”

因而我让P酱负责对爬虫的原始数据进行清洗、整理并作简单的分析。

一种船新的数据储存方式

“P酱,爬虫抓到的原始数据是存放在MongoDB里面的,你的Python还不错吧,你试一试用Python来读写MongoDB看看。”

“MongoDB是什么呀?”

“是一个和MySQL不太同样的数据库。”

“MySQL我知道,MongoDB和MySQL有什么不同呢?”

“我举个例子,当你要插入数据的时候,你须要作的,就是‘插入’。咳咳,你不要脸红,我是指你不须要写SQL语句、不须要建表、不须要提早定义字段。仅仅只须要一行代码就可以实现了。我这里给你写了一篇文档,讲到了MongoDB的增删改查,你试一试。数据库已经给你搭建好了,你直接连上去用吧”

半天之后。

“师父,我已经会使用MongoDB啦。”

“你读爬虫的原始数据,主要涉及到的就是查询操做,为了巩固插入、修改和删除的操做,再给你一个小任务吧。试一试写一我的员管理系统吧。”

既然有关系,就整整齐齐放在一块儿看吧

“P酱,你看起来很高兴的样子啊。”

“由于我以为MongoDB比起MySQL太简单了啊~”

“你肯定?那我看看你怎么对整行数据去重的?”

“师父,我知道distinct关键字能够对一个字段去重。可是整行数据我是读出来用Python来去重的。”

“这个时候你就要用到MongoDB的聚合查询了。文档已经给你写好了,拿去看吧。”

“还有还有,这里你把店铺信息和菜单信息放在了两个集合里面,我怎么样才能把他们联表查询出来呢?”

“联表查询是MySQL里面的操做,在MongoDB里面,没有,只有集合,因此叫作联集合查询更恰当一些。这也是要用到聚合查询,也在这个文档里面了。”

再给你一个玩具吧。

“P酱,以前让你作的爬虫数据监控系统怎么样了?”

“功能已经作好了,可是有一个地方查询起来特别慢。我已经加过索引了,但仍是很慢。怀疑是同时联了四个集合的数据形成的。”

“这边的数据实际上每小时才更新一次,你没有必要每次刷新页面都去查询MongoDB的。我以为是时候让你用一下Redis作缓存了。”

“Redis就是那个内存数据库吗?我知道我知道。”

“给你写了一份文档,包含Redis里面的各类数据类型和使用方式。你试一试把Redis和MongoDB结合起来看看能不能提升速度。”

你怎么擅自加功能啊!

“P酱,你怎么在爬虫监控系统的网页上加了一个广播窗口?”

“呀,被师父发现了。由于我想到同一个爬虫可能会被几我的监控,因此就用Redis的发布订阅功能作出来了这个广播的功能。一旦爬虫状态发生改变,全部人都能收到推送。”

“既然你这么闲,那不如加上帐号登陆功能,把权限验证也作上去?不一样的人只能看到本身负责的爬虫。顺便你能够试一试用Redis实现……”

“实现布隆过滤器和Session管理是吗?”

“你怎么知道我要说什么?”

“由于我早上看到你在文档上面更新了布隆过滤器和Session管理相关的内容啊~”

红色的锁?

“师父师父,你知道什么是RedLock吗?”

“你学得这么快?都知道RedLock了?RedLock是Redis官方给出的分布式锁的算法。已经有不少编程语言实现它了。”

“原来RedLock只是一个算法啊……”

为何我学的这么快呢?

“师父师父,我以为很奇怪啊,为何MongoDB和Redis我学得这么快呢?难道是由于他们原本就简单?仍是由于我太聪明了?”

“为何你不说是由于你师父教的好呢?“

“由于这是事实啊~不用我说出来~”

“咳咳,其实是由于两个缘由。一是你一直经过项目驱动来学习,先有需求,而后再去学习实现这个需求所要涉及到的技能。因此你知道你学的东西能用来干什么,天然就能学得快……”

“那第二个缘由是什么呢?”

“第二个缘由,我先问你一个问题,你会搭建Redis集群吗?会搭建MongoDB集群吗?知道什么叫作哨兵吗?你知道如何优化MongoDB的启动参数吗?”

“这…………好像都不知道额…………”

“由于你的角色是数据工程师,不是数据库工程师,因此数据库搭建、底层优化这些内容我都给你跳过了。”

“这些听起来都很重要啊,师父你会教我吗?”

“你想常常值夜班吗?想半夜3点被人打电话叫起来修数据库吗?认清本身的定位啊,数据库工程师的技能固然很重要,但你是要成为数据工程师的人,技能树应该点在合适的方向。”

后记

后来,P酱成了别人的女友。

幸亏我还有左手和右手,因而我把我给P酱总结的文档编撰成了《左手MongoDB,右手Redis——从入门到商业实战》这本书。本书如今已经在京东、亚马逊、淘宝上架。

这本书的定位是MongoDB和Redis的应用,因此有意弱化了数据库的搭建、维护和底层优化。因此本书可能不适合数据库工程师。

但愿本书可以给那些一直想掌握MongoDB、Redis,可是又不知道从何处下手的读者,提供一个学习的方向。

相关文章
相关标签/搜索