《全栈数据之门》(暂定书名)是末学近5年来工做技能的积累,从8个月前开通公众号写的第一篇起,中间也不知度过了多少个寂寞的夜晚。python
写文章原本就是一个很费力的活,何况写书要求还得高些。算法
原计划写的是七章,每章七篇,共计七七得四十九篇。只是在写做过程当中,舍弃了部分原计划的篇幅。感受以目前的功力,或是写不出特点,或是没有好的应用场景,或是没有写做的动力,或是……总之,理由老是能够找出来的,正如男人老是能够找到出轨的理由同样好笑。框架
舍弃了部分篇幅,也增长或者替换了部份内容,所以目前仍是七个章节,只是每章节只余六篇文章,共讲六七得四十二篇。六这个数字,其实也是极好的,正合了八卦中每一卦六爻的数,何况,看过《鹿鼎记》的朋友,应该都知道有本书叫《四十二章经》的嘛,也许四十二这个数字也还不差。机器学习
对于暂时弃而不用的素材,或许再过3、五年,届时若是技术上还有大境界上的提高,再汇编成册,也未可知。分布式
若是此书能叫《全栈数据之门》(具体书名还得再与出版社编辑讨论才定),那么也许下一本就叫《全栈数据之路》。正如同登山通常,入了门,还得找条路上山。工具
目前的字数统计在12万左右,因有部分代码与结论直接截图了,统计字数会吃亏一些。oop
言归正传,数量多少也许并不过重要,我相信读者也更关心书的质量。这也正是末学完成初稿却还未交稿的缘由。由于,接下来是二稿的开始。学习
在二稿中还有不少的事情要作,还须要修正大量的细节,目前能想到的有以下:大数据
修正错别字,修正标点符号,让文章能读通、可读通。编码
增长更多的图表,让文章表述更清晰。
给文章增长可读性,也许就应该多扯淡,让观点在扯淡或者比喻中更加显现,而不是生硬的文字。
完善每章的引言,除了六篇正文外,引言原本就是在计划中的。
统一文章中的风格,包括使用的环境,演示数据,这又是一个大工程。
调整部分文章的内容,尽能够多增长小标题,让文章更有条理。也会修正部分的描述,让整本书看起来,会更加的顺畅。
(先作完上面的,其它的想到再作,目标不要太多)。
固然,若是有更好的建议,也请留言或者回复公众号,让我知道。
下面附上目前的初稿大纲,看了大纲,若是想帮忙审稿或者参与改进,请联系我。
0x10【引言】Linux引言
0x11【初稿】Linux基础,从零开始
0x12【初稿】Grep与Sed,文本处理
0x13【初稿】数据琅琊棒,假装者AWK
0x14【初稿】Shell快捷键,Emacs入门
0x15【初稿】缘起于Linux,一入Mac误终身
0x16【初稿】集大成者,集群安装
0x20【引言】Python引言
0x21【初稿】道法天然,Python出洞
0x22【初稿】Anaconda,Ipython
0x23【初稿】美不胜收,Python工具
0x24【初稿】SQL技能,必备MySQL
0x25【初稿】Pandas,数据之框
0x26【初稿】Zeppelin,一统江湖
0x30【引言】大数据引言
0x31【初稿】神象住世,Hadoop
0x32【初稿】分治之美,MapReduce
0x33【初稿】Hive基础,蜂巢与仓库
0x34【初稿】Hive深刻,实战经验
0x35【初稿】SQL与NoSQL,Sqoop为媒
0x36【初稿】大无所大,生态框架
0x40【引言】机器学习引言
0x41【初稿】Sklearn,机器学习
0x42【初稿】模型评估,交叉验证
0x43【初稿】数据矿工,一致清洗
0x44【初稿】中文向量,词袋模型
0x45【初稿】近朱者赤,相亲KNN
0x46【初稿】自学数据,神蟒领舞
0x50【引言】算法引言
0x51【初稿】很傻很天真,朴素贝叶斯
0x52【初稿】菩提之树,决策姻缘
0x53【初稿】随机之美,随机森林
0x54【初稿】孤立森林,挖掘异常
0x55【初稿】自编码器,深度之门
0x56【初稿】集体智慧,失控哲学
0x60【引言】Spark引言
0x61【初稿】PySpark,强者联盟
0x62【初稿】RDD算子,运算之魂
0x63【初稿】神器之父,Scala入世
0x64【初稿】分布式SQL,蝶恋飞舞
0x65【初稿】DataFrame,加油雄起
0x66【初稿】机器之心,学习ML库
0x70【引言】数据场引言0x71【初稿】数据科学家,必备之Shell0x72【初稿】分析之始,描述统计0x73【初稿】大数据分析,七层基本功0x74【初稿】数据极客,职位信息0x75【初稿】数据科学,七大技能0x76【初稿】色便是空,blank与null