01 Linux 之门程序员
02 文件操做面试
03 权限管理算法
04 软件安装编程
05 实战经验安全
01 文本工具数据结构
02 grep 的使用框架
03 grep 家族机器学习
04 sed 的使用分布式
05 综合案例函数式编程
01 Shell 分析
02 文件探索
03 内容探索
04 交差并补
05 其余经常使用的命令
06 批量操做
07 结语
01 提升效率
02 光标移动
03 文本编辑
04 命令搜索
05 Emacs 入门
06 Emacs 思惟
01 开源生万物
02 有钱就换Mac
03 程序员需求
04 非程序员需求
05 一入Mac 误终身
01 离线安装
02 Host 与SSH 配置
03 sudo 与JDK 环境
04 准备Hadoop 包
05 开启HTTP 与配置源
06 安装ambari-server
07 后续服务安装
08 结语
01 第一语言
02 数据结构
03 文件读写
04 使用模块
05 函数式编程
06 一道面试题
07 兴趣驱动
01 新旧交替
02 基础变化
03 编码问题
04 其余变化
05 2to3 脚本
06 PySpark 配置
07 喜新厌旧
01 Anaconda
02 安装与配置
03 pip 与源
04 IPython 与Jupyter
05 结语
01 缘起
02 调试与开发
03 排版与格式化
04 辅助工具
05 实用推荐
01 numpy 的使用
02 索引与切片
03 变形与统计
04 矩阵运算
05 实用方法
06 结语
01 PCA 介绍
02 数据均值化
03 协方差矩阵
04 特征值与向量
05 数据映射降维
06 sklearn 实现
01 Hadoop
02 HDFS
03 角色与管理
04 文件操做
05 结语
01 map 与reduce 函数
02 分而治之
03 Hello,World
04 Streaming 接口
01 引言
02 Hive 接口
03 分区建表
04 分区机制
05 数据导入
06 Hive-QL
07 结语
01 排序与分布式
02 多表插入与mapjoin
03 加载map-reduce 脚本
04 使用第三方UDF
05 实战经验
06 生成惟一ID
01 理论基础
02 Shell 操做
03 关联Hive 表
04 数据导入
05 实用经验
01 SQL 与NOSQL
02 从MySQL 导入HDFS
03 增量导入
04 映射到Hive
05 导入Hive 表
06 从HDFS 导出到MySQL
07 从Hive 导出到MySQL
01 SQL 工具
02 基础操做
03 查询套路
04 join 查询
05 union 与exists
06 实战经验
01 快刀
02 一二三要点
03 一个示例
04 应用与统计
05 斩乱麻
01 数据为框
02 加载数据
03 行列索引
04 行列操做
05 合并聚合
06 迭代数据
07 结语
01 心潮澎湃
02 基本使用
03 SQL 与可视化
04 安装Zeppelin
05 配置Zeppelin
06 数据安全
07 使用心得
01 MySQL 聚合
02 Spark 聚合
03 非聚合字段
04 Hive 实现
05 group_concat
06 Hive 窗口函数
07 DataFrame 窗口
08 结语
01 引言
02 MySQL 版本
03 awk 版本
04 Python 版本
05 Hive 版本
06 map-reduce 版本
07 Spark 版本
08 结语
0x51 酸酸甜甜,Orange
01 可视化学习
02 数据探索
03 模型与评估
04 组件介绍
05 与Python 进行整合
06 结语
01 sklearn 介绍
02 数据预处理
03 建模与预测
04 模型评估
05 模型持久化
06 三个层次
01 特征工程
02 独热编码
03 sklearn 示例
04 标准化与归一化
05 sklearn 与Spark 实现
06 结语
01 描述性统计
02 Pandas 实现
03 方差与协方差
04 Spark-RDD 实现
05 DataFrame 实现
06 Spark-SQL 实现
07 结语
01 测试与训练
02 评价指标
03 交叉验证
04 验证数据
05 OOB 数据
01 天然语言
02 中文分词
03 词袋模型
04 词频统计
05 TF-IDF
06 结语
01 朴素的思想
02 算法介绍
03 分类与回归
04 k 与半径
05 优化计算
06 实例应用
01 算法描述
02 创建模型
03 理解模型
04 距离与类似性
05 降维与可视化
06 无监督学习
01 朴素思想
02 几率公式
03 三种实现
04 sklearn 示例
05 朴素却不傻
01 缘起
02 Orange 演示
03 scikit-learn 模拟
04 熵与基尼指数
05 决策过程分析
06 Spark 模拟
07 结语
01 树与森林
02 到处随机
03 sklearn 示例
04 MLlib 示例
05 特色与应用
01 深度学习
02 特征学习
03 自动编码器
04 Keras 代码
05 抗噪编码器
01 全栈框架
02 环境搭建
03 分布式部署
04 示例分析
05 两类算子
06 map 与reduce
07 AMPLab 的野心
01 算子之道
02 获取数据
03 过滤与排序
04 聚合数据
05 join 链接
06 union 与zip
07 读写文件
08 结语
01 SQL 工具
02 命令行CLI
03 读Hive 数据
04 将结果写入Hive
05 读写MySQL 数据
06 读写三种文件
01 DataFrame
02 生成数据框
03 合并与join
04 select 操做
05 SQL 操做
06 自定义UDF
07 三角之恋
01 Spark 与Scala
02 Scala REPL
03 编译Scala
04 sbt 编译
05 示例分析
06 编译提交
01 城市套路深
02 算法与特征工程
03 管道工做流
04 OneHotEncoder 示例
05 ML 回归实战
06 特征处理与算法
07 拟合与评估
01 机器学习
02 语言领域
03 Python 数据生态
04 相关资料
05 书籍推荐
06 性感的职业
01 七大技能
02 SQL 与NoSQL 技能
03 Linux 工具集
04 Python 或者R 语言生态
05 Hadoop 与Spark 生态
06 几率、统计与线性代数
07 机器学习与深度学习
08 业务及杂项
09 结语
01 计算生态
02 离线计算
03 交互分析
04 实时处理
05 算法挖掘
06 发行版本
07 其余工具
01 数据是宝
02 一分为二
03 回归统一
04 聚少成多
05 你中有我
06 从小看大
07 大事化小
08 少便是多
01 一技之长
02 数据分析相关
03 Python 相关
04 Hadoop 相关
05 Spark 相关
06 模型相关
07 算法相关
08 一辈子之用
01 知识做谱
02 理论基础
03 Python
04 分析与可视化
05 大数据
06 ETL 与特征工程
07 机器学习与深度学习
08 工具与库
09 全栈为用