爬虫实战5—分布式数据库及应用

文章说明:本文是在学习一个网络爬虫课程时所做笔记,文章如有不对的地方,欢迎指出,积极讨论。 一、分布式爬虫 (一)分布式爬虫系统 Map Reduce:是一种编程模型,用于大规模数据集(大于1TB)的并行运算。 NLP(Natural Language Processing):自然语言处理。 批处理(Batch):也称为批处理脚本。就是对某对象进行批量的处理,通常被认为是一种简化的脚本语言,它应用
相关文章
相关标签/搜索