给你们分享一篇 etlpy: 并行爬虫和数据清洗工具(开源)

etlpy是python编写的网页数据抓取和清洗工具,核心文件etl.py不超过500行,具有以下特色html 爬虫和清洗逻辑基于xml定义,不需手工编写 基于python生成器,流式处理,对内存无要求 内置线程池,支持串行和并行处理 内置正则解析,html转义,json转换等数据清洗功能,直接输出可用文件 插件式设计,可以很是方便地增长其余文件和数据库格式 可以支持几乎一切网站,能自动填入coo
相关文章
相关标签/搜索