互联网数据的挖掘和分析

基本上使用python语言完成html

1、抓取
列表页
详细页python

受权(API)&未受权(爬虫)
普通抓取&需登陆性能优化

2、html解析
1. BeautifulSoup
2. 正则多线程


3、文本分析&天然语言处理性能

4、性能优化
1. 反抓取屏蔽 http代理
2. 性能优化
多线程抓取优化

相关文章
相关标签/搜索