基本上使用python语言完成html
1、抓取列表页详细页python
受权(API)&未受权(爬虫)普通抓取&需登陆性能优化
2、html解析1. BeautifulSoup2. 正则多线程
3、文本分析&天然语言处理性能
4、性能优化1. 反抓取屏蔽 http代理2. 性能优化多线程抓取优化