爬虫工程师JD概括

时间 2019-11-14

标签爬虫工程师概括栏目网络爬虫繁體版

原文原文链接

核心能力概括

负责：多平台信息的抓取，清洗和分析工做html

要求：前端

熟悉经常使用开源爬虫框架，如 scrapy / pyspider 
了解基于Cookie的登陆原理，熟悉经常使用的信息抽取技术，如正则表达式、XPath
熟悉常见的反爬虫技术，有必定的对抗能力
分布式爬虫架构经验*

字节跳动 python爬虫工程师 22-40k

负责：python

设计和开发分布式网络爬虫系统，进行多平台信息的抓取和分析工做，实时监控爬虫的进度和警报反馈
网页信息和APP数据抽取、清洗、消重等工做

要求：正则表达式

有扎实的算法和数据结构能力
熟悉爬虫原理，熟悉常见的反爬虫技术
掌握http协议，熟悉html、dom、xpath等常见的数据抽取技术
有大规模数据处理、数据挖掘、信息提取等经验者优先

小米数据爬虫工程师 20-40k

负责：算法

负责设计和开发分布式网络爬虫系统，进行多平台信息的抓取和分析工做
负责网页搜索的页面内容提取，搜索领域下的滤重（simhash/minhash）、聚类、反垃圾、页面分析、标签、分类器（贝叶斯/Bayes/LR/SVM）、数据挖掘等工做，提高平台的抓取效率
参与爬虫核心算法和策略优化，熟悉采集系统的调度策略
实时监控爬虫的进度和警报反馈

要求：数据库

熟悉Linux系统，掌握Python等语言
掌握网页抓取原理及技术，了解基于Cookie的登陆原理，熟悉基于正则表达式、XPath、CSS等网页信息抽取技术
熟悉整个爬虫的设计及实现流程，有大规模网页信息抽取开发经验，熟悉各类反爬虫技术，有分布式爬虫架构经验
有连接分析（pagerank、trustrank）、特征提取（页面质量、权威度、topic、线性/非线性回归、LDA）等能力优先

网易爬虫工程师 12-24k

负责：浏览器

负责设计和开发通用爬虫系统，提取分析各类千形万态的平台页面内容；
研究各类网站、连接的形态，发现它们的特色和规律；
解决技术疑难问题，包括反反爬、压力控制等，提高网页抓取的效率和质量；

要求：网络

精通python、计算机网络，熟练使用多线程，熟悉Scrapy等经常使用爬虫框架；
熟悉Linux操做、正则表达式，MySQL、MongoDB等经常使用数据库，了解各类Web前端技术；
可以解决封帐号、封IP、验证码识别、图像识别等问题；

扇贝爬虫工程师 8-16k

负责：数据结构

开发分布式网络爬虫系统，进行多平台信息的抓取和分析工做 
负责网页信息和 App 数据抽取、消重等工做 
配合算法岗完成ETL 相关任务

要求：多线程

掌握网页抓取原理及技术，了解基于 Cookie 的登陆原理，熟悉基于正则表达式、XPath 等网页信息抽取技术 
熟悉经常使用开源爬虫框架，如 scrapy / pyspider 
扎实的编码能力与算法基础，熟悉 Linux 下的 Python / Shell 开发

高级岗位

千里马-北京爬虫leader 30-40k

要求：

深度参与过至少一个‘分布式网络爬虫系统’的架构设计
扎实的数据结构与算法功底，有迭代开发经验
精通反爬对抗，Ajex网页抓取，浏览器模拟抓取、多平台抓取等技术
熟悉分布式系统，多线程
对主流爬虫架构有深刻研究，具备成熟爬虫工具的设计及运维经验

相关文章

相关标签/搜索

爬虫－反爬虫

Thymeleaf 教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<