在各个电商平台发展日渐成熟的今天。不少时候,咱们须要一些平台上的基础数据。好比:商品分类,分类下的商品详细,甚至业务订单数据。电商平台大多数提供了相应的业务接口。容许ISV接入,用来扩展自身平台的不足,更好的为使用者提供服务。可是平台的ISV接入门槛如今愈来愈高,审核也愈来愈严格。拿不到接口SDK的密钥,就只能望洋兴叹。html
针对这种状况,有时候就须要采起一些另类手段-蜘蛛爬虫。 模拟正常的客户端请求,对获取响应的内容进行解析,从内容提取关键内容。python
蜘蛛爬虫的核心就是:发送http请求,获取响应。git
万变不离其宗。使用python的作的爬虫比较多,相应的工具包也比较丰富。好比大名鼎鼎的 scrapy。可是这种单纯的发送请求 ,获取响应的引擎,有时候很难在响应式交互页面就显得捉鸡。大把大把的js ajax请求,让响应的内容并非想要的结果。让蜘蛛引擎搭配浏览器内核,看起来是个不错的选择。尤为是对js H5支持较好的webkit内核,再好不过。github
pthon 爬虫的典型:web
scrapy + selenium + PhantomJS + libcef
做为C#的拥趸者,咱们用C# 来实现上面的引擎机制。ShoppingWebCrawler 就是在这种背景下诞生的。ajax
开发语言:C#redis
开发工具:Visual Studio 2015 +.Net Framework4.0shell
运行平台:Windowswindows
支持集群:是浏览器
可视化工具:支持;可视化工具目前有针对蜘蛛的web浏览器工具,用来进行登陆受权,进程共享cookie。ShoppingPeeker 项目用来实现对蜘蛛数据的可视化操做。
承载方式:Windows 服务。
支持高效TCP通讯
支持集群部署
支持Windows 服务+Headless
支持会话可靠性 登陆状态保持
支持模拟 Chrome 请求发送解析响应
内置libcef 支持V8 解析JS
This Project is a WebCrawler build by .net framework .
本项目是一个基于使用微软.net framework 结合Google的webkit内核作的蜘蛛采集工具。 支持多进程的集群模式。实现高性能的蜘蛛采集!
使用此工具,进行电商平台的数据采集。 本项目已经实现能够采集淘宝、天猫、京东、拼多多、一号店、国美、苏宁等主流电商平台的网页数据。
一、使用基于 Xilium.CefGlue 的libcef绑定,实现C#操做webkit。进行可视化的登录受权。不定时刷新,进行登录状态的模拟和守护。
二、使用Topshelf+libcef的Headless 模式(无头模式),进行windows 服务承载。对蜘蛛进程进行挂载守护。
三、使用log4net进行日志记录
四、使用Quartz.Net 进行定时任务Schduler。
五、服务进程使用自定义高性能Socket(NTCPMessage)进行网络通讯。对来自服务Client的请求进行请求应答。
六、集群模式,使用简易的多进程实现集群。开启不一样的监听端口,实现采集任务的负载均衡,进而大幅度提高硬件服务器的使用效率。
Xilium.CefGlue是对CEF项目的.net的包装,它是用P/Invoke的方式来调用CEF类库的,请参见:https://bitbucket.org/xilium/xilium.cefglue/wiki/Home。 使用Xilium.CefGlue 能够实现.net 操做Chrome浏览器内核。进而实现浏览器网页加载,js V8的实现。
Topshelf是建立Windows服务的一种方法。Topshelf是一个开源的跨平台的宿主服务框架,支持Windows和Mono,只须要几行代码就能够构建一个很方便使用的服务宿主。
引用安装 一、官网:http://topshelf-project.com/ 这里面有详细的文档及下载
安装:TopshelfDemo.exe install
启动:TopshelfDemo.exe start
重启:TopshelfDemo.exe restart
卸载:TopshelfDemo.exe uninstall
简单的说就是一个没有UI界面的浏览器。使用命令行进行代码控制浏览器行为,常见于自动化单元测试。
一、下载源码到本地。好比:d:\src
二、使用visual studio2015 打开项目并编译。
三、配置Redis 环境。本项目使用redis 进行进程间的cookie共享,从而实现登陆凭据cookie的跨进程共享。在UI进程和Heaadless进程间进行Cookie共享。
四、运行 ShoppingWebCrawler.Host 项目,便可运行。
编译 ShoppingWebCrawler.Host.DeskTop ,获得UI 工具,能够对打开一个网址。好比登陆淘宝,就能够在本地进程间共享淘宝登陆凭据。从而实现 特定的蜘蛛采集任务。好比:采集某个类目的商品。采集商品优惠券。
编译项目ShoppingWebCrawler.Host.WindowService,而后去项目的输出目录,在cmd 、powershell 定位到此目录。执行:
ShoppingWebCrawler.Host.WindowService.exe install 便可。若是想卸载,那么执行指令:ShoppingWebCrawler.Host.WindowService.exe uninstall .
参考topshelf的命令。
在项目ShoppingWebCrawler.Host 的app.config文件中
<!--是否开启集群模式--> <add key="ClusteringMode" value="true"/> <!--集群子节点数量--> <add key="ClusterNodeCount" value="3"/>
MyBlog:http://www.cnblogs.com/micro-chen/ QQ:1021776019