大数据技术之数据采集篇

时间 2019-12-06

原文原文链接

【导读】数据采集是进行大数据分析的前提也是必要条件，在整个流程中占据重要地位。本文将介绍大数据三种采集形式：系统日志采集法、网络数据采集法以及其余数据采集法。算法

（一）系统日志采集法安全

系统日志是记录系统中硬件、软件和系统问题的信息，同时还能够监视系统中发生的事件。用户能够经过它来检查错误发生的缘由，或者寻找受到攻击时攻击者留下的痕迹。系统日志包括系统日志、应用程序日志和安全日志。（百度百科）大数据平台或者说相似于开源Hadoop平台会产生大量高价值系统日志信息，如何采集成为研究者研究热点。目前基于Hadoop平台开发的Chukwa、Cloudera的Flume以及Facebook的Scribe（李联宁，2016）都可成为是系统日志采集法的典范。目前此类的采集技术大约能够每秒传输数百MB的日志数据信息，知足了目前人们对信息速度的需求。通常而言与咱们相关的并非此类采集法，而是网络数据采集法。网络

在这里仍是要推荐下我本身建的大数据学习交流群:529867072，群里都是学大数据开发的，若是你正在学习大数据，小编欢迎你加入,你们都是软件开发党，不按期分享干货（只有大数据软件开发相关的），包括我本身整理的一份最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深刻大数据的小伙伴加入。多线程

（二）网络数据采集法oop

作天然语言的同窗可能对这点感触颇深，除了目前已经存在的公开数据集，用于平常的算法研究外，有时为了知足项目的实际需求，须要对现实网页中的数据进行采集，预处理和保存。目前网络数据采集有两种方法一种是API，另外一种是网络爬虫法。学习

1.API大数据

API又叫应用程序接口，是网站的管理者为了使用者方面，编写的一种程序接口。该类接口能够屏蔽网站底层复杂算法仅仅经过简简单单调用便可实现对数据的请求功能。目前主流的社交媒体平台如新浪微博、百度贴吧以及Facebook等均提供API服务，能够在其官网开放平台上获取相关DEMO。可是API技术毕竟受限于平台开发者，为了减少网站（平台）的负荷，通常平台均会对天天接口调用上限作限制，这给咱们带来极大的不便利。为此咱们一般采用第二种方式——网络爬虫。网站

2.网络爬虫搜索引擎

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOFA社区中间，更常常的称为网页追逐者），是一种按照必定的规则，自动地抓取万维网信息的程序或者脚本。另一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。（百度百科）最多见的爬虫即是咱们常用的搜索引擎，如百度，360搜索等。此类爬虫统称为通用型爬虫，对于全部的网页进行无条件采集。通用型爬虫具体工做原理见图1。线程

图1 爬虫工做原理[2]

给予爬虫初始URL，爬虫将网页中所须要提取的资源进行提取并保存，同时提取出网站中存在的其余网站连接，通过发送请求，接收网站响应以及再次解析页面，提取所需资源并保存，再将网页中所需资源进行提取......以此类推，实现过程并不复杂，可是在采集时尤为注意对IP地址，报头的伪造，以避免被网管发现禁封IP（我就被封过），禁封IP也就意味着整个采集任务的失败。固然为了知足更多需求，多线程爬虫，主题爬虫也应运而生。多线程爬虫是经过多个线程，同时执行采集任务，通常而言几个线程，数据采集数据就会提高几倍。主题爬虫和通用型爬虫截然相反，经过必定的策略将于主题（采集任务）无关的网页信息过滤，仅仅留下须要的数据。此举能够大幅度减小无关数据致使的数据稀疏问题。

（三）其余采集法

其余采集法是指对于科研院所，企业政府等拥有机密信息，如何保证数据的安全传递？能够采用系统特定端口，进行数据传输任务，从而减小数据被泄露的风险。

【结语】大数据采集技术是大数据技术的开端，好的开端是成功的一半，所以在作数据采集时必定要谨慎选择方法，尤为是爬虫技术，主题爬虫应该是对于大部分数据采集任务而言是较好的方法，能够深刻研究。