怎么将ETL技术落地

时间 2019-11-24

标签怎么 etl 技术落地繁體版

原文原文链接

ETL概述javascript

ETL（Extraction-Transformation-Loading）是将业务系统的数据通过抽取、清洗转换以后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一块儿，为企业的决策提供分析依据， ETL是BI（商业智能）项目重要的一个环节。css

数据治理流程

数据挖掘通常是指从大量的数据中经过算法搜索隐藏于其中信息的过程。它一般与计算机科学有关，并经过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。它的分析方法包括：分类、估计、预测、相关性分组或关联规则、聚类和复杂数据类型挖掘。html

1)数据的采集

首先得有数据，数据的收集有两个方式，第一个方式是拿，专业点的说法叫抓取或者爬取，例如搜索引擎就是这么作的，它把网上的全部的信息都下载到它的数据中心，而后你一搜才能搜出来。html5

2)数据的传输

通常会经过队列方式进行，由于数据量实在是太大了，数据必须通过处理才会有用，但是系统处理不过来，只好排好队，慢慢的处理。java

3)数据的存储

如今数据就是金钱，掌握了数据就至关于掌握了钱。要否则网站怎么知道你想买什么呢？就是由于它有你历史的交易的数据，这个信息可不能给别人，十分宝贵，因此须要存储下来。python

4)数据的清洗和分析

上面存储的数据是原始数据，原始数据可能是杂乱无章的，有不少垃圾数据在里面，于是须要清洗和过滤，获得一些高质量的数据。对于高质量的数据，就能够进行分析，从而对数据进行分类，或者发现数据之间的相互关系，获得知识。mysql

注：第三与第四个步骤，现存后清洗和先清洗再存，在真是的业务场景中能够适当互换。算法

5)数据的检索和挖掘

检索就是搜索，所谓外事问google，内事问百度。挖掘，仅仅搜索出来已经不能知足人们的要求了，还须要从信息中挖掘出相互的关系。sql

6)数据的加载与应用

怎么友好的展现与传递给用户为数据挖掘工做作好闭环。mongodb

数据治理工具类

1)数据采集工具

一、针对日志文件类

工具	定义
Logstash	Logstash是一个开源数据收集引擎，具备实时管道功能。Logstash能够动态地未来自不一样数据源的数据统一块儿来，并将数据标准化到所选择的目的地。
Filebeat	Filebeat 做为一个轻量级的日志传输工具能够将日志推送到中心 Logstash。
Fluentd	Fluentd 建立的初衷主要是尽量的使用 JSON 做为日志输出，因此传输工具及其下游的传输线不须要猜想子字符串里面各个字段的类型。这样，它为几乎全部的语言都提供库，便可以将它插入到自定义的程序中。
Logagent	Logagent 是 Sematext 提供的传输工具，它用来将日志传输到 Logsene(一个基于SaaS 平台的 Elasticsearch API)。
Rsylog	绝大多数 Linux 发布版本默认的守护进程，rsyslog 读取并写入 /var/log/messages。它能够提取文件、解析、缓冲(磁盘和内存)以及将它们传输到多个目的地，包括 Elasticsearch 。能够今后处找到如何处理 Apache 以及系统日志。
Logtail	阿里云日志服务的生产者，目前在阿里集团内部机器上运行，通过3年多时间的考验，目前为阿里公有云用户提供日志收集服务。

关于详解日志采集工具Logstash、Filebeat、Fluentd、Logagent、Rsylog和Logtail在优点、劣势

二、针对爬虫类

页面下载 --> 页面解析 --> 数据存储

（1）页面下载器

对于下载器而言，python的库requests能知足大部分测试+抓取需求，进阶工程化scrapy，动态网页优先找API接口，若是有简单加密就破解，实在困难就使用splash渲染。

（2）页面解析器

①BeautifulSoup(入门级)：Python爬虫入门BeautifulSoup模块

②pyquery（相似jQuery）：Python爬虫：pyquery模块解析网页

③lxml：Python爬虫：使用lxml解析网页内容

④parsel：Extract text using CSS or XPath selectors

⑤scrapy的Selector (强烈推荐, 比较高级的封装，基于parsel)

⑥选择器(Selectors)：python爬虫：scrapy框架xpath和css选择器语法

---------------------

总结：

解析器直接使用scrapy的Selector 就行，简单、直接、高效。

（3）数据存储

①txt文本：Python全栈之路：文件file经常使用操做

②csv文件：python读取写入csv文件

③sqlite3 （python自带）：Python编程：使用数据库sqlite3

④MySQL：SQL：pymysql模块读写mysql数据

⑤MongoDB：Python编程：mongodb的基本增删改查操做

---------------------

总结：

数据存储没有什么可深究的，按照业务需求来就行，通常快速测试使用MongoDB，业务使用MySQL

（4）其余工具

①execjs ：执行js

Python爬虫：execjs在python中运行javascript代码

②pyv8: 执行js

mac安装pyv8模块-JavaScript翻译成python

③html5lib

Python爬虫：scrapy利用html5lib解析不规范的html文本

2)数据清洗工具

一、DataWrangler

基于网络的服务是斯坦福大学的可视化组设计来清洗和重排数据的.文本编辑很是简单。例如，当我选择大标题为“Reported crime in Alabama”的样本数据的某行的“Alabama”，而后选择另外一组数据的“Alaska”，它会建议提取每州的名字。把鼠标停留在建议上，就能够看到用红色突出显示的行。

二、Google Refine

它能够导入导出多种格式的数据，如标签或逗号分隔的文本文件、Excel、XML和JSON文件。Refine设有内置算法，能够发现一些拼写不同但实际上应分为一组的文本。导入你的数据后，选择编辑单元格->聚类，编辑，而后选择要用的算法。数据选项，提供快速简单的数据分布概貌。这个功能能够揭示那些可能因为输入错误致使的异常——例如，工资记录不是80,000美圆而居然是800,000美圆;或指出不一致的地方——例如薪酬数据记录之间的差别，有的是计时工资，有的是每周支付，有的是年薪。除了数据管家功能，Google Refine还提供了一些有用的分析工具，例如排序和筛选。

三、Logstash

Logstash 是一款强大的数据处理工具，它能够实现数据传输，格式处理，格式化输出，还有强大的插件功能，经常使用于日志处理。