数据化运营的数据来源类型包括数据文件、数据库、API、流式数据、外部公开数据和其余来源等。html
数据文件就是存储数据的文件,广义上,任何文件中存储的信息均可以称为数据;狭义上,数据文件中以数字或文本形式存储的结构化的 数据记录才是数据。本节的数据指的是后者。算法
结构化数据文件大多来源于数据库,例如从MySQL中导出2017-01-04到2017-10-21的订单明细数据并存储为csv文件;也有来源于系统或工 具的工做过程或返回结果,例如Windows版本的Tesseract文字识别后的结果会存储到txt文本文件中。 数据文件常见的数据格式类型包括txt、csv、tsv、xls、xlsx等,也包括xml、html、doc、sql等很是规数据格式。文件格式取决于数据处理 需求,也受限于来源系统的导出格式。sql
下图所示为MySQL 5.0版本能够导出的数据格式。数据库
大多数状况下,txt(任意指定分隔符)、cvs(以逗号分隔的数据文件)、tsv(以tab制表符分隔的数据文件)是最经常使用的数据文件格式。当数据文件大小在百兆级别如下时,可使用Excel等工具打开;数据文件大小在百兆级别时,推荐使用Notepad打开;当数据文件大小在G级别时,推荐使用UltraEdit打开。编程
数据库(DataBase)是按照数据结构来组织、存储和管理数据的仓库。数据库普遍应用于CMS(内容管理系统)、CRM(客户关系管理 系统)、OA(办公自动化)、ERP(企业资源计划)、财务系统、DSS(决策支持系统)、数据仓库和数据集市、进销存管理、生产管 理、仓储管理等各种企业运营事务之中。bash
数据库的主要应用包括数据的定义、存储、增长、删除、更新、查询等事务型工做,数据传输、同步、抽取、转换、加载等数据清洗工 做,数据计算、关联查询、OLAP等分析型工做以及数据权限控制、数据质量维护、异构数据库和多系统通讯交互等工做。 数据库按类型分为关系型数据库和非关系型数据库(又称NoSQL数据库)。关系型数据库在企业中很是常见,在传统企业中更为流行,常见的关系型数据库包括DB二、Sybase、Oracle、PostgreSQL、SQL Server、MySQL等;非关系型数据库随着企业经营场景的多样化以及大数据场景的出现,根据应用场景和结构分为如下几类:服务器
API(Application Programming Interface)是应用程序编程接口,数据化运营中的API一般分为服务型API和数据型API。微信
服务型API能够基于预约义的规则,经过调用API实现特定功能。 例如,经过调用百度地图JavaScript API能够在网站中构建功能丰富、交互性强的地图应用,这种API下输入的是地理位置数据,从API得到的输出是可视化地图(服务/功能)。网络
数据型API则经过特定的语法,经过向服务器发送数据请求,返回特定格式的数据(或数据文件)。例如,经过向Google Analytics的 Analytics Reporting API V4发送请求来得到符合特定条件的数据记录。数据结构
API普遍应用于企业内部和外部多系统和平台交互。API返回的数 据格式,大多数状况下是JSON、XML格式。 JSON是一种轻量级的数据交换格式,由流行的JavaScript编程语言建立,普遍应用于Web数据交互。JSON格式简洁、结构清晰,使用键 值对(Key:Value)的格式存储数据对象。Key是数据对象的属性,Value是数据对象属性的对应值。例如,“性别”:“男”就是一个 Key:Value结构的数据。JSON格式数据示例以下:
{
"category": {
"name": "电脑",
"brands": {
"brand": [
"DELL", "THINKPAD"
]
}
}
}
复制代码
XML是可扩展标记语言,提供了统一的方法来描述和交换独立于应用程序或供应商的结构化数据,这是一种很是成熟且强大的数据格 式。像JSON同样,XML提供了很是好的扩展性,API的建立者可使用它们建立本身的数据结构。XML格式数据示例以下:
<?xmlversion="1.0"encoding="utf-8"?>
<category>
<name>电脑</name><brands>
<brand>DELL</brand>
<brand>THINKPAD</brand>
</brands>
</category>
复制代码
流式数据指的是实时或接近实时处理的大数据流。常见的流式数据处理使用Spark、Storm和Samza等框架,能在毫秒到秒之间完成做业,用于处理时效性较强的场景,例如在线个性化推荐系统、网站用户实时行为采集和分析、物联网机器日志实时分析、金融实时消费反欺诈、实时异常人员识别等,应用领域集中在实时性较强的互联网、移动互联网、物联网等。
按照数据对象来区别,流式数据可分为两类:
第一类是用户行为数据流。 用户行为数据流是围绕“人”产生的数据流,包括用户在网站和APP内部因浏览、搜索、评论、分享、交易以及在外部的微博、微信中操做而产生的数据流。用户行为数据流采集平台可分为Web站、移动站和APP(包含iOS、Android、Windows等)应用。Web站及基于HTML5开发的移动应用都支持JS脚本采集,较早开发的不支持JS的Wap站(如今基本上不多)则采用NoScript方法,即一个像素的硬图片实现数据跟踪。SDK是针对APP提供数据采集的特定方法和框架。这三种方法能够实现目前全部线上用户行为数据采集的需求。
第二类是机器数据流。 机器数据流是围绕“物”产生的数据流,包括从机器的生产、制造、应用、监控和管理等过程当中产生的全部数据,例如机器运行日志、传感器监控数据、音频采集器数据、监控图像和视 频、GPS地理数据等。 机器数据流一般集中在工业4.0、智能工厂等工业的智能运营管理过程当中,也出如今物联网、人工智能等人和物的监控、识别、联通、互动等智能化应用中。机器数据流扮演着实时采集目标对象属性、状态、行为、信号等数据的角色。
外部公开数据指公开的任意第三方都能获取的数据。
数据化运营所需的外部公开数据来源渠道众多,常见的包括:
在某些场景下,企业数据化运营所用数据还会有其余来源,例如经过调研问卷得到的有关产品、客户等方面的数据,从第三方平台直接购买的数据,经过与其余厂商合做所得交互数据等。因为这些场景比较 少,而且不是企业主流的数据获取来源,在此不做过多阐述。