大数据架构简述(二):数据获取

1.数据分类 按数据形态,我们把数据分为结构化数据和非结构化数据两种。 结构化数据如传统的Data Warehouse数据,字段有固定的长度和语义,计算机程序可以直接处理 非结构化数据有文本数据、图像数据、自然语言数据等,计算机程序无法直接进行处理,需要进行格式转换或信息提取。 2.数据获取组件 常见的信息获取组件包括电信特有的探针技术,为获取网页数据常用的爬虫,采集日志数据的组件Flume,以及
相关文章
相关标签/搜索