本文将介绍用于大数据堆栈的五个最有用的架构,以及每一个架构的优势,以便更好地理解和权衡。此外,还对成本、什么时候使用、热门产品,以及每种架构的提示和技巧进行了阐述。数据库
自从像AWS这样的公共云产品开辟了大数据分析功能以来,小企业经过挖掘大量的数据作到只有大企业才能作到的事情,至今大约有10年时间。这些事情其中包括网络日志、客户购买记录等,并经过按使需付费的方式提供低成本的商品集群。在这十年中,这些产品蓬勃发展,涵盖了从实时(亚秒级延迟)流媒体式分析到用于分析批量模式工做的企业数据仓库,而企业数据仓库则可能须要数天或数周才能完成。后端
如下将介绍用于大数据堆栈的五个最有用的架构,以及每一个架构的优势,以便更好地理解和权衡。此外,还对成本(按$ - $$$$$的规模)、什么时候使用、热门产品,以及每种架构的提示和技巧进行了阐述。若是你想了解大数据的学习路线,想学习大数据知识以及须要免费的学习资料能够加群:784789432.欢迎你的加入。天天下午三点开直播分享基础知识,晚上20:00都会开直播给你们分享大数据项目实战。服务器
五个大数据架构网络
在此并无什么特别的顺序,用户在AWS公共云旅程中可能遇到的五个顶级大数据架构是:架构
1. 流媒体并发
流媒体解决方案由如下多个因素定义:框架
这里有不少现实世界的例子,从特斯拉公司的电动汽车(基本上是移动的4G设备)不断将汽车的位置发送到数据中心,通知司机下一个充电站在哪里。此外,人们喜欢的日本一家高度自动化的寿司专营店:Sushiro。Sushiro所作的是将RFID传感器放在每一个寿司盘底,而后,寿司传送带上的传感器跟踪每一个盘子的动态,将数据点发送到AWS Kinesis,其后端响应仪表板的更新,通知寿司厨师,例如“丢掉即将过时变质的食物,或者制做更多的鸡蛋寿司,或者解冻更多的金枪鱼”,经过使用流媒体技术,该连锁店不只有上述的实时效率推荐,并且还能够得到每家餐厅的历史信息,而且能够了解顾客购买的趋势。机器学习
Sushiro是一个很好的例子,由于它符合流媒体的全部三个要求。其仪表板如今对业务运营相当重要。工具
2. 通用(或特定)的批处理集群oop
使用Hadoop/Spark这些系统,用户能够得到高度可扩展、低成本(商用硬件和开源软件)存储和计算,这些存储和计算可能会遇到大量问题,从而以尽量低的成本对数据进行批量分析。
Hadoop技术很是成熟,提供了一个很是丰富的软件生态系统,能够利用这些通用计算和存储资源提供从数据仓库到流媒体,甚至NoSQL的全部内容。
在Hadoop之上,如今能够运行Spark,它带有本身的可扩展框架,以低延迟(高内存)方式提供上述全部功能,甚至适用于流媒体和NoSQL。
3. NoSQL引擎
Velocity(并发事务)在这里特别重要,这些引擎被设计为处理任意数量的并发读写。虽然其余系统一般不能用于最终用户(须要低延迟响应)和员工分析团队(可能会使用长时间运行的查询锁定多个表),同时,NoSQL引擎能够扩展以适应一个系统的两个主服务器。一些开发容许以低延迟方式实时加入和查询该数据。
4. 企业数据仓库(EDW)
企业数据仓库(EDW)与此处提到的其余系统大相径庭。它提供了人们称之为“OLAP”(在线分析处理,能够支持来自内部用户的一些长时间运行的查询)与“OLTP”(在线事务处理,能够支持来自最终用户的大量读取和写入)功能,如Oracle的RDBMS或MySQL。固然,可使用OLTP系统做为企业数据仓库(EDW),可是大多数人都将OLTP数据库集中在最近用户的低延迟,最近事件(如“跟踪上周的订单”)需求和按期(一般是天天)窗口更旧数据输出到OLAP系统,业务用户能够在数月或数年的数据中运行长时间的查询。
这些OLAP系统使用诸如列式存储、数据非规范化(建立具备几乎无限维度的“数据立方体”)等策略,并提供RDBMS级ANSI 92 SQL依从性,这意味着能够彻底访问SQL功能,而且能够定制Tableau等可视化工具直接与他们合做。
5. 就地分析
几年前,Presto经过提供高性能的数据分析改变了游戏规则,而无需将数据从原生的、低成本的长期存储中移出。其最终结果是,能够简单地运行查询,而不是必须为昂贵的EMR或Redshift集群支付所有费用。而是只按使用的内容收费。
此外,人们须要不少时间来尝试选择(而后管理)EMR或Redshift集群的正确节点和节点数。采用Presto,人们再也不知道也不关心这种差异,而这一切都在用户须要的时候起到做用。
最后,Presto支持RDBMS级别的ANSI-92 SQL兼容性,这意味着全部可视化工具均可以直接使用它,具备的SQL背景能够在ad-hoc查询中全面使用。
把它们放在一块儿
经过了解将在公共云中运行的五个顶级大数据架构,用户如今能够得到有关最佳应用位置的可操做信息,以及潜伏的位置。
一旦用户开始在AWS公共云中构建大数据架构,将很快了解到更多的架构,而且在不少状况下,企业可能会最终同时使用上述全部内容,可能使用Kinesis将客户数据流媒体传输到DynamoDB和S3。用户可能偶尔会在该源数据上启动EMR(进行某些机器学习)或Redshift(分析KPI)集群,或者能够选择以能够经过AWS Athena就地访问的方式格式化数据,让它像企业数据仓库(EDW)同样发挥做用。
具备执行TMTOWTDI的能力是一件好事,AWS公司努力提供最适合用户需求的服务。若是用户从头开始,在AWS认证的全球知识培训课程中花费三天时间将能够提供知足其需求的服务,并让用户尽快开始运营,而且顺利实施。