开源大数据周刊-第56期

时间 2019-11-29

标签开源数据周刊繁體版

原文原文链接

摘要：

阿里云E-Mapreduce实践: 使用hadoop restful api实现对集群信息的统计资讯全球因Hadoop服务器配置不当致使的数据泄露或达5120TB 网络犯罪分子近期开始针对配置不当的 Hadoop Clusters 与 CouchDB 服务器展开攻击活动。

阿里云E-Mapreduce实践:

使用hadoop restful api实现对集群信息的统计
本文根据hadoop/spark的RESTful API，实现了对集群基本信息的统计功能，包括HDFS文件系统、job状况、资源队列状况的统计。这些API只提供了基础的数据，具体的统计与分析，还须要基于这些基础数据作一些简单的开发。

全球因Hadoop服务器配置不当致使的数据泄露或达5120TB
网络犯罪分子近期开始针对配置不当的 Hadoop Clusters 与 CouchDB 服务器展开攻击活动。目前全球因Hadoop分布式文件系统（HDFS）配置不当致使的数据泄露或达 5,120 TB。html
数梦工场7.5亿A轮融资三个维度构建「新型互联网」
6月8日，数梦工场战略暨A轮发布会在杭州举行。数梦工场已得到来自光大实业资本、阿里巴巴等机构的7.5亿元投资，目前公司估值超过10亿美圆。api

比较Apache Hadoop生态系统中不一样的文件格式和存储引擎的性能
这篇文章提出了在Apache Hadoop生态系统中对比一些当前流行的数据格式和可用的存储引擎的性能：Apache Avro，Apache Parquet，Apache HBase和Apache Kudu空间效率，提取性能，分析扫描以及随机数据查找等领域。这有助于理解它们中的每个如何(什么时候)改善你的大数据工做负载的处理能力。服务器
Apache Flink 1.3.0正式发布及其新功能介绍
2017年06月01日儿童节 Apache Flink 社区正式发布了 1.3.0 版本。此版本经历了四个月的开发，共解决了680个issues。Apache Flink 1.3.0 是 1.x.y 版本线上的第四个主要版本，其 API 和其余 1.x.y 使用 @Public 注释的API是兼容的。restful
拥有数据再也不重要，懂得利用才是王道
大数据时代，手握海量数据已经是企业常态。如何充分利用数据并对加以挖掘和利用才是赢在将来的王道。在与数百家企业协做的过程当中，英特尔总结了如何经过人工智能、机器学习以及数据挖掘帮助企业经过数据得到真正回报的最佳实践。网络
Spark Shuffle过程分析：Map阶段处理流程
本文结合具体代码，详细分析了Spark Shuffle过程当中Map阶段处理流程。机器学习