什么是大数据?算法
维基百科:大数据是指没法在允许的时间内用常规的软件工具对其内容进行抓取、管理和处理的数据集合,大数据规模的标准是持续变化的,当前泛指单一数据集的大小在十几TB和PB之间。框架
大数据:不能集中存储、难以在可接受时间内分析处理、而数据总体呈现高价值的海量复杂数据集。 机器学习
大数据通常具备如下几个特征:分布式
大数据的科学问题:工具
科学问题1:大数据高维问题:学习
“决策要素(P)伴随大数据(n)呈现更高量级”所引发的解的不肯定性与经典统计推断失效问题。大数据
经典统计学:n>>p;高维问题:p>>n;大数据高维问题:p=O(exp(n)), n ->∞spa
热点研究:稀疏建模(压缩感知、低秩矩阵分解、基于稀疏性的特征提取、数据降维数、压缩学习等);设计
其中值得关注的科学问题:数据挖掘
其中值得关注的科学问题:
科学问题4:大数据的信息融合问题:
大数据的信息融合:根据多种数据或部分数据所得到的信息,经过融合信息处理(特别是互补信息的综合)以得到到更加完整的决策。
其中值得关注的科学问题:
科学问题5:大数据的可视分析问题:
运用与人类视认知相一致的图形或者图像方式生动展现高维数据的内在结构与规律性。提供了人机协同处理数据、人人普遍参与收集理解的平台(或许是解决大数据问题的另一条道路)。
值得关注的科学问题: