大数据研究的若干科学问题——徐宗本

什么是大数据?算法

      维基百科:大数据是指没法在允许的时间内用常规的软件工具对其内容进行抓取、管理和处理的数据集合,大数据规模的标准是持续变化的,当前泛指单一数据集的大小在十几TB和PB之间。框架

      大数据:不能集中存储、难以在可接受时间内分析处理、而数据总体呈现高价值的海量复杂数据集。 机器学习

      大数据通常具备如下几个特征:分布式

  1. 体量大:不能用现有的物理设备集中存储,开放,高速可扩展。
  2. 复杂性高:多源、异构、相关、非结构化、不必定可靠、不一致性。
  3. 价值丰富:个体或部分数据呈现低价值,而数据总体呈现高价值。

 

大数据的科学问题:工具

      科学问题1:大数据高维问题:学习

       “决策要素(P)伴随大数据(n)呈现更高量级”所引发的解的不肯定性与经典统计推断失效问题。大数据

经典统计学:n>>p;高维问题:p>>n;大数据高维问题:p=O(exp(n)), n ->∞spa

     热点研究:稀疏建模(压缩感知、低秩矩阵分解、基于稀疏性的特征提取、数据降维数、压缩学习等);设计

     其中值得关注的科学问题:数据挖掘

  • 如何补足信息使问题可解;
  • 低维几何的高维泛化;        
  • 高维数据自己的低维特征;
 
      科学问题2:大数据的重采样问题:
      大数据的重采样技术:如何进行合适的重采样,将大数据随机划分红若干小数据集,而根据小数据集所得到的统计推断,进行聚合处理后能反应原大数据集的规律与形态。

     其中值得关注的科学问题:

  • 如何重采样以体现数据总体特征;
  • 基于试验设计的重采样;
  • 基于目标信息处理的重采样;        
  • 更加有效的聚合原理(Boosting,Bagging); 
 
     科学问题3:大数据的分布式计算问题:
     分布式计算:是大数据处理的计算模式,它包含多处理器自主计算、相互通讯,为完成统一任务而并行工做的计算过程。主要挑战来自数据的分布性。
      其中值得关注的科学问题:     
  • 与分布式计算相适应的存储与查询技术;
  • 问题解的可分解性与可组装性;        
  • 大数据环境下的算法设计(机器学习,数据挖掘等);    

 

    科学问题4:大数据的信息融合问题:

    大数据的信息融合:根据多种数据或部分数据所得到的信息,经过融合信息处理(特别是互补信息的综合)以得到到更加完整的决策。

    其中值得关注的科学问题:    

  • 决策与估计一体化理论;
  • 异构大数据处理的统一框架(特别是机器学习算法);        
  • 基于数据的模型验证理论;
  • 非结构化数据的表征、计算与理解;

 

     科学问题5:大数据的可视分析问题:

     运用与人类视认知相一致的图形或者图像方式生动展现高维数据的内在结构与规律性。提供了人机协同处理数据、人人普遍参与收集理解的平台(或许是解决大数据问题的另一条道路)。

     值得关注的科学问题:    

  • 高维数据的本质特征提取;
  • 形象的结构化表征(可表达几何空间的构造);
  • 从数据特征空间到可表达几何空间的映照设计;
  • 基于不变量(几何,代数)的高维数据展现方式;
  • 非结构化数据的隐结构识别与展现;            
相关文章
相关标签/搜索