今天早上屁颠屁颠地跑去听了徐宗本院士的:关于大数据研究的若个问题 以为还不错,因为徐教授横跨数学与管理两方面,因此讲的角度还有深度刚恰好算法
在个人接受范围内。讲座主要从下面三个方面来说的:网络
1 关于大数据的认识分布式
2 大数据研究涉及的科学问题post
3 他们团队的探索大数据
(一)关于大数据的认识优化
大数据炒得很火,可是什么是大数据,跟海量数据有什么区别? 徐教授首先从本身的角度给出大数据的定义,主要有四个特色:搜索引擎
a 不能在单个计算机上集中存储,通常须要用到分布式/云计算模式等;google
b 难以在可接受的时间内进行分析处理;云计算
c 单个数据可能价值不大,可是数据总体仍是有高价值的(好比一个班级你们发的微博可能没有特别大的意义,可是全国高校大学生发的微博就能够反映当代大学生思想理念**)设计
d 海量的复杂结构的数据集
对于大数据,他以为不能按什么GB,TB,PB,EB这些量化来死衡量。
大数据这个概念最近炒得很火,主要是从2008年《Science》杂志用了几版作了大数据专题开始。奥巴马在2011年给出的报告《大数据分析》,竞选通常都喜欢对什么人说什么话,其实就是精确化营销。奥巴马的竞选主要得意于背后的数据分析团队,他们收集各个州post出来的微博,进行舆情分析,得出各个州分别最关心的是什么问题,而后在竞选的时候就针对这些问题提出相应的口号和策略。 继而欧洲等国也把大数据研究做为重要的发展战略。随之愈来愈火,企业,我的,如今好像全部人都在谈论大数据。
大数据影响力不只在天然科学研究中,并且在商业领域,徐教授以为后面会成为企业核心竞争力(数据规模,活性(有没有用,便是不是活的)与解释力),以及发展与大数据相关的商业模式。这是将来高科技公司必须有的概念。 还有在公共政策上,徐教授以为大数据的火一个很重要的贡献就是给决策者,政策修改者带来的观念上的冲击,即数据资产,主权的概念,如今不只是海陆空主权了,数据已经渗透到咱们天天的平常生活,早在十几年前,美国就能精确摧毁南斯拉夫大使馆,考的就是数据。咱们如今用的google GPS,更是精确到一颗沙子,若是不注重数据主权,一个国家的主权也会受到侵犯。从这个角度来说,google搜索退出中国,百度开始垄断中国搜索引擎市场,其实也是国家对数据主权的觉醒。徐宗本还呼吁你们多多使用百度,呵呵。(想到了斯诺登的事情。腾讯帝国。。)
那么 大数据值得热吗?
gartner报告中-—— 2012年,正在或是即将进行大数据的公司为58%,而进入2013年,这一数字变成了64%。对于大多数企业来讲,他们最大的问题,就是不明白大数据到底是什么,以及如何使用大数据。
如今不少企业都在炒大数据,发展了大数据技术,其实本质上来讲只是一种口号上的宣传。目前大数据研究还在初始阶段。
总的来讲,徐教授以为大数据仍是值得热,
(1 数据概念重视;
2 数据挖掘方法获得普世的重视。(数据挖掘主要方法: 聚类分析 判别分析 回归分析(一个因素如何随着另一个因素而改变) 隐变量分析 因果分析 时间序列分析)
可是不能一哄而上。他担忧中国人作不少事情都很喜欢一哄而上,继而一哄而散。
从数据到价值的产业链 管理学院前沿计划:大数据产业管理(产业链,商业模式,公共政策等)
(二) 大数据研究涉及的科学问题
a 超高维问题 即决策因素随着样本数n呈现更高量级引发的解的不肯定性与经典统计推断失效问题。
经典统计:n>>p,高维:p》》n,大数据高维度p=o(exp(n)) n->00
热点研究:稀疏建模(尽管变量不少,可是不少都是0)
好比南海,虽然监控很大,可是舰队只是很小的一部分。 基本科学问题: 如何补足信息使得数据可解; 利用特征相关性发展统计学(变量之间的独立性基本都是不能成立的)
b 大数据的重采样 subsampling
the big data boostrap,kleiner et.al 2012,ICML(大数据下如何求均值,颇有创新)
基本问题:
如何重采样以刻画数据总体特征
基于试验设计的重采样
基于目标信息的重采样
联合处理:boosting ,bagging 等 如今的高分辨率(p维度大),同时雷达不能携带过多的样本数据,即n小。
c 可解的计算理论
大数据可解与传统数据不一样,算法中的可解性是指在有限步内能够用图灵机解决的问题。
大数据下的可解, 具体例子(针对具体形式的数据):
流数据(容易是指处理的速度大于数据更新的速度)
分布式数据(容易是指交互的速度大于处理的速度)
d 分布式实时计算
基本问题:
问题的解分解性与解的可组装性
随机优化模型可能成为未来一个趋势。(对于大数据而言,精确解并不过重要,实时性更重要。让我想起3D in the wild重构)
e 非结构化问题
挑战:数据的异构性,不一致性
基本问题:
异构数据的表示与分析 (向量-》矩阵-》张量(如今广泛应用))
f 可视分析
基本问题:
1 高维数据的特征提取;
2 特征如何用几何展现
crowdsourcing(讲到如今公司不知道什么方面,向公众征集,再加上一点小奖励,利用群体智慧)
(三) 咱们的探索
a 超高维的稀疏建模
回归分析(大数据-》均匀抽样(subsampling)-》回归-》联合处理,成功
网络监测(失败,由于处理的速度慢于更新的速度)模拟美国城市的交通监测 决策,好比若是处理速度快了,能够加快城市交通监测的更新速度。
b 视觉认知
基于尺度空间的数据建模(聚类)
聚类看上去像5类,有的又说是4类,到底是几类呢?模拟人脑视觉认知。 引入尺度空间的概念,sigma 为尺度,表示物体与视网膜距离或晶状体曲率。 在必定的尺度范围内,是5类,过了这个范围,在另外一个范围内就是四类。 他们的团队引进了生存寿命,生命周期最长的一个类定义为最有价值的类。 谈到meanshift
c 全局优化有用吗? f(x)极小值虽然不必定是全局最优,可是他的吸引域够大就能够了。类比药的结构及药效的稳定性在东南亚,广州。
(粗略的笔记,后面找时间完善)