百度技术沙龙第 53 期 基于大数据的预测技术

本文做者:HelloDeveloper算法

2014 年 8 月 16 日,在由@百度主办、@InfoQ负责策划组织和实施的第 53 期百度技术沙龙活动上,来自百度研究院大数据实验室数据科学家沈志勇,和中国科学院大学管理学院讲师刘颖,分享了他们在大数据领域的实战经验。运维

 

本次分享的话题分别是“ 大数据与预测”和“ 基于互联网数据的社会经济预测”。本文将对这两个主题分享作下简单的回顾,同时提供相关资料的下载。机器学习

 

主题一:大数据与预测(下载讲稿)学习

 

百度的沈志勇首先提到了本身对大数据时代的理解,他认为这实际上是机遇与挑战并存的时代,大数据使整个社会都有了数据意识。你们都知道怎么样采集和记录,把数据都写下来或者是记经过各类各样的方式记下来,之前没有这个意识。这样其实对于机器学习来说,才能有更加广阔的数据源,对于算法来说也能够有更多的数据。数据多了之后,多元数据每每存在分布的问题,这样会带来不少问题,咱们要解决这种问题每每须要采用一种复杂的模型,这样能够应对下面列出来的问题。这样造成一个时势造英雄的态势。大数据

沈志勇提到:“咱们是用机器学习的方法作预测,这里我大概讲一下人的预测和机器的预测大概是什么样的。首先咱们看一个正常的人,它是根据本身的经验或者是精力出发概括一下,这个事情怎么办,根据预测的概括去推测未来,它是这样的。还有一个比较直接的方法,我直接看别人怎么作,我一个老农民可能知道天气怎么样,可是年轻人不知道,我去看天气预报。人的特色,就是大脑很是神奇,它有很强的识别和推理能力。好比说人工智能不少事情都在说能达到几岁小孩的智商,并且人是 one  Pass 你无法回去,人会受到主观的干扰。机器学习其实也有一些方法直接利用别的算法或者是结果,它每每是模型的融合或者是模型结果的融合。网站

接下来沈志勇以百度预测里面的旅游为例,引入温总理参观百度的故事。介绍了时序类预测的方法。沈志勇提到:“时序性最重要的就是历史信息,之前这条线是怎么作的,对如今有没有参考。有时候你会发现特别没有规律,别的东西在影响它,会造成不少变量。在解释变量的时候会造成很是独特的预测。”“还有一种是事件类的预测”沈志勇用足球比赛做为例子,让你们更明确这种预测的方法。“你要预测它的胜负,最关心这个的人是博彩公司和赌球的人,因此这是一种作法。第二种作法是咱们没有精力去作,咱们作这件事情只是玩票,刚才说了在预测的时候还能够看别人的结果。其实这个市场是很是有意思的,它跟赌博很像,可是又不是赌博,第三钟作法是比较传统的问卷调查,这样一样能分析出预测的效果。”人工智能

最后总结一下,沈志勇谈到:“咱们在作的过程当中,会根据需求找信息,根据这个信息建模,这实际上是见招拆招的过程。如今预测只是咱们的入手点,咱们整个作的是这样一个智能系统,可能包括了前面的监控、异常检测,诊断之后咱们还要作自动调整,会用到各类场合,好比说运维和运营等等这样一些地方。”spa

主题二:基于互联网数据的社会经济预测

中科院的刘颖老师把大数据在企业中的应用(或者是在经济中的应用)分为三个层次,分别是宏观、微观和中观,从这三个方面作了一些研究实例,分享给你们。3d

一、微观层面日志

主要是在企业的层面作的比较多。企业应用最多的就是运营和营销,能够给企业的运营带来一些借鉴和促进做用。在营销方面有一些个性化、针对性的营销。亚马逊可能在国外作电商用户行为作的很是好的公司,亚马逊商品的订价采用的是及时的扫描全部竞争对手商品的订价,它采用的不是最低订价法,而是倒数第二的订价法。

二、中观层面

这个涉及到行业的预测,刘颖首先分享了一个案例:电商交易背后的用户行为规律。刘颖认为这其实是对电子商务的日志分析的结果。“咱们都听过啤酒和尿布的例子,咱们也还想知道关联推荐交易结果背后,用户走过的哪些脚步,用户的过程有没有一些规律,这个可能对网站的运营人员也是特别重要的,这个结果咱们也是从问题出发。若是从店铺的运营角度,咱们但愿知道用户走过的这些路径的规律,若是是从营销的角度,咱们但愿把用户进行分层和细分,每一个层级的用户它的特色是什么,咱们但愿用什么方法给它作营销效果更好,这是两个思路。”

三、宏观层面

在宏观层面,咱们国家如今比较关心的是经济增加、促消费,以及领导人常常提到的要知道中小企业的经营情况,咱们作了中小企业的精气指数。先分析国家的宏观形势,再分析咱们行业的形势,对公司的经营和各个方面的基本面的分析来决定这个公司的股票是否是值得购买。

最后刘颖老师总结到,“咱们这些研究可能更多的是关心企业的实际问题,从问题出发来找数据,咱们其实不是特别关心数据的量大仍是量小,只要你用咱们认为就是好数据,实际上真实到用的每每是小数据,对企业的决策直接产生价值。”

OpenSpace(开放式讨论环节)

为了促进参会者与咱们每期的嘉宾以及讲师近距离交流,深刻探讨在演讲过程当中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。

在 Open Space 的总结环节,两位话题小组长分别对讨论的内容进行了总结。​​​

 

沈志勇:咱们在作的过程当中发现:图模型有很是强的表达能力和信息压缩能力,你的数据量太大,耗费的时间也会太长,因此要在有限的时间内作大量的数据是比较累的。

 

刘颖:咱们必定要以企业的实际问题出发,作数据分析不必定要盲目追求数据量大,不论是大数据、小数据,可以解决问题的数据就是好数据。

 

@滕毅 大数据是行业趋势,期待老师带来的酱菜讲解;

 

@winsh 有什么好的大数据分析模型么,好比豆瓣面向用户的图书电影推荐?

 

@ 夏粉 _ 百度:百度大数据实验室沈志勇老师为你们揭开世界杯神预测之谜!

原文连接地址:https://developer.baidu.com/topic/show/290163

相关文章
相关标签/搜索