转自:http://www.emarketing.net.cn/magazine/adetail.jsp?aid=2247数据库
从医疗到气象,再到金融,在谢邦昌看来,数据挖掘对于各个行业的重要性不言而喻,从数据挖掘衍生出的客户关系管理、风险分析等手法更是超乎想象。大数据时代,软硬件技术与统计方法上已经不存在障碍,关键是要解决什么问题。以云端为例,若是说它是数据挖掘的筋斗云,那么驾驭这座云的即是商务智能。其实所谓的商务智能并没有玄机,它只不过是扎扎实实地在行业知识基础上进行的以解决问题为导向的数据整理与分析。人工智能缩短学习的过程,可是离不开人类智慧;数据挖掘依靠统计技术,但又远远超出统计的范畴。数据挖掘的最终目标是实现Data Value(数据价值),在这个过程当中,严谨的数据整合,准确的问题与目标识别,深刻的行业认知,缺一不可。 做为华通公司的首席统计顾问及人民大学等高校的客座教授 ,谢教授每月都要从台湾来到大陆,源源不断地将学术界的技术和人才输入企业端。帮助企业成长的同时,他也实践着本身学以至用的理念,传播着学术分享的精神。机器学习
Data Mining一直很重要:矗立在行业知识上的商务智能解决方案jsp
早在学生时代,谢教授就将统计知识与实践密切结合。在协助医院、企业处理数据的过程当中他发现,“数据分析才是统计的真谛”,因而,在数据分析的道路上,他走得愈来愈远。1995年左右,刚刚开始接触数据挖掘,2001年就在台湾成立了中华资料采矿协会(繁体中文受微软影响将Data Mining译为资料采矿),正式从事数据挖掘工做。 谢教授举了一个台湾大哥大的案例。大哥大在接到客服电话后,会在几秒钟以内经过配套程序分析数据,识别出客户的级别。若是是VIP投诉,那么这条线立刻会从接线员转到他的上级主管,针对客户的意见,上级有权利提出免费更换手机的补偿服务。大哥大的客户忠诚度正是由于这样一个基于统计或者说数据挖掘的客户关系管理流程而获得了有效的保障,这让谢教授对数据挖掘的重要性留下了深入印象。 至于操做上如何实现数据挖掘,他认为首先仍是要用到统计的抽样方法,以便迅速了解数据的Pattern(模式)。“这就像开发油矿同样,必定得先抽几个口,看看这里的油气值不值得开采。”接下来很重要的一点就是对资料感受,要找到这种感受,就要深刻探寻资料之间的结构与关联性。在了解资料特性的过程当中,Business Understanding(行业理解)和Data Understanding(数据理解)是关键,由于数据挖掘所面对的行业十分多变,“今天是医药、明天是汽车、金融。若是没有行业知识作基础,颇有可能挖到了宝玉,还觉得是一块石头。” 学习和应用行业知识的过程,甚至整个数据挖掘过程,其实就是智慧的造成和累积。“智慧,也就是所谓的商务智能。”过去的市场研究大多只能挖掘到当下的现象跟意识,却告诉不了人们将来的状况,这也是致使客户满意度下降的一个主要缘由,“就好像调查了半天,最后得出结论:煤球是黑的。”可是大互联网时代不一样了,它的发展可能在短短一个月内就颠覆传统模式,若是市场研究永远只能告诉客户这个是什么,或者过去什么,都是没有用的。只有利用商务智能,或MI(Market Insight,市场洞察),去挖掘根本性的东西,把握趋势,把握将来,才是对于客户来讲最有价值的。 “数据挖掘就像卫星导航,技术虽然简单,可是能够经过测试驾驶情况进行危机预警,这就是所谓的智慧脑。未来,Data Mining一个很重要的做用就是协助产生人工智能。”人们学习所需的时间将会愈来愈短,当短到必定程度时,人工智能也就造成了。“因此如今人们常常讲的Data Mining的其余形式,好比Machine Learning(机器学习)或Statistic Learning(统计学习),这些技术方面的进展将会愈来愈快。” 在大数据时代,技术已经不成问题。一方面,因为有了快速云端的大量扶持,数据挖掘的应用范围也越发普遍,挖掘的对象不止是数字,还包括了声音、图片等全部媒体形式,所以也有人将它称做Media Mining。另外一方面,随着数据变更速度加快,相应的统计思路也有所转变。以往的统计理论探讨的是如何追求完美的无偏、最小变异等等,“如今不须要精细到这种程度,只要看到一个趋势,知道个大概的情形就能够。偏差甚至不须要在可控制的范围,更不须要去推导一个理想的境界。由于数据时刻在变,好比人们的网购行为,天天每一个时段都会产生大量不一样的数据,将来更会如此。”谢教授说,他如今正在教学生用Excel做数据挖掘,本来不少人都不知道Excel也能够拿来作统计。“其实用什么样的统计软件和技术愈来愈不重要了,关键仍是怎么去用。” 不管如何,有一点是不能否认的,那就是数据挖掘的前景将超乎想象。技术方面,与文本挖掘的配合已经造就了许多成功案例,从期货分析到售后统计,在电信、银行、保险等各个行业都亟待推广。应用方面,台湾房地产的有关部门已经实现房屋的三维模拟,而且将气象资料和工程资料结合起来告诉买主,这间房子的噪音是多少分贝,光照程度如何。另外台湾也有私人气象公司,能够将预测细化到小区层面,这实际上也是经过对气象局的资料进行数据挖掘后实现的。“全部这些基于数据挖掘的预测预警,不管针对的是地质灾害仍是金融危机,整合起来就会造成一个风险预测体系,若是再将这个经验扩展到全球范围,风险管理也就呼之欲出了。学习
为企业输血:搭建技术平台,培养人才团队测试
1996年开始,谢教授就已经在帮助大陆的高校和企业创建研究中心。最初在人大创建了CATI实验室,实验室成立后的第一件事情就是为教育部调查大学生对于校内设施的满意度,CATI的高效性和便捷性使得校方的工做绩效有了极大的提高。此后,他又陆续在厦大、中财、南开、首经贸等学校成立了数据挖掘中心。厦大的数据挖掘中心发展到今天已经成为学校订式的一级单位。 1998年,华通的高总一行人到台湾参观了谢教授开拓的华人地区首套CATI,深受震撼。后来,高总临时有事要离开,谢教授亲自送他。本来觉得缘分就到机场为止,高总一路上却始终如有所思,直到上飞机前,他对谢教授说:“假设华通要创建CATI,大家能不能帮忙?”谢教授立即回答到:“没问题,一句话。”后来,谢教授无偿帮助华通建起了10条线的CATI。“等因而看着他们慢慢成长,愈来愈好,鼎盛期的CATI作了800多条,”谢教授说,“800多条,都不敢想象!在台湾作五六十条线就OK了,由于咱们的量就是这样。中国大陆实在是发展太快了!”后来,双方又在数据挖掘的基础上合做了网民数据挖掘项目、城市消费力模型、中小企业发展指数、能源预测预警系统等课题,华通的数据分析在此基础上提高了一个台阶,数据挖掘的服务领域也更加普遍。 在谢教授帮助进行数据挖掘的企业应用中,康师傅的冰糖悉尼成为你们津津乐道的案例。今年年初,统一推出冰糖悉尼饮品后,康师傅也跟着作了一样的尝试,虽然口味测试的效果通常,可是产品却大卖,因而就请来谢教授分析其中缘由。谢教授看了康师傅搜集的全国一千多家零售商店所贩卖的饮料品种及其成分、价格,用Data Mining的方法立刻得出了冰糖跟悉尼的高度相关性,答案天然就出来了,原来民间早有这样的组合,这不是一个品牌的创举,而是老祖宗留下的传统。康师傅负责饮料市场的专家一看,深受启发。另外,在担任顾问期间,他还帮助康师傅作了城市区割的规划,把全国7000多个小城市(镇)的区域结构、顾客消费行为、饮料市场行情,包括更重要的方圆20千米内的水供应这一系列资料收集起来,与产品口味测试、广告测试,以及调研数据等宏观资料整合在一块儿,再作Data Mining,寻找究竟是什么人消费了什么样的产品,以提供决策支持。 谢教授认为,与企业之间分享新的知识和技术是一件颇有乐趣也有价值的事。“对我而言其实很简单,本身的东西有人用,说明有人欣赏你,这就是好事。”实际上,这也是他的学术理念。不管是对本身仍是对学生,他的要求都是要可以学以至用,而不单纯是躲在学校里面埋头钻研。目前,谢教授在大陆有将近10个博士生。他说,“但愿本身培养出来的学生可以对企业有用,可以独当一面,这样最实在”。如今一些大公司的经理或总监早前都是他的学生,学生们留在高校任教的反而愈来愈少,大都去了业界、银行这些对数据挖掘颇有现实需求的部门。 谢教授一直在强调团队的概念,他但愿学生之间以团队的立场相互交流、相互帮助。所谓“师傅引进门,修行在我的”,许多问题他都鼓励学生本身去寻求解决办法,但这并不意味着老师能够放手无论。在台湾的时候,每一个礼拜6、礼拜天,他都跟大陆的研究生们上网交流,除了探讨研究方面的问题以外,更重要的是分享新鲜资讯。正说着,他兴致勃勃地从包里掏出一份飞机上的报纸,上面刊登了一篇题为消费基因的文章,涉及到数据挖掘的最新应用。他说本身喜欢不断去发现和收集一些新的东西,而且分享给学生,督促你们积极地参与讨论。 在他看来,大陆的学生很用功,台湾学生的特色则是创新,做为老师,不能以一个单一的标准去衡量学生,而是应该引导学生,将各自的优势融合起来。因此,他常常让两岸学生互相来往,交流经验,企业对此也给予了支持。他们以为,不管是在客户端,仍是像华通这样的服务公司,最根本就是人才。谢教授在学校创建数据挖掘中心也好,带博士生和硕士生也好,两岸交流也好,其实都是在为这个行业输血。包括华通本身的数据挖掘小组也常常请谢教授来授课,努力将知识跟实战结合起来。 他同时也坚持本身的学术立场,认为学校是一个最好的研究场所,尤为在台湾,学者有很大的开放空间去作研发,与业界、政府界的联系也十分密切,常常有机会接触到一些最新的东西,产生出新的点子。“我常常会想为何不这样作,为何不那样作?想到这里东西也就出来了,CATI当初就是这么来的。之前我跟台湾行政体系,相似于国家统计局,咱们之间很熟,我常到那里去看他们作的调查,有了一些想法以后,再联系到台湾愈来愈高的电话普及率,而后就决定把CATI作出来。”大数据
促进两岸交流:放开传统观念,创建数据挖掘意识人工智能
谢教授说,台湾的数据挖掘之因此发展较快,受到欧美地区的影响是有的,应用上的迫切性也有,另外还有一点,台湾在数据方面的开放程度很高。他一直鼓励两岸三地的交流与合做,不管是学术交流仍是学界与企业之间的分享。他说,中国有一句话叫作“鱼帮水,水帮鱼”,“学术界也不用从商业的角度来看待这件事情。就像我帮了企业,以后我在中国人民大学每办一次研讨会,都获得了企业的支持。”他也时常推荐台湾的厂商、企业,甚至外贸协会与华通合做。每当外界对于中国大陆统计数值的质量有所怀疑时,他都会说:“别人你不相信不要紧,若是你真的要作,就找华通。”与20年前刚到大陆时相比,谢教授感受到大陆的环境已经明显改善。 不过,目前市场研究方面仍然有待改进。以人才的问题为例,市场研究给人的感受老是要比咨询低一个层次,人才的输入也所以受到阻碍。针对这一点,谢教授说,关键是要从观念上真正理解数据价值。好比大陆的CATI从10条变成800条线,就意味着已经转变为传统产业,“一个大学毕业生只要10条电话线就能够作市场调研了,你们都会了,因此才有所谓的低一层次的说法,好像市场研究变成一个很廉价的资料搜集。但实际上并非这样。”市场研究与传统的资料搜集最大的不一样之处就在于数据价值,也就是说,可以从数据库,从资料上获得价值才是最重要的。“若是市场调查公司都能搭建起这样的价值体系,能够帮助客户深刻挖掘资料信息,那么层级天然就高一等了,假设只是搜寻数据,那么利润会愈来愈低,愈来愈薄,市场随时能够把你关掉。”虽然说这十几年左右,大陆发展了许多新的调查技术,包括新建的CATI也不少,可是搜集的数据良莠不齐。并且,搜集到数据以后,如何整理的宏观数据库,产业、企业数据库,以及调研所得的数据,又是对于将来发展相当重要的问题。 就像Data Mining的问题不是技术问题,中国大陆的根本问题也不在于硬件方面,而是在于管理理念和商业模式。台湾从制造业发展到服务业为主,从传统的低附加值走向高附加值,一开始是受欧美经济战略的影响,后来的变化更多的是体如今人的素质和管理层面上。以服务业为例,华通人去台湾时专门去了台北一零一大楼的“景泰丰”,回到北京后又对比了以服务着称的“海底捞”,“海底捞用的是从农村里来的孩子,景泰丰用的是大学教出来的,这就有差别了。”如今的领导层再去台湾,不只仅是去学技术,更多的是学管理,学意识。“实实在在的差距,不是可以经过随机应变来解决的,只有等到意识和管理都达到那种高度的时候,这种差距才能消除。” 比起传统的市场调查,大陆的Data Mining尚处于探索阶段,没有彻底实现接到项目需求,当即执行,继而完成报告的流水线模式。这里的问题包括客户是否放心把数据放给服务公司来作分析,以及得出的最终结果是否真正能知足客户的要求等等。“大陆的增加空间仍是很大的,好比电话普及率,如今的家庭固定电话早已普及,手机也不止人手一台了。”谢教授下一步的计划就是帮助大陆企业,创建起数据挖掘意识。“经过与企业合做,整合云端技术,寻求真正的数据价值,再去与企业分享,但愿可以在大陆的数据挖掘以及商务智能的发展方面起到一些做用。”.net
采访/撰文:张翕/蔡融融/刘向清对象
原话录音整理:摩瑞市场研究公司图片
2012-11-12 16:28:27