图源:unsplash机器学习
有人认为,数据科学就是建立可用来预测的模型。这句话能够这样理解:咱们有了数据,探测发展模式,把这些再应用于预测将来,得到结果。这个逻辑说得通,其背后的理论,咱们称之为统计。ide
整个历史长河中,有关预测的代名词前后涌现,好比数据挖掘、分析、商业智能、运筹学、新兴的数据科学。不过在这里咱们不必深究统计与数据科学之间是否能划等号,也大可没必要对数据信息获取的无数流行词吹毛求疵。今天笔者想聊点儿别的。学习
你没法预测将来,这一点毋庸置疑,但你依然试图在用图表乐此不疲地作着预测。你认为数据中必定存在些信息,有误差的“地图”总比没“地图”强吧。测试
在NassimTaleb最出名的一本书中,他借助隐喻说明人类以前对于预测将来的了解经不起推敲。多个世纪前,人们不相信这世上有黑天鹅的存在,由于从未有人见过。直到第一批探险队伍抵达澳大利亚,他们发现原来也会有黑色的羽毛。设计
单一只黑色家禽让多年存在的“白天鹅定律”不攻自破。哲学家Karl Popper(1902-1994)认为科学是完全纠正理论的事业。Popper认为理论只多是错的,咱们会须要无数证据验证理论是否实事求是,但这不太可能。3d
你可能会说“这算个什么哲学,这也太糟糕了!”让实践来讲明一切吧!看一下国际货币基金组织2020年1月份的GDP增速预测:code
2020年1月IMF的GDP增速预测对象
这里是8月份的预测数据:blog
2020年8月IMF的GDP增速预测游戏
他们怎么作到的短短几个月就能够迅速改变预测?2019年12月31日,中国报道了武汉“连续几件不明缘由疫情”,几周后被称之为COVID-19,世界卫生组织将其升级为全球性流行病。因为该疾病会人传人,整个世界的经济会所以受到了影响。
国际货币基金组织是预测经济的一个前沿机构,它传达的信息变化很是快,会让你对任何预测产生怀疑。假如你碰巧是所谓的“数据科学家”,但愿你在预测时也持有怀疑的态度。
你也许会认为IMF历来没打算准确预测将来,他们仅仅预测将来可能出现的状况从而帮助决策制定者。我赞成你的说法,但关键是是稳增经济有过山车式发展的风险并未考虑在内。
图源:unsplash
IMF“单纯预估”会让决策制定者在将来几个月中错过最关键的信息。IMF并不是没有能力预测或故意使坏,而是没法预测。这正是Taleb 想传达的:咱们没法预测最重要的事件,由于没有消息指向。数据也不难获取,只是答案根本不在那!
对于黑天鹅事件,就算是数据也帮不了你。
股市几乎彻底预测了近期的五次衰退。若是你还在臣服于数据科学的魔力,赶忙停下来吧。把时间投资在更容易获利的领域:股市。
股市对数据科学家来讲是一个再好不过的环境了。有无数须要计算的数据,这些不只是公共的资源,格式也正确。实际上,一些机器学习的文字介绍会将股市做为主要对象,创建最好的模型。
若是你的预测准确,就会赢得一大笔钱。抛售下行股票,买上行股票。很不幸,这不太能实现,我打赌。
图源:unsplash
根据S&P 的观点(一家追踪全世界平均股价的企业),“从以往来看,主动式管理基金在短时间核长期以来不如基准”。主动式管理基金须要工做人员预测市场趋势,告知你们要卖哪一个或买哪一个股票。即使如此,他们也没法超越基准,因此只购买每只股票的一小部分来获取平均回报的人会更占优点。
用历史数据预测股市是贸易中的传统,这种方法属于技术分析。这个话题存在争议,时至今日一些人很是信誓旦旦地认为这个方法奏效。他们认为市场中有这样的趋势,许多亿万富翁的财富都要归功于数据信号的利用。
也许这是对的。或许股市中确有趋势,但80%的公司没法利用此途径,哪怕信息是真的,由于旧潮流后会有新的出现。事实证实世界是不断变化的,万事万物变化得飞快,因此任何预测都无济于事。
数据科学没法预测股市是真实状况。将“股市”变为“公司收益”、“客户选择”或其余老板让你预测的利益点,你还会认为本身预测的数字是好的吗?咱们没法预测最重要的事情,哪怕这些事即将发生,小几率事件即便能够预测也提不出什么有价值的信息。
将来没法预测,但能够被创造。
就像我以前提到的,商业环境下从数据中抽取信息的历史长达整整两个世纪。因此咱们就该预测到所谓正常状况下发生的事情。一我的必须是其领域中是最好的预测者,咱们才会称之为专家。
Philip Tetlock开展了调查,想了解专家是否真的须要预测将来重要的事情。没有成绩的人如何能称之为专家呢?我认为,就算这些人不擅长预测,也是善于编造故事的,只挑选最有用的信息而后另创一个故事,这足以让不少人信服。
专家们都很谨慎,不会作一些容易被推翻的预测,不会告诉你准确的时间。他们通常会说“将来的路很难走”,怎么个难法留给大众去自行解读。
咱们能够用数字撒谎。在数据科学家眼中,这不是须要解决的重要问题,而是他们工做的一部分。他们是在讲故事,如今用数字说服人也是一种技巧。或者用我最喜欢的TED讲者的话说,“再添几行,我会给你提供更多的数字”。
图源:unsplash
任一家公司的员工都会被要求作出成绩。在特特洛克看来,数据科学家很容易成为“专家”。在企业政治游戏中,一些分析师会运用各类编故事的技俩呈现最佳预测,即使是错误的关联、没有预测的能力,并且比不过测试数据集。
若是你从数据科学家那里获得了预测的话,问问你本身:这些数字在告诉我一些重要的事吗?仍是特定程序给你呈现想要的结果?
事实如此不便多说,学术研究登记以前是有协议的。研究人员须要先提出问题再寻找答案,不然数据提示的信息都有可能成为答案。至少你要知道这些数字可能什么也说明不了,哪怕是背后的模型设计得再精密。
错误不表明彻底没有价值,有用的东西蕴含在其中。在天天工做结束的时候,数据科学家给公司创造的价值就是:
· 没有预测重大事件或意外发生的事件——好比黑天鹅。
· 就算没有意外发生,数据中必定有一些重要的模式,这些模式可能没法继续利用,毕竟世界在变化——好比主动式基金。
· 即便某种方式会不断受用,预测结果可能只是个美好的谎话——好比“那些专家”。
不是说数据科学家不必存在。咱们会定决策,但得看是基于金钱仍是数据,我倾向于后者。数据科学家越被鼓励进行实验,找到错误的速度就越快。
图源:unsplash
但若是你相信了宣传语投身数据的话,就大错特错了。独角兽企业这么作没问题,由于首先,关联并不表明因果;其次是无需为那些迷信数据圣经的公司的失败负责,用Taleb的话来讲,这些公司深陷数字教条爬不出来了。
你可能以为笔者有点儿偏激了,但个人目的在于:把你带离数据驱动的乌托邦世界。数据科学并不是灵丹妙药,它也有许多缺点,须要抱有怀疑态度,请跳出迷信理解数据科学。
编译组:孙梦琪 相关连接: https://towardsdatascience.com/data-science-is-a-lie-d9157b9ed29c 如转载,请后台留言,遵照转载规范
ACL2018论文集50篇解读 EMNLP2017论文集28篇论文解读 2018年AI三大顶会中国学术成果全连接 ACL2017论文集:34篇解读干货全在这里 10篇AAAI2017经典论文回顾