《数据驱动安全:数据安全分析、可视化和仪表盘》一1.3 以问题为中心

本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第1章 ,第1.3节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3 以问题为中心

尽管我们认为数据分析应该十分有趣,但是由于它本身特性,却从未如此。数据分析始终在一个更大的上下文内进行的,并且理解这个上下文是成功进行数据分析的关键,忽视了数据分析的上下文就如同赛跑的时候不关注终点线一样盲目,我们要清晰地认识从数据中学到的东西。总之,每一个良好的数据分析项目一开始就设定一个目标,并创建一个或多个研究问题(research question)。也许你已经遇到一个可视化或分析研究,并且疑惑“好了,可是要做什么呢?”,产生这样的反应有可能就是因为在分析中缺乏一个预设的研究问题。记住,数据分析的目的是从实际环境中来学习,学习的过程中数据可有可无(会取得不同程度的成功)。创建和跟进一个好的研究问题不仅仅是好的数据分析的组成部分,也是好的学习过程的一个组成部分。如果没有一个良好的研究问题来引导数据分析的过程,就可能把时间和精力浪费在从数据中寻求一些容易的答案,或者更糟糕的是,你可能只是在寻找一个无人关心的问题的答案。
例如,图1-4显示了某组织给定月份中垃圾邮件的数量和类别的对应关系。多亏一个邮件过滤系统生成的日志,才使收集和展示这些信息得以完成,但是该组织对于这些数据回答的问题(以及后续应采取的行动)却不太关心。很难想象有人看着这图表,并想“让我们来看看为什么12月份的旅游主题的垃圾邮件会上升”。如图1-4所示是失败地选择了或者略过了研究问题导致的,为了数据分析而数据分析,未能有助于提供给人们任何有意义的环境信息。
围绕垃圾邮件较好地一个研究问题可能是“在未被邮件过滤系统阻拦的垃圾邮件上,员工花费了多少时间?”仅计算有多少垃圾邮件被阻拦是没有价值的,因为它没有任何语境意义(没人可以估算1000与5000封垃圾邮件之间的效率差异),我们想知道垃圾邮件对员工生产率产生的影响。虽然生产率是难以直接度量的,我们可以转变一下,并且认为当员工在阅读和删除垃圾邮件的时候是没有工作效率的。因此,我们真正要度量的是员工在处理未过滤的垃圾邮件时所花的时间。
现在,研究问题被设计成这样:我们不能指望垃圾邮件过滤系统的日志来回答这个垃圾邮件相关的问题,并且我们真的不在乎上千的邮件被阻拦在外围或者什么样的邮件被阻拦。有研究问题在手,我们知道要收集度量员工的处理时间,或许可以看看邮件客户端在用户标记垃圾邮件时产生的事件日志,或许在选取部分用户做为样本时进行一个简单的调查,记录下他们在某段时间内收到的垃圾邮件数量以及花费在这些邮件上的时间。无论什么方法,这项分析工作的背景以及目的是根据研究问题来制定的,而不是源于我们可获取的数据。

image