数据驱动的地理学 Data-driven Geography算法
引用:Miller H J, Goodchild M F. Data-driven geography[J].GeoJournal, 2015, 80(4): 449-461.数据库
这篇文章的两个做者但是鼎鼎大名,搞地理学的应该不陌生,Miller是俄亥俄州立大学教授,在地理信息科学尤为是交通地理信息方面颇有名,Goodchild基本上能够算目前地理信息科学领域第一人了吧,加州大学圣塔巴巴巴拉分校(这但是涛哥心中的圣地啊^-^ )的教授,美国科学院院士,地理信息科学这概念就是他老人家首先提出来的。网络
文章的题目很吸引人,“大数据”是近几年很是火的概念,数据时代已经来临,大数据开始影响社会各行各业,那么在地理学的研究领域会引起什么样的变化呢,数据如何驱动地理学的研究呢。文章从大数据的概念开始,重点分析了用数据驱动地理学研究所面对的主要挑战是什么;在数据驱动的地理学研究中的理论扮演什么样的角色;以及大数据技术如何融入到地理学的研究中。机器学习
一、什么是大数据。工具
大数据的“大”不只是指数量多,它体如今三个维度上,“3V”,volume:采集和存储的数据数量;velocity:数据获取的速度;variety:获取数据的类型。性能
二、大数据与数据驱动的地理学。学习
目前人类获取数据的能力是史无前例的,可是多了也不必定就好,有个比喻很形象,感受“就像从消防栓里喝水”,咱们可能已经进入了第四个时期——数据驱动的科学,区别于以前的个体观察驱动,理论发展驱动、计算模拟驱动的科学研究。不过地理学其实在不少年之前就面临着“消防栓喝水”的状况了,70年代Landsat就开始为咱们带来超出咱们分析能力的大量数据了,可是今天的大数据不只仅是数量的问题,它的种类变得更加多样化,包括社交媒体、群体共创、地基传感器网络、监控摄像头等等,而且其获取速度很是快。大数据
大数据正在催生一种新的科研方法论,数据已经不只仅用来校订、验证和实验,而是变成整个分析的驱动力,因此,在数据分析师的脑海中,数据变成了从真实世界传输过来的具备很宽波谱范围的高速数据流,咱们可能会进入第四种科研范式:研究方法是根据数据设计的,而不是像以前那样数据去知足研究方法的需求。优化
三、数据驱动地理学面临的挑战。设计
在《大数据:将会改变咱们的生活、工做、思考的革命》这本书中提到了大数据对科学研究的三大挑战,具体到地理学的研究中是什么状况呢?
(1)整体而不是抽样。以前学者们研究发展抽样方法用以应对数据和信息超负荷的问题,随机抽样的方法不错,可是很脆弱,它的一个基本前提就是抽的样必须有表明性,那么不一样的研究内容须要的采样率就不同,为某一项研究准备的采样数据用于其它的研究可能就不合适。可是另外一方面,咱们选用整体数据进行研究,也不是就没有问题,举个例子,有时候是没有抽样,但整体数据自己就存在自选择的问题。咱们收集的推特数据,其中只有一部分是具备地理位置信息的,咱们对于发信息的这群人的人口学特征是不清楚的,所以也很难把一些研究结论推广到更多的人群。
还有一个在志愿地理信息(volunteer geographic information)研究中的例子,社交媒体好比Facebook可以很好的反映人口分布特征,可是并不必定能很好的反应人们的生活,你们在参加音乐会或者听讲座的时候愿意晒信息,可是你要是夜里10点之后在酒吧呢?因此这些信息可能并不能反映人们所有的生活,或者仅仅反映的是人们愿意展现到社会环境中的生活。
(2)混乱而不清晰。 新的数据源每每比较散乱,结构混乱没有质量控制,咱们至少有两种方法能够去应对,一个是将数据用于对数据质量不敏感的研究,比较软的科研领域,初期的研究领域概览,预约假设条件,定性研究。另外咱们能够试图去清理和验证数据,实际上在传统的地理信息获取中,数据是通过数据采集分析人员的综合的,比原始数据精度更高,可是这种综合处理通常是没有表现出来的,可是在大数据时代这种综合处理将会更加清晰和关键。整理和验证这些混乱的数据主要有三种策略,(a)基于人群的解决方案,原理就是莱纳斯法则,“只要有更多的眼球关注,最终的产品就有更好的精度”,例子就是维基百科,开放的贡献编辑在自动编辑程序的辅助下就能产生比较准确的结果。(b)基于社会的解决方案,由自愿参与的主持人和信息传递者组成一种层次结构,根据不一样个体的行为记录和他们贡献的准确度,把他们任命为这个层级结构中的不一样角色,若是产生了争议和疑问就反映到上一个层级进行处理。我我的感受这好像有点相似于国内的字幕组的状况。(c)基于知识的解决方案,主要是将获取的数据和已知的地理世界进行对比,检验其一致性,未来这种对比可能变成自动的,接近实时的,好比说入口匝道通常与主路的夹角是小于30度的,利用这个常识就能够检验获取数据的真实性。这种基于知识的解决方案关键的挑战在于如何将咱们掌握的地理知识公式化。
(3)相关而不是因果。传统的科研关注事物产生的缘由,单纯的相关每每是不够的,由于存在相关并不代表一个变量的改变就必然引发另外一个变量的改变。长久以来,科学界对单纯的研究相关性而没有研究因果关系,或者没有给出足够的解释是嗤之以鼻的。可是不管如何,相关性在预测方面是有价值的,尤为是你若是认为这种相关性在研究数据之外也具备广泛性。虽然单纯的研究相关性并不够,可是因果和解释性也并非全部科学研究的必要条件,好比像空间分析领域,地理信息科学领域的文献中有不少关于发现模式,数据可视化,从数据中发现信息的研究,这些工具在数据驱动的科研中是颇有价值的,而回答“为何是这样”可能并不那么必要。
四、数据驱动地理学中的理论研究
在Wired杂志上有一篇引发热议的文章,Anderson认为数据的洪流已经使咱们的科研方法显得过期,咱们目前的这种科学模式即将进入尾声。以生物学和物理学为例,如今的研究进展已经进入超现实阶段,愈来愈难以解释,在接下来的进程中,解释可能并非必须的,相关将接替因果,在缺乏一致的模型、理论、机理解释的状况下科学也能够进步。
数据驱动的研究可能将产生一种转变,从普适的通用的研究变为针对某一特定环境的研究。这种转变有一些明显的好处,Batty就曾指出城市规划和城市研究在数据不丰富的时代,主要关注的都是那些长时间段内,大规模的激进的变化而不是那些着眼于本地的,小区域的一些改变。数据驱动的城市科学可以更加关注城市局部的、平常的变化,进而有可能在改善城市病方面取得进展。
相似于上面提到的,从普适的通用的研究变为针对某一特定环境的研究,其实地理学早已经在“寻求法则”和“寻求描述”之间经历了至关漫长的过程。从早期的洪堡、李特尔到区域地理学派、地理学危机、计量革命,到后来Goodchild认为GIS融合了二者,软件和算法是基于法则的,具备普适性的;而其数据库是基于描述的,具备特异性的。
在重视数据的地理知识获取方法中,咱们彷佛回到了地理学早期的基础,“寻求法则”和“寻求描述”二者都不会是压倒性的优点,地理学能够创建统一的法则,可是又跟具体的空间位置有关系。因此,数据驱动的地理学研究理论跟传统的地理学研究理论并不会产生明显的断裂。
五、数据驱动地理学的研究方法
若是咱们接受了上面的这个前提,就是大数据和数据驱动与地理学中长久以来的主题和理论基础是和谐的,那么这种数据驱动的研究方法怎样融入到地理学研究中?用数据驱动的方法去支撑地理知识发现和空间建模所面临的问题和挑战有哪些?
(1)数据驱动的地理知识发现。地理知识发现是指研究的初期状态,提出概念观点,创建待检验的假设条件,开展基础工做支持知识构建。对于这个阶段,数据驱动并非革命性的新方法,应该是对现有处理过程的增强,像是望远镜和显微镜可以使咱们注意到更多隐藏的事实。
数据驱动的知识发现的哲学基础,就是“溯因推理”,从用数据描述到最终用一个假设去解释数据。它是“演绎推理”和“概括推理”的一个弱形式,演绎推理获得“X确定是真的”的结论,概括推理获得“X是真的”的结论,溯因推理只能获得“X多是真的”的结论,即使如此,溯因推理在科学领域也是很重要的,尤为是在知识构建的初级阶段。
咱们要进行数据探索和模式发现,还要面对的一个困难就是大数据的数量和复杂性,咱们能够用背景知识和兴趣度量来应对,背景知识指导咱们发现合理的新奇的模式,兴趣度量能够从简单性、肯定性、用途等维度过滤那些伪模式,不过这两个方面的实现一样依赖于咱们上面提到过的“地理知识的公式化”。
(2)数据驱动的建模。传统的建模方法是对理论进行“演绎推理”后,获得一个正式的表达,它能够对现实世界进行预测,也可以被数据验证。数据驱动的建模是不同的,它对数据进行“概括推理”从而获得模型。这也存在很多争议,由于模型可否对现实进行预测变成了检验模型的惟一标准,而模型的解释性则变得可有可无。在地理学中一样存在这种争论,Stan Openshaw很是支持利用计算机直接分析数据,从而构建空间关系模型,好比地理分析机(Geographical Analysis Machine, GAM),它不须要任何理论假设和先验知识就能够进行区域汇集和热点分析。
对于这种忽略理论的建模,一个问题就是在寻找解释性模型的过程当中效率可能很低。由于理论会告诉咱们去哪寻找解释,或者至少是不用去哪需找,好比,在一个特定的空间关系建模中,就能经过尺度分析理论提早剔除掉一部分选项。虽然计算机的高性能以及聪明的算法能够增长咱们成功建模的机会,可是数据的数量、种类和更新速度也在快速增长,在这二者的军备竞赛中谁是胜者还难说。
这种忽略理论的建模的另外一个问题在于并不能保证从不一样数据中获得相同的模型,即便是相同的数据集,也可能获得不一样的拟合的很好的模型,拟合优度标准的微小变化就会致使获得差别巨大的最优模型。这其中就会遇到统计中的过分拟合问题,这是数据概括分析技术中的一个广泛问题,好比人工神经网络和机器学习,2013年的《经济学人》提到一些研究代表3/4已发表的机器学习领域的科研论文都是有问题的就是觉得其过分拟合。
忽略理论的建模的第三个问题在于结果模型可能很是复杂。传统科学研究的一个原则就是,用最简单的模型解释尽量多的问题,好比你们熟知的奥卡姆剃刀原则:“两个一样效果的模型,简单的那个更好。” 模型的解释性是一个没有正式的要求,可是是对模型很是关键的一个检验,模型的创建者必须可以从现实解释模型的结果。可是从数据计算并进一步根据预测结果进行微调获得的模型对人类的大脑来讲已通过于复杂了。例如Openshaw的自动分析系统获得的空间关系模型就很是复杂(见下图)。
数据驱动的模型是复杂而且不可压缩的,只有数据才能解释它。若是这种解释是不能被人脑所理解的,那么咱们还可否有本身的解释呢?也许是这种解释也在进化;也许是电脑做为数据驱动科学的基础,并不只仅是发现,更是用一种超越了人类理解能力的复杂模式进行了表达;也许是像一些预测说的那样,这只是在咱们人类可以融会贯通人脑和机器智能以前的一个暂时的状态。这很难说清楚,不过这让我想到了Nate Silver的警告,讲数据的故事而不是现实世界的故事,这是很是危险的,这会把咱们引向错误的信号噪音。
最后一个问题是数据驱动的空间建模是去技能化的,会下降咱们进行建模和分析的能力。把世俗繁琐的任务交给计算机能够解放人们去进行那些精细复杂的活动,可是有些时候,那些世俗繁琐的任务是很是关键的。例如,如今的飞行员缺乏手动飞行的经验,使他们在面对自动飞行关闭的紧急状态下,显得手足无措。在Openshaw的自动空间关系建模系统的帮助下,分析人员在空间关系建模方面的能力就会降低,可能在组合优化方面的能力会提升。因此这可能就须要在教育和资格认证的时候要求地理从业人员具有这方面的能力,或者经过设计软件鼓励或要求分析人员具有这些基本能力。
不过咱们在30年后重读Jerry Dobson于1983年写的关于自动化地理学的预言,一个让人印象深入的内容就是,那些让人痛苦的麻烦事之后可能只须要按一下按钮。不少上了年纪的地理学家可能会想起当年地图制图的那些基础课程,今天咱们认为很关键的技能会不会在明天就变得像钢笔,墨水那样无人问津,变成了小众的一些玩意了呢?
六、结论
当地理学研究进入大数据的时代,最大的基础性变化不是数据的数量,而是数据的种类和更新速度,数据驱动的地理学是因应丰富的包含地理信息的数据流而出现的。伴随着数据驱动地理学还有不少问题都浮现出来,其中一些是原本就在地理学研究中长期存在的,可是,空间语境仍然会是地理思考的主题,而且也是各类方法背后的主要驱动力。大数据在地理知识发现和空间建模方面有潜力也有挑战,好比说如何将地理知识公式化用于清理混乱的数据和剔除伪模式,如何创建真实而且能够理解的数据驱动的模型。