Coding and Paper Letter(七十一)

这个系列有点久没更新,最近事情比较多。后面会继续坚持资源整理。python

1 Coding:

1.R语言包ggcorrplot2,ggplot2的拓展包,相似于corrplot包的功能,用于绘制相关系数图。在这个系列的第十七篇里有另外一个相关的包,有兴趣的同窗能够作下比较。git

ggcorrplot2github

2.R代码的分析,可重现研究与审查。算法

CodeDependsspring

3.简化你的ONNX模型,ONNX在本系列的六十二篇里有提到相关的平台。ONNX是指Open Neural Network Exchange(ONNX,开放神经网络交换)格式,是一个用于表示深度学习模型的标准,可以使模型在不一样框架之间进行转移。docker

onnx simplifier编程

4.R语言包quizlite,目标是生成轻量级测验。后端

quizliteapi

5.开放研究网络(OTN)是一个全球性的,分散的研究人员和机构团体,欢迎任何致力于标准化和整合全部生物特征数据的人员。 咱们以开放科学的原则为指导,特别是开放方法,开放源代码和开放数据。数组

open traits network.github.io

6.其目的是记录之前在OzUnconf事件中建立的数据集,以及其余有趣且独特的澳大利亚数据集和资源。

OZdatasets

7.构建一个模型用于识别卫星影像中的做物损失。Python代码。

crop loss EPAR

8.机器学习用于全球发展。Radiant Earth Foundation是一个非营利组织,其使命是改善开放地理空间资源的发现,访问,交付和应用,以支持全球开发社区(GDC)。 经过与开发社区,商业和学术专家合做,Radiant Earth Foundation经过集成和利用最新的Earth Observation(EO)和Machine Learning(ML)技术来实现这些目标。

ml4gd

9.regl经过删除尽量多的共享状态来简化WebGL编程。 为此,它将WebGL API替换为两个基本抽象,资源和命令。

regl

10.R语言包Metrics,用于评估机器学习算法精度的各种指标计算。

Metrics

11.R语言包cgraph,容许在R中建立,评估和区分计算图。计算图是经过其(基本)运算分解的多元函数的图形表示。 图中的节点表示数组,而边表示数组之间的依存关系。 将功能表示为计算图的优势在于,这能够经过自动微分来区分功能。 “ cgraph”软件包支持各类功能,包括基本算术,三角函数和线性代数函数。 它经过反向自动微分来区分计算图。 该软件包的灵活体系结构使其可用于解决各类问题,包括局部灵敏度分析,基于梯度的优化和机器学习。

cgraph

12.能够在git提交信息中心插入表情。

gitmoji

13.R语言包cubelyr,数据立方体dplyr后端。

cubelyr

14.一个实现数据和ML管道软件工程最佳实践的Python库。

kedro

15.使用朴素贝叶斯,SVM,CNN,LSTM等对推文进行情感分析。

twitter sentiment analysis

16.pygeoapi提供了地理空间数据的API。

pygeoapi

17.pkuseg:一个多领域中文分词工具包。

pkuseg python

18.R语言包d3.format,R的d3格式接口。

d3.format

19.斯坦福地震数据集(STEAD):用于AI的地震信号全球数据集。

STEAD

20.AGU 2019秋季会议的研讨会材料“Best Practices for Developing and Sustaining Your Open-Source Research Software”。

2019 agu oss

21.这些课程材料涵盖了2019年秋季在哥本哈根大学下半年IT课程。

introdatasci

22.R语言包agroenv,使用各类数据源从地理坐标中反演土壤和睦候数据。

agroenv

23.PyTorch Elastic(torchelastic)是一个框架,使分布式培训做业可以以容错和弹性的方式执行。 它提供了原语和接口供您编写分布式PyTorch做业,以即可以弹性地在多台机器上运行; 也就是说,只要存在最小数量的工做人员,您的分布式工做就能够启动,而且能够增加到最大数量的工做人员而无需中止或从新启动。

elastic

24.R语言包tvthemes,基于您喜欢的电视节目的ggplot2主题和调色板。

tvthemes

25.Colby R用户组午饭会演讲。

rug 2019 12

26.包含NeurIPS 2019论文《使用贝叶斯原理的实践深度学习》的代码。

dl with bayes

27.R语言包hdme,包含针对高维测量偏差问题(变量偏差)的惩罚回归方法。

hdme

28.R语言包Polymer,目标是提供灵活且直观的overlay方法(熟悉GIS工做流),但具备任意数量的输入层。

polymer

29.用于深度学习的AutoML工具包。

autogluon

30.R语言包writexl,便携式,轻量级的数据框,用于xlsx导出器以用于R

writexl

31.OpenGL教程。

ogl

32.R语言包networkdata,该软件包包含各类不一样的网络数据集(所有为igraph格式)。

networkdata

33.带有Runcharter for Performance信号项目的Shiny App。

RunCharter Shiny

34.二维码生成器。

qrcode

35.本项目用于存放论文:基于远程监督的人物属性抽取研究 的实验数据。

Distant Supervision for Person Attribute Extraction

36.R语言包googlesheet4,Google Spreadsheets R API(从新启动googlesheets程序包)。

googlesheets4

37.可视化工具箱,用于精美且发表的图片。

see

38.栅格数据工具,包括地球物理应用程序和数字高程模型。

gridfour

39.PySAL项目的Docker容器。

docker

40.为Leaflet提供漂亮的动画标记聚类功能,Leaflet是用于交互式地图的JS库。

Leaflet.markercluster

41.用于Intake的Geopandas插件。

intake geopandas

42.libpysal的网络测试数据集。

newHaven

43.pysal-mgwr的测试数据集。

clearwater

44.R语言包causalTree,causalTree函数可创建回归模型并返回一个rpart对象,该对象是rpart包派生的对象,在由Breiman,Friedman,Olshen和Stone编写的CART(分类和回归树)中实现了许多想法。 像rpart同样,causalTree分两个阶段构建二进制回归树模型,但着重于估计异构因果效应。

causalTree

45.“ Python机器学习(第3版)”书代码存储库。

python machine learning book 3rd edition

46.EPFL硕士课程“数据科学网络之旅”的材料,2019年版。

ntds 2019

47.R语言包ggfittext,ggfittext提供了一个ggplot2 geom,用于将文本放入框中。

ggfittext

48.“使用R学习统计信息”的源文件。

rbook

49.Beamer风格的幻灯片模板集。包含了PowerPoint和Keynote两套格式。

BeamerStyleSlides

50.使用句法依存分析抽取事实三元组。

fact triple extraction

51.这实现了用于NLU任务的联合意图检测和空缺填充的循环模型。

multiLSTM

52.基于法律裁判文书的事件抽取及其应用。

Event Extraction

2 Paper:

1.Land Use Regression models for 60 volatile organic compounds: Comparing Google Point of Interest (POI) and city permit data/60种挥发性有机物的土地利用回归模型:比较Google Point of Interest(POI)和城市许可数据

挥发性有机化合物(VOC)的土地使用回归(LUR)模型一般关注土地使用(例如工业区)或运输设施(例如道路);在这里,咱们结合了城市许可数据和Google Point of Interest(POI)数据中的区域来源(例如加油站),以比较模型的效果。咱们使用了来自美国明尼苏达州明尼阿波利斯市的50个基于社区的采样地点(2013-2015年)的测量结果,为60个VOC创建了LUR模型。咱们使用了三组自变量:(1)具备土地利用和运输变量的基本案例模型;(2)从本地营业许可数据中添加区域源变量的模型;(3)使用Google POI数据做为区域源的模型。带有Google POI数据的模型效果最好;例如,与许可数据模型(0.42; 0.37)相比,总VOC(TVOC)模型具备更好的拟合优度和基本模型。在小规模缓冲区大小(例如25 m–500 m)的60个VOC中,在超过三分之二的模型中选择了区域源变量。咱们的工做代表,可使用基于社区的抽样来开发VOC LUR模型,而且能够经过添加根据业务许可和Google POI数据衡量的区域来源来改进模型。分析VOC的LUR模型,VOC事实上是很难进行遥感反演和站点监测,可是同时VOC又是各种空气污染的来源之一,这篇文章基于当前的地图大数据结合城市许可(这里没有详细看具体数据,猜想可能相似国内的规划许可)进行LUR建模。对于将来的空气污染制图研究颇有意义。

2.A Novel Framework to Automatically Fuse Multiplatform LiDAR Data in Forest Environments Based on Tree Locations/基于树位置的森林环境中自动融合多平台LiDAR数据的新框架

新兴的近地光探测和测距(LiDAR)平台[例如,地面,背包,移动和无人机(UAV)]已显示出巨大的森林资源潜力。可是,不一样的LiDAR平台在数据覆盖范围或捕获树冠下信息方面都有局限性。多平台LiDAR数据的融合是该问题的潜在解决方案。因为森林的复杂性和不规则性以及森林林冠下的定位信息不许确,当前的多平台数据融合仍须要大量的人工工做。在本文中,咱们基于每一个森林都有惟一的树分布模式的假设,提出了一个自动的多平台LiDAR数据校订框架。提议的框架包括五个步骤,即,单个树分割,不规则三角网(TIN)生成,TIN匹配,粗校订和精校订。 TIN匹配是从多平台LiDAR数据中找到相应树对的必要步骤,它使用基于由单个树位置组成的三角形类似度的投票策略。经过融合背包和无人机LiDAR数据以及融合针叶林中的多扫描陆地LiDAR数据来验证所提出的框架。结果代表,两种配准实验都可以达到使人满意的数据配准精度。此外,当单个树的分割精度高于80%时,提出的框架对单个树的分割错误不敏感。咱们认为,提出的框架有可能提升在森林环境中准确注册多平台LiDAR数据的效率。索引-森林,多平台光检测和测距(LiDAR),校订,树木位置。植物所郭庆华老师团队的成果,关于新的多平台LiDAR数据融合校订。LiDAR数据将在将来发挥更多做用。

3.Spatial association between outdoor air pollution and lung cancer incidence in China/中国室外空气污染与肺癌发病率的空间联系

背景:肺癌是中国最多见的癌症。先前的研究代表,肺癌的发病率表现出显着的空间异质性,而且肺癌与室外空气污染有关。然而,中国室外空气污染与肺癌发病率之间的非线性空间联系仍不清楚。方法:本研究分析了2013年中国207个县市男性和女性肺癌发病率与每一年PM2.5,PM10,SO2,NO2,CO和O3浓度之间的关系。 GeoDetector q统计量用于检查室外空气污染与肺癌发生率之间的非线性空间关联。结果:在室外空气污染与肺癌发病率之间的空间关联中发现了明显的空间和人口性别异质性。在六种选定的污染物中,二氧化硫对华北地区的肺癌影响最大(女性为q = 0.154)。在南部,每种污染物对男性或女性的影响均显着,南部的平均q值为0.181,大于北部的平均q值(q = 0.154)。此外,污染物对肺癌有明显的非线性相互做用。在华北地区,SO2和PM2.5之间的相互做用是主要的相互做用,男性的q值为0.207,女性的q值为0.334。在南部,主要的交互做用因子在男性的SO2和O3之间以及在女性的SO2和CO之间,q值分别为0.4五、0.232。在华南或华北地区,吸烟是致使男性肺癌的重要因素,其q值分别为0.143和0.129,吸烟与空气污染物之间的相互做用增长了这种风险。结论:这项研究代表,在中国北方应该关注SO2和PM2.5对肺癌的影响,而在南方,应该更加关注O3和CO的影响以及它们与SO2的相互做用。在华北和华南地区,吸烟(尤为是男性)仍然是肺癌的重要危险因素。地理所王劲峰老师团队的成果,分析了空气污染与肺癌发病率的研究。交互因子以及性别对于肺癌的影响有明显的异质性。

4.The lag effect of water pollution on the mortality rate for esophageal cancer in a rapidly industrialized region in China/水污染对中国快速工业化地区食管癌死亡率的滞后效应

淮河流域(位于中国东部)拥有1.8亿人口,是中国食道癌(EC)死亡的最高风险。一些研究发现,饮用水中的污染物是消化系统癌症的主要危险因素。可是,历史时期的水污染对当前欧共体死亡率的影响尚不清楚。收集了2004年淮河流域11个县的EC死亡率数据,并使用了1987年至2004年该地区的地表水质量数据。分别从线性和非线性角度,采用Pearson相关性和GeoDetector q统计量来探讨不一样滞后时段水污染与EC死亡率之间的关系。该研究代表该地区EC死亡率的空间异质性。下游的EC死亡率显着高于其余地区。在中游,主流以北地区的平均死亡率低于该地区以南地区。在上游,主流以北地区的死亡率高于南部地区。历史格局是在水污染的影响下造成的。 1996年,1997年和1998年对EC死亡率具备最强的线性或非线性影响,其中Pearson相关系数和q统计量最高,分别为0.79和0.89。在过去的20年中,快速的工业化已经引发了环境问题,并带来了相关的健康风险。研究代表,目前的EC死亡率主要是由前8年的水污染引发的。这些发现提供了关于污染对EC死亡率形成影响的滞后时间的知识,而且能够有助于控制和预防食道癌。地理所王劲峰老师团队的成果,分析了污染对健康和死亡率的滞后效应,是一个很是有意思的研究。

5.Spatial Lifecourse Epidemiology Reporting Standards (ISLE-ReSt) statement/空间生命过程流行病学报告标准(ISLE-ReSt)声明

空间生命过程流行病学是一个跨学科领域,它利用先进的空间,基于位置的人工智能技术来研究环境,行为,社会心理和生物学因素对健康相关状态和事件及其潜在机制的长期影响。随着愈来愈多的研究报告来自该领域的研究结果,以及迫切须要基于最强科学的公共卫生和政策决策,在空间生命周期流行病学研究报告中的透明度和清晰度相当重要。由国际空间生命历程流行病学倡议(ISLE)支持的工做队肯定了在这一领域的指导需求,并制定了《空间生命历程流行病学报告标准》(ISLE-ReSt)声明。目的是提供一份建议清单,以改善和更一致地报告空间生命历程流行病学研究。增强针对队列研究的流行病学观察研究报告(STROBE)声明被肯定为提供考虑归入的初始项目的适当起点。而后整合了空间数据和方法的报告标准,以造成报告建议的单个综合清单。咱们的方法的优点在于,咱们的国际和跨学科团队由内容专家和贡献者组成,他们表明各类相关的科学惯例,而且咱们遵照制定报告准则的国际准则。随着在空间生命过程流行病学中使用的基于空间,基于位置的人工智能技术的迅速发展,从发布之日起至少每隔2至3年就要从新审视和适应ISLE-ReSt。团队的成果,关于ISLE的标准声明。

6.Global urban expansion offsets climate-driven increases in terrestrial net primary productivity/全球城市扩张抵消了气候驱动的陆地净初级生产力的增加

全球城市化速度正在加快; 然而,数据限制远远不能对全球城市扩张或其对地面净初级生产力(NPP)的影响作出可靠的估计。 在此,咱们使用高分辨率的全球土地利用/覆盖数据集(GlobeLand30),显示了2000年至2010年期间,全球城市区域平均每一年以5694 km2的速度增加。过去十年中,城市的快速扩张反过来又减小了全球 陆地NPP,每一年净损失22.4 Tg碳(Tg C year-1)。 尽管与全球陆地NPP和化石燃料碳的总排放量相比很小,但城市化致使的NPP减小抵消了同期气候驱动的增长(73.6 Tg C year-1)的30%。 咱们的发现突出代表,迫切须要制定全球战略来应对城市扩张,增长天然碳汇和提升农业生产率。中山大学刘小平教授团队成果,分析了城市化对于NPP影响的分析,这一块也是全球变化生态学的重点研究对象。发表在NC上的牛文。后期有机会将详细介绍。

7.Introduction to the Water‐Soil‐Air‐Plant‐Human Nexus: Modeling and Observing Complex Land Surface Systems at River Basin Scale/水,土壤,空气,植物,人的联系简介:流域尺度上复杂的地表系统的建模和观测

复杂的人类-天然系统的双向耦合能够称为水-土壤-空气-植物-人类的联系,而且这种联系的综合研究已经在世界许多流域中进行。 本期专刊报道了在流域尺度上对水,土壤,空气,植物,人的关系的建模,观察和理解的贡献,特别是来自“黑河流域生态水文过程综合研究”计划的贡献。 本文重点介绍了主要结果,做为对本期特刊的介绍。西北院、青藏所李新老师团队的成果,分析多要素耦合的流域尺度地表系统建模分析。是一个很不错的样例研究。

8.Combining Measurements of Built-up Area, Nighttime Light, and Travel Time Distance for Detecting Changes in Urban Boundaries: Introducing the BUNTUS Algorithm/结合建筑面积,夜间光和出行时间距离的测量值,以检测城市边界的变化:BUNTUS算法的引入

本文介绍了一种新的算法(BUNTUS-累积,夜间照明和城市规模出行时间),该算法使用遥感技术来划定城市边界。该论文是对城市化在改变化石燃料排放中的做用的更大研究的一部分。该方法结合了土地覆盖,夜间照明和行进时间的估计,以对连续的城市区域进行分类。该方法是自动的,全局的,并使用具备足够持续时间的数据集来创建趋势。使用来自Landsat-8 OLI图像的地面真实场进行的验证显示,整体准确度为60%至95%。所以,这种方法可以描述空间分布并给出城市范围的详细信息。咱们以澳大利亚布里斯班,澳大利亚墨尔本和中国北京为例演示了该方法。新方法符合研究城市排放整体趋势的标准。ASU的Gurney团队的研究,利用工农多源遥感数据来进行城市分类,以支撑后续的碳排放研究。

9.The Vulcan Version 3.0 High-Resolution Fossil Fuel CO2Emissions for the United States/美国的Vulcan版本3.0高分辨率化石燃料CO2排放

在考虑到减小温室气体排放的机会时,除了向决策者提供相关信息外,在精细的空间和时间尺度上量化的温室气体排放估算已经成为新的多约束通量信息系统的重要组成部分。 Vulcan项目致力于估算整个美国景观在空间和时间尺度上自下而上的化石燃料排放量和水泥生产中的CO2排放量(FFCO2)同时知足科学和政策需求。在这里,咱们报告了Vulcan排放的3.0版,该版本量化了美国在FFCO2的排放量,其空间分辨率为1 km×1 km,每小时的时间分辨率为2010-2015年。咱们提供了更新方法,数据源,结果以及与全局网格化FFCO2数据产品的比较的完整描述。咱们估计2011年的FFCO2排放为1589.3 TgC,95%的置信区间为1299/1917 TgC(+18.3%/ − 20.6%),这意味着~~ 10的单西格玛不肯定性%。咱们发现,在以电力生产和工业为主的州,人均FFCO2排放较大,而在以道路和住宅/商业建筑为主的州,人均FFCO2排放较小。美国FFCO2排放的质心(CoM)位于密苏里州,其平均季节性沿NE / SW近椭圆路径移动。与ODIAC相比,全球有网格的FFCO2排放量估算值显示出总排放量(2011年为100.1 TgC)和空间格局都有很大差别。两个数据乘积之间的空间相关性为0.38,单个网格单元规模的平均绝对差为80.04%。 Vulcan v3.0 FFCO2排放数据产品可当即对美国每一个城市的排放进行高分辨率估算,为计划开发自我报告的城市节省了大量时间和精力城市清单。能够从Oak Ridge国家实验室的数据存储库下载Vulcan v3.0年度网格化排放数据产品(https://doi.org/10.3334/ORNLDAAC/1741,Gurney等,2019)。ASU的Gurney团队的研究,知名碳排放产品Vulcan的3.0版本,并进行了大量分析。数据是开放的,同时这套数据质量很是高,之后有机会来介绍。

10.Construction of the Scale-Specific Resilience Index to Facilitate Multiscale Decision Making in Disaster Management: A Case Study of the 2015 Nepal Earthquake/特定尺度恢复力指数的构建,以促进灾害管理中的多尺度决策:以2015年尼泊尔地震为例

许多学者主张使用经验证据来评估跨尺度和随时间变化的恢复力。所以,咱们使用2015年尼泊尔地震发生后不久从2015年8月至2015年12月每个月收集的有关我的对救灾观念的调查数据进行案例研究。咱们基于一组变量构建了特定尺度的恢复力指数(SSRI),这些变量在不一样的空间规模上以及随时间推移针对调查数据进行了单独验证。回归结果代表,与家庭结构,产业多样性,社区资本,可及性和紧急服务相关的变量均已经过地区和街道两级的调查数据,与种族多样性和应急能力相关的变量进行了验证。营地仅在地区级别获得验证,地震经历变量仅在分区级别获得验证。所以,为了得到最佳模型,咱们使用六个通过验证的变量在地区一级构建SSRI,并使用七个变量(包括与家庭财产的脆弱性和平均海拔高度相关的变量)在分区一级构建SSRI。经过2015年尼泊尔地震后调查的救济分数,经过多级回归模型验证了SSRI分数。结果代表,基于已验证变量的SSRI得分与地区和分区级别的调查数据具备良好的相关性和预期关系,而且赛过综合应变能力指数,后者考虑了全部变量,不管其单独的验证结果如何。用于构造SSRI的方法有助于在实际案例中识别跨空间尺度和随时间变化的多维弹性指标的贡献,还提供易于理解并适用于多尺度决策过程的特定尺度的弹性的指标得分。恢复力是近些年来生态学和灾害学方面一个重要的理念,能够理解为从受破坏状态恢复到常规状态所须要的时间或者相关指标。这是一个典型的案例研究,对这个恢复力的测算,有相关的研究能够进行参考。

11.Towards feasibility of photovoltaic road for urban traffic-solar energy estimation using street view image/利用街景图像估算光伏道路在城市交通太阳能中的可行性

一个可持续发展的城市依赖可再生能源,从而促进了电动汽车的发展。为了支持电动车辆,提出了在行驶时对车辆充电的概念。在这种状况下,在城市道路上建造太阳能电池板是一项具备巨大益处的创新选择,而准确计算道路光伏发电量是前提。在本文中,咱们提出了一种新颖的框架,用于预测和计算可从道路收集的太阳辐射和电能。收集Google街景图像以测量道路的天空障碍,并将其与太阳辐射模型集成在一块儿以估计辐射接收能力。除天空障碍外,咱们在计算中还考虑了交通情况和天气状况的影响。根据咱们的工做,能够得出一年中不一样时间的辐射图,以分析道路的光伏分布。为了测试咱们框架的可行性,咱们以波士顿为例。结果代表,波士顿的道路能够为城市中全部将来的电动汽车产生大量的电力。并且,穿过波士顿的主要道路具备更好的发电潜力,而且交通情况的影响是有限的。咱们的计算框架证明,将太阳能电池板用做路面是城市电力的巨大补充,并具备为行驶中的汽车充电的独特功能。街景图像分析的一个应用,估算光伏道路的可行性。很是有意思的研究。

相关文章
相关标签/搜索