SAS,R和Python应对数据管理和分析挑战

原文连接:http://tecdat.cn/?p=7886

去年,我与一家公司进行了短暂的咨询工做,该公司正在构建一个主要由基于Web的数据存储库驱动的分析应用程序。数据存储为SAS数据集的集合,“客户”能够经过上载SAS数据步骤和proc SQL脚原本将其做为子集。生成的数据随后可供下载。个人职责是指导团队使用SAS应对数据管理和分析挑战。程序员

 在安装和配置WPS以后,个人任务是开发解决方案,以解决咱们早期面临的性能挑战。 函数

 针对此挑战的替代设计涉及WPS的proc R,其中能够利用将SAS数据集导出/导入到R数据帧以及从SAS / WPS脚本执行R代码的功能。进入R世界以后,识别稀疏列并建立一个删除这些列的新数据框的任务很简单。 性能

 首先包含/运行SAS autoexec文件。测试

接下来定义一个简单的SAS宏“函数”,该函数将数据集名称做为参数并打印行和列的#。在测试SAS数据集上调用它。spa

将测试SAS数据集导出到R数据帧,肯定哪些列为60%或更高notnull,将这些列组装到新数据帧中,而后将该数据帧导入SAS。注意注释的语句除了空值外还标识空白。264列中只有33列达到60%阈值。该单元的执行很是迅速。开放源代码

接下来,将SAS数据集导出到Python pandas,而后部署Python函数以肯定每列中的%notnull并建立一个新的pandas数据框,其中只有%notnull超过.6的列。通过Python处理后,将pandas数据框导入SAS。与R同样 。这个单元比上一个单元耗费了一个数量级的时间。设计

尽管SAS仍然是一个主要的分析平台,而且不会很快消失,但它已为R和Python的分析工做所取代。对于SAS / WPS程序员而言,Python和R proc是Base SAS的很是有用的附件。确实,商业和开放源代码的竞争数据科学生态系统之间的互操做性将继续提升-这对数据科学世界来讲无非是一件好事。目前,WPS的proc R比proc Python快不少,所以是协做SAS工做的选择。但愿proc Python将很快成为高性能,使SAS数据程序员可以平等地访问前两个DS平台。3d

相关文章
相关标签/搜索