作数据分析必须了解的获取数据与清洗数据技巧

​参与文末话题讨论,每日赠送异步图书数据库

——异步小编异步

每一个数据科学家都须要处理存储在磁盘中的数据,这些数据涉及的格式有ASCII文本、PDF、XML、JSON等。此外,数据还能够存储在数据库表格中。在对数据进行分析以前,数据科学家首先要作的是从这些数据源获取各类格式的数据,并对这些数据进行清洗,去除其中的噪声。今天推荐的图书是《Java数据科学指南》一书,并从中节选第一章内容,从本文中咱们将学习这些内容,即了解如何从不一样数据源获取各类格式的数据。​工具

​在这一过程当中,咱们将用到外部Java库(Java归档文件,简称JAR文件),这些库的使用不只限于本文,还贯穿于《Java数据科学指南》一书。这些库由不一样开发者或组织开发,方便了你们的使用。编写代码时,咱们会用到Eclipse IDE工具,它是Windows平台下最好的集成开发环境,全书都会使用它。接下来,咱们将讲解如何导入任意一个外部JAR文件,如下各个部分将指导你把外部JAR文件导入到项目中,跟随步骤动手去作便可。学习

对于一个Eclipse项目,你能够采用以下方法添加JAR文件:首先依次单击“Project|Build Path|Configure Build Path”,在Libraries选项卡中,单击“Add External JARs”,选择你想添加到项目的外部JAR文件,如图1-1所示。ui

1.2 使用Java从分层目录中提取全部文件名 

这部份内容(以及后面各部份内容)是为那些想从复杂目录结构中提取文件路径与名称的数据科学家准备的,以方便进一步进行后续分析。这里的复杂目录结构是指在一个根目录下包含大量目录与文件。spa

相关文章
相关标签/搜索