总结数据科学家经常使用的Python库

时间 2019-11-11

标签总结数据科学家经常使用 python 栏目 Python 繁體版

原文原文链接

概述

这篇文章中，咱们挑选了24个用于数据科学的Python库。css
这些库有着不一样的数据科学功能，例如数据收集，数据清理，数据探索，建模等，接下来咱们会分类介绍。html
您以为咱们还应该包含哪些Python库？让咱们知道！前端

介绍

我是Python语言的忠实粉丝，它是我在数据科学方面学到的第一门编程语言。Python有三个特色：python

它的易用性和灵活性git
全行业的接受度：它是业内最流行的数据科学语言github
用于数据科学的庞大数量的Python库web

事实上，有如此多的Python库，要跟上它们的发展速度可能会变得很是困难。这就是为何我决定消除这种痛苦，并编辑这24个Python库。换句话说，在数据科学领域，你掌握这个24个python库就够了！算法

那是对的 - 我根据各自在数据科学中的角色对这些库进行了分类。因此我提到了用于数据清理，数据操做，可视化，构建模型甚至模型部署（以及其余）的库。这是一个很是全面的列表，可帮助您开始使用Python进行数据科学之旅。sql

用于不一样数据科学任务的Python库：

用于数据收集的Python库：数据库

Beautiful Soup
Scrapy
Selenium

用于数据清理和操做的Python库：

Pandas
PyOD
NumPy
Spacy

用于数据可视化的Python库：

Matplotlib
Seaborn
Bokeh

用于建模的Python库：

Scikit-learn
TensorFlow
PyTorch

用于模型可解释性的Python库：

Lime
H2O

用于音频处理的Python库：

Librosa
Madmom
pyAudioAnalysis

用于图像处理的Python库：

OpenCV-Python
Scikit-image
Pillow

用于数据库的Python库：

Psycopg
SQLAlchemy

用于部署的Python库：

Flask

用于数据收集的Python库

您是否遇到过一种状况，即您没有足够的数据来解决您想要解决的问题？这是数据科学中一个永恒的问题。这就是为何学习如何提取和收集数据对数据科学家来讲是一项很是关键的技能。它开辟了之前没法实现的途径。

因此这里有三个有用的Python库，用于提取和收集数据。

/* Beautiful Soup */收集数据的最佳方法之一是抓取网站（固然是道德和合法的！）。手动完成须要花费太多的手动工做和时间。美丽的汤是你的救星。

Beautiful Soup是一个HTML和XML解析器，它为解析的页面建立解析树，用于从网页中提取数据。从网页中提取数据的过程称为网络抓取。

使用如下代码安装BeautifulSoup：

pip install beautifulsoup4

这是一个实现Beautiful Soup的简单代码，用于从HTML中提取全部anchor标记：

#!/usr/bin/python3
# Anchor extraction from html document
from bs4 import BeautifulSoup
from urllib.request import urlopen
with urlopen('LINK') as response:
soup = BeautifulSoup(response, 'html.parser')
for anchor in soup.find_all('a'):
print(anchor.get( 'href', '/'))

我建议经过如下文章来学习如何在Python中使用BeautifulSoup：

使用BeautifulSoup在Python中进行Web Scraping的初学者指南

(https://www.analyticsvidhya.com/blog/2015/10/beginner-guide-web-scraping-beautiful-soup-python/)

/* Scrapy */

这是安装Scrapy的代码：

pip install scrapy

它是大规模网络抓取的框架。它为您提供了有效提取网站数据，根据须要处理数据并将其存储在首选结构和格式中所需的全部工具。

这是一个实现Scrapy的简单代码：

import scrapy
class Spider(scrapy.Spider):
name = 'NAME'
start_urls = [ 'LINK']
def parse(self, response):
for title in response.css('.post-header>h2'):
yield {'title': title.css('a ::text').get()}
for next_page in response.css('a.next-posts-link'):
yield response.follow(next_page, self.parse)

这是学习Scrapy并在Python中实现它的完美教程：

使用Scrapy在Python中进行Web Scraping（有多个示例）

(https://www.analyticsvidhya.com/blog/2017/07/web-scraping-in-python-using-scrapy/)

/* Selenium */

咱们能够轻松地编写Python脚本以使用Selenium自动化Web浏览器。它为咱们有效地提取数据并以咱们喜欢的格式存储数据，以供未来使用。

我最近写了一篇关于使用Python和Selenium抓取YouTube视频数据的文章：

数据科学项目：使用Python和Selenium对YouTube数据进行刮擦以对视频进行分类

(https://www.analyticsvidhya.com/blog/2019/05/scraping-classifying-youtube-video-data-python-selenium/)

用于数据清理和操做的Python库

好吧 - 因此你已经收集了你的数据并准备好潜入。如今是时候清理咱们可能面临的任何混乱数据并学习如何操做它，以便咱们的数据能够用于建模。

这里有四个Python库能够帮助您实现这一目标。请记住，咱们将处理现实世界中的结构化（数字）和文本数据（非结构化） - 这个库列表涵盖了全部这些。

/* Pandas */在数据处理和分析方面，没有什么能比pandas更胜一筹。它是现阶段最流行的Python库。Pandas是用Python语言编写的，特别适用于操做和分析任务。

Pandas须要预先安装Python或Anaconda，这里是须要的代码：

pip install pandas

Pandas提供的功能以下：

数据集加入和合并
数据结构列删除和插入
数据过滤
重塑数据集
DataFrame对象操纵数据等等！

这是一篇文章和一个很棒的备忘单，让你的pandas技能达到最佳状态：

12用于数据操做的Python中有用的熊猫技术

(https://www.analyticsvidhya.com/blog/2016/01/12-pandas-techniques-python-data-manipulation/)
CheatSheet：使用Python中的Pandas进行数据探索

(https://www.analyticsvidhya.com/blog/2015/07/11-steps-perform-data-analysis-pandas-python/)

/* PyOD */

别担忧，PyOD库能够帮到您。

PyOD是一个全面且可扩展的Python工具包，用于检测外围对象。异常检测基本上是识别与大多数数据显着不一样的稀有项目或观察。

您可使用如下代码下载pyOD：

pip install pyod

使用PyOD库在Python中学习异常检测的一个很棒的教程

(https://www.analyticsvidhya.com/blog/2019/02/outlier-detection-python-pyod/)

/* NumPy */

NumPy是一个开源库，有多个贡献者。它预先安装了Anaconda和Python，这里是安装它的代码：

pip install numpy

# 建立数组
import numpy as np
x = np. array([1, 2, 3])
print(x)
y = np.arange( 10)
print(y)
# output - [1 2 3]
# [0 1 2 3 4 5 6 7 8 9]
# 基本操做
a = np. array([1, 2, 3, 6])
b = np.linspace( 0, 2, 4)
c = a - b
print(c)
print(a**2)
#output - [1. 1.33333333 1.66666667 4. ]
# [ 1 4 9 36]

还有更多！

/* SpaCy */到目前为止，咱们已经讨论了如何清理和操做数值数据。可是，若是你正在处理文本数据呢？

spaCy是一个超级有用且灵活的天然语言处理（NLP）库和框架，用于清理文本文档以进行模型建立。与用于相似任务的其余库相比，SpaCy更快。

在Linux中安装Spacy的代码：

pip install -U spacy
python -m spacy download en

要在其余操做系统上安装它，请参考此连接(https://spacy.io/usage/)。

天然语言处理变得轻松 - 使用SpaCy（在Python中）

用于数据可视化的Python库

下一个是什么？我在整个数据科学最喜欢的方面 - 数据可视化！数据可视化后，咱们的假设将获得直观的验证！

这里有三个用于数据可视化的很棒的Python库。

/* Matplotlib */Matplotlib是Python中最流行的数据可视化库。它容许咱们生成和构建各类图表。它能够与Seaborn一块儿使用。

您能够经过如下代码安装matplotlib：

pip install matplotlib

如下是咱们可使用matplotlib构建的不一样类型的图表的几个示例：

# 直方图
%matplotlib inline
import matplotlib.pyplot as plt
from numpy.random import normal
x = normal(size= 100)
plt.hist(x, bins= 20)
plt.show()

# 3D图
from matplotlib import cm
from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt
import numpy as np
fig = plt.figure()
ax = fig.gca(projection= '3d')
X = np.arange( -10, 10, 0.1)
Y = np.arange( -10, 10, 0.1)
X, Y = np.meshgrid(X, Y)
R = np.sqrt(X** 2 + Y**2)
Z = np.sin(R)
surf = ax.plot_surface(X, Y, Z, rstride= 1, cstride=1, cmap=cm.coolwarm)
plt.show()

既然咱们已经介绍了Pandas，NumPy和如今的matplotlib，请查看下面的教程，将这三个Python库网格化：

使用NumPy，Matplotlib和Pandas在Python中进行数据探索的终极指南

/* Seaborn */Seaborn是另外一个基于matplotlib的绘图库。它是一个python库，提供高级界面来绘制有吸引力的图形。matplotlib能够作什么，Seaborn只是以更具视觉吸引力的方式作到这一点。

Seaborn的一些功能是：

面向数据集的API，用于检查多个变量之间的关系
方便地查看复杂数据集的总体结构
用于选择显示数据中图案的调色板的工具

您只需使用一行代码便可安装Seaborn：

pip install seaborn

让咱们经过一些很酷的图表来看看seaborn能作什么：

import seaborn as sns
sns. set()
tips = sns.load_dataset( "tips")
sns.relplot(x= "total_bill", y="tip", col="time",
hue= "smoker", , size="size",
data=tips);

这是另外一个例子：

import seaborn as sns
sns.catplot(x= "day", y="total_bill", hue="smoker",
kind= "violin", split=True, data=tips);

/* Bokeh */Bokeh是一个交互式可视化库，面向现代Web浏览器进行演示。它为大量数据集提供了多种图形的优雅构造。

Bokeh可用于建立交互式图表，仪表板和数据应用程序。安装代码：

pip install bokeh

使用Bokeh进行交互式数据可视化（在Python中）

用于建模的Python库

咱们已经到达了本文最受期待的部分 - 构建模型！这就是咱们大多数人首先进入数据科学领域的缘由，不是吗？

让咱们经过这三个Python库探索模型构建。

/* Scikit-learn */就像用于数据操做的Pandas和用于可视化的matplotlib同样，scikit-learn是构建模型的Python库领导者。没有什么比得上它了。

事实上，scikit-learn创建在NumPy，SciPy和matplotlib之上。它是开源的，每一个人均可以访问，而且能够在各类环境中重用。

如下是安装scikit-learn的代码：

pip install scikit-learn

Scikit-learn支持在机器学习中执行的不一样操做，如分类，回归，聚类，模型选择等。

我还建议您浏览如下连接以了解有关scikit-learn的更多信息：

Scikit-Python in Python - 我去年学到的最重要的机器学习工具！

/* TensorFlow */TensorFlow由Google开发，是一个流行的深度学习库，可帮助您构建和培训不一样的模型。它是一个开源的端到端平台。TensorFlow提供简单的模型构建，强大的机器学习生成，以及强大的实验工具和库。

TensorFlow提供多个抽象级别供您根据须要进行选择。它经过使用高级Keras API用于构建和训练模型，这使得TensorFlow入门和机器学习变得容易。

浏览此连接以查看安装过程：https://www.tensorflow.org/install。使用这些文章开始使用TensorFlow：

TensorFlow 101：了解张量和图形，让您开始深度学习

(https://www.analyticsvidhya.com/blog/2017/03/tensorflow-understanding-tensors-and-graphs/)
使用Keras和TensorFlow在R中开始深度学习(https://www.analyticsvidhya.com/blog/2017/06/getting-started-with-deep-learning-using-keras-in-r/）

/* PyTorch */

什么是PyTorch？嗯，这是一个基于Python的科学计算包，能够用做：

NumPy的替代品，可使用GPU的强大功能
深度学习研究平台，提供最大的灵活性和速度

转到此处(https://pytorch.org/get-started/locally/)查看不一样操做系统的安装过程。

PyTorch提供如下功能：

混合前端
工具和库：一个活跃的研究人员和开发人员社区创建了丰富的工具和库生态系统，用于扩展PyTorch并支持从计算机视觉到强化学习等领域的开发
云支持：PyTorch在主要云平台上获得很好的支持，经过预先构建的映像提供无摩擦的开发和轻松扩展，在GPU上进行大规模培训，在生产规模环境中运行模型的能力等等

如下是有关PyTorch的两篇很是详细且易于理解的文章：

PyTorch简介 - 一个简单而强大的深度学习库(https://www.analyticsvidhya.com/blog/2018/02/pytorch-tutorial/)
PyTorch入门 - 了解如何构建快速准确的神经网络（4个案例研究！）(https://www.analyticsvidhya.com/blog/2019/01/guide-pytorch-neural-networks-case-studies/)

用于数据可解释性的Python库

你真的了解你的模型是如何工做的吗？你能解释为何你的模型可以得出结果吗？这些是每一个数据科学家应该可以回答的问题。构建黑盒模型在业界是没有用的。

因此，我已经提到了两个Python库，能够帮助您解释模型的性能。

/* LIME */LIME是一种算法（和库），能够解释任何分类器或回归量的预测。LIME如何作到这一点？经过一个可解释的模型来近似它。灵感来自“为何我应该相信你？”：解释任何分类器的预测“，这个模型解释器可用于生成任何分类算法的解释器。

安装LIME很简单：

pip install lime

在机器学习模型中创建信任（在Python中使用LIME）(https://www.analyticsvidhya.com/blog/2017/06/building-trust-in-machine-learning-models/)

/* H2O */

H2O的无人驾驶AI提供简单的数据可视化技术，用于表示高度特征交互和非线性模型行为。它经过可视化提供机器学习可解释性（MLI），阐明建模结果和模型中特征的影响。

经过如下连接阅读有关H2O的无人驾驶AI执行MLI的更多信息。

机器学习可解释性

用于音频处理的Python库

音频处理或音频分析是指从音频信号中提取信息和含义以进行分析或分类或任何其余任务。它正在成为深度学习中的一种流行功能，因此要留意这一点。

/* LibROSA */

单击此连接(https://librosa.github.io/librosa/install.html)以查看安装详细信息。

这是一篇关于音频处理及其工做原理的深刻文章：

使用深度学习开始使用音频数据分析（带案例研究）(https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/)

/* Madmom */

您须要先安装如下库才能安装Madmom：

NumPy
SciPy
Cython
Mido

您须要如下软件包来测试安装是否成功：

PyTest
PyAudio
PyFftw

安装Madmom的代码：

pip install madmom

咱们甚至有一篇文章要了解Madmom如何用于音乐信息检索：

学习音乐信息检索的音频节拍跟踪（使用Python代码）(https://www.analyticsvidhya.com/blog/2018/02/audio-beat-tracking-for-music-information-retrieval/)

/* pyAudioAnalysis */

pyAudioAnalysis是一个用于音频特征提取，分类和分段的Python库。它涵盖了普遍的音频分析任务，例如：

对未知声音进行分类
检测音频事件并排除长时间录音中的静音时段
执行有监督和无监督的分割
提取音频缩略图等等

您可使用如下代码安装它：

pip install pyAudioAnalysis

用于图像处理的Python库

若是您正在寻找数据科学行业的角色，您必须学习如何使用图像数据。随着组织可以收集愈来愈多的数据（主要得益于计算资源的进步），图像处理正变得无处不在。

所以，请确保您对如下三个Python库中的至少一个感到满意。

/* OpenCV-Python */谈到图像处理，OpenCV是我想到的第一个名字。OpenCV-Python是用于图像处理的Python API，它结合了OpenCV C ++ API和Python语言的最佳特性。

它主要用于解决计算机视觉问题。

OpenCV-Python使用了咱们在上面看到的NumPy。全部OpenCV阵列结构都与NumPy数组进行转换。这也使得与使用NumPy的其余库（如SciPy和Matplotlib）集成更容易。

在您的系统中安装OpenCV-Python：

pip3 install opencv-python

如下是两个关于如何在Python中使用OpenCV的流行教程：

使用深度学习从视频构建人脸检测模型（Python实现）(https://www.analyticsvidhya.com/blog/2018/12/introduction-face-detection-video-deep-learning-python/)
16个OpenCV函数启动计算机视觉之旅（使用Python代码）(https://www.analyticsvidhya.com/blog/2019/03/opencv-functions-computer-vision-python/)

/* Scikit-image */

您可使用它来执行图像分割，几何变换，色彩空间操做，分析，过滤，形态学，特征检测等等。

咱们须要在安装scikit-image以前使用如下软件包：

Python（> = 3.5）
NumPy（> = 1.11.0）
SciPy（> = 0.17.0）
joblib（> = 0.11）

这就是你能够在你的机器上安装scikit-image的方法：

pip install -U scikit-learn

/* Pillow */

Pillow提供了几种执行图像处理的标准程序：

每像素操做
掩蔽和透明处理
图像过滤，例如模糊，轮廓，平滑或边缘查找
图像加强，例如锐化，调整亮度，对比度或颜色
向图像添加文字等等！

如何安装Pillow？这很简单：

pip install Pillow

查看如下AI漫画，了解Pillow在计算机视觉中的使用：

AI Comic：ZAIN - 问题＃2：使用计算机视觉进行面部识别

用于数据库的Python库

学习如何从数据库存储，访问和检索数据是任何数据科学家必备的技能。你根本没法摆脱角色的这个方面。构建模型很棒可是若是不首先检索数据，你会怎么作？

我选择了两个与SQL相关的Python库，你可能会发现它们颇有用。

/* psycopg */Psycopg是最受欢迎的PostgreSQL（一种用于Python编程语言的高级开源关系数据库）适配器。Psycopg的核心是彻底实现Python DB API 2.0规范。

目前的psycopg2实现支持：

Python版本2.7
Python 3版本从3.4到3.7
PostgreSQL服务器版本从7.4到11
9.1的PostgreSQL客户端库版本

如下是如何安装psycopg2的方法：

pip install psycopg2

/* SQLAlchemy */

它旨在实现高效，高性能的数据库访问。SQLAlchemy认为数据库是关系代数引擎，而不只仅是表的集合。

要安装SQLAlchemy，您可使用如下代码行：

pip install SQLAlchemy

用于部署的Python库

你知道什么型号的部署？若是没有，你应该尽快学习。部署模型意味着将最终模型放入最终应用程序（或技术上称为生产环境）。

/* Flask */Flask是一个用Python编写的Web框架，一般用于部署数据科学模型。Flask有两个组成部分：

Werkzeug：它是Python编程语言的实用程序库
Jinja：它是Python的模板引擎

查看下面的示例以打印“Hello world”：

from flask import Flask
app = Flask(__name__)
@app.route("/")
def hello():
return "Hello World!"
if __name__ == "__main__":
app.run()

如下文章是学习Flask的一个很好的起点：

在生产中将机器学习模型部署为API的教程（使用Flask）(https://www.analyticsvidhya.com/blog/2017/09/machine-learning-models-as-apis-using-flask/)

结束笔记

在本文中，咱们看到了一大堆python库，它们在进行数据科学项目时经常使用。那里有更多的库，但这些是每一个数据科学家应该知道的核心库。