做者:Rashi Desai翻译:疯狂的技术宅python
若是你对对数据分析、数据科学或是与数据相关的东西感兴趣,能够经过下面的清单来学习。github
预计到 2022 年,拥有信用卡的人数将会接近 12 亿。为了确保信用卡交易的安全性,必须对其活动进行有效的监视。信用卡公司应该可以识别出欺诈性的信用卡交易,从而不会向客户收取未购买商品的费用。算法
信用卡数据集中包含欺诈和非欺诈交易的组合,目标是预测给定的测试交易是否存在欺诈。安全
要使用的算法:网络
因为目标变量是分类变量,因此可使用如下一系列机器学习算法来解决该问题:并发
客户细分是把客户分红多个群体的过程,这些群体在产品的销售或营销的方式上具备类似性,例如性别、年龄、兴趣、人口统计资料、经济情况、地理位置、行为方式、消费习惯以及其余更多维度。app
客户细分是“无监督学习”的最重要应用之一。经过聚类技术,公司能够肯定客户的细分市场,从而使他们能够定位潜在的用户群。机器学习
公司经过聚类过程来预见或映射具备相似行为的客户群,用来识别和定位潜在的用户群。ide
要使用的算法:
K-均值聚类,分层聚类是最主要的聚类方法。还有一些其余的聚类算法:
另一旦收集了数据,公司就可以更深刻地了解客户的喜爱,并发现有价值的细分市场的需求,从而使他们得到最大的利润。这使他们可以更有效地制定营销策略,并最大程度地下降投资风险。
情感被定义为对某一状况或事件的见解或态度;意见是数据科学领域中相当重要的话题。因为它在当今的社交媒体时代具备很大的关联性,而且能够解决许多商业问题,因此成为该领域最热门的话题之一。
借助情感分析,你能够发现文档、网站、社交媒体的时间线中所反映的观点的性质。人们应该具备快乐、悲伤、愤怒、积极或消极、沮丧、仇恨、爱等各类情感。
在当今时代,任何数据驱动型的组织都必须重视情感分析模型的结果,借此肯定其客户的态度,并针对产其品或服务定位目标客户。
一些情报机构会对 Twitter 进行情绪分析以获取情报。
要使用的算法:
在人类的活动中,言语、场景、产品或体验所附带的情感决定着不少事情。
SER(语音情感识别 Speech Emotion Recognition)能够说是今年夏天一项引人注目的数据科学项目。它试图从语音(语音样本)中感知人类的情感。另外为了感知到人的情感,还将不一样的声音文件用做数据集。 SER 本质上是从录音中提取情感,并专一于特征提取。
在用 Python 处理项目时,你还能够经过用于分析音乐和音频的 Librosa 包积累知识。
Vox 名人数据集能够成为执行语音情感识别的良好起点。
用到的算法:
预测分析的目的是对将来的事件进行预测。
它涵盖了预测模型、机器学习和数据挖掘等各类统计技术,能够经过分析当前和历史数据来识别风险和机会。
例子:
时间序列是按时间顺序进行索引,把一系列数据点列出或绘制在图形中。
时间序列是数据科学中最经常使用的技术之一,有着普遍的应用范围,包括天气预报、预测销售、分析年趋势、预测吸引力、网站访问量、比赛排名等。
商业机构一次又一次地用 kon 时间序列数据来分析将来的数字。
经过时间序列分析,咱们能够获得每小时观看的广告、天天在游戏中的花销、产品趋势的变化等。
回归分析的目的是根据历史数据预测结果。
回归分析是一种强大的统计检验,能够检查两个或多个目标变量之间的关系。尽管回归分析的类型有不少,但它们的核心都是检查一个或多个自变量对目标(因变量)的影响。
例子:
用到的算法:
这取决于目标变量的性质:是数字仍是分类
推荐系统是一个使用过滤过程,并根据用户的偏好和喜爱提供各类内容的平台。
推荐系统把相关用户的信息做为输入,并使用机器学习模型从参数评估中返回建议。从 Amazon 到 Zappos,推荐系统无处不在。这是一种数据科学家须要了解的典型的机器学习算法。
例如,Netflix 可以为你推荐和浏览历史记录类似的电影或节目,或是与你爱好类似的其余用户过去看过的电影或节目。
推荐系统有两种类型-
探索性数据分析(EDA)其实是数据分析过程当中的第一步。经过它你能够充分利用所拥有的数据,弄清楚你想问什么问题,如何构架,最好地操纵它来获取所须要的答案。
EDA 用视觉和定量方法在现有数据中展现普遍的模式、趋势、离群值、意外结果等。探索性数据分析能够完成不少项目。在此我列出一些参考,或许能成为你的一个良好起点。