成为数据科学家的入门项目

做者:chen_h
微信号 & QQ:862251340
微信公众号:coderpai
简书地址:https://www.jianshu.com/p/56c...php


数据科学家是目前最有吸引力的职业之一,可是如何进入这个领域倒是一个不容易的事。由于你须要经验才能获得这份工做,可是你须要这份工做才能得到经验。是否是感受这是一个恶性循环?html

Statsbot 的数据科学家 Denis Semenenko 写了这篇文章,用来帮助你们作出第一个简单可是具备必定说明性的科学数据项目,这个项目须要的时间可能不到一周。python

这意味着你须要定制一个问题,设计解决方案,查找数据,掌握一些分析技术,而后构建一些机器学习模型,最后评估模型质量,并将其包装成简单的UI。这比 Kaggle 比赛或者 Coursera 课程更加的多样化。ios

若是你对这种项目感兴趣,那么你能够继续阅读。git

分类垃圾邮件

垃圾邮件在咱们生活的各个信息角落都存在。其中之一的经典数据项目就是垃圾邮件分类。你能够训练一个模型来检测一个邮件是不是垃圾邮件,以便来减小垃圾信息对用户的骚扰。github

一个简单的机器学习模型基于在邮件中看到 “sale” 或者 “buy” 这样的,来定义一个邮件是否是垃圾邮件。所以,你能够在一个星期内作出一个垃圾邮件的原型。算法

问题定义: 文本分类
算法: 朴素贝叶斯,线性分类器,树分类等等分类器
技术工具: sklearnnltkscrapy
数据集: sms spam datasete-mail spam dataset , youtube comments spam dataset
展现方式: 网页页面
参考指南:AdBlockAdguard
阅读指南: How To Build a Simple Spam-Detecting Machine Learning ClassifierGetting Started: Building a Chrome Extensionchrome

Not Hotdog

Not Hotdog 是一个来自硅谷系列的应用程序,能够识别照片中的热狗和非热狗。微信

你能够经过使用社交网络或者谷歌图像来收集数据集,以此来做为你的模型的训练集。网络

从头开始训练一个模型须要大量的训练样本和训练时间,所以最好咱们使用一个通过预训练的网络模型,这样能够缩短训练时间。

问题定义: 图像分类image classificationtransfer learning
算法: 卷积神经网络
技术工具: keraslasagneInstagram API(or external libraries e.g.Instabot)
数据集: 使用 Instagram API 来收集数据
展现方式: APP
参考指南: Not hotdog
阅读指南: Transfer learning using KerasBuilding powerful image classification models using very little data

Netflix 电影推荐系统

推荐系统对于像 Google 或者 Facebook 这样的大型公司是必须的,由于从收入和用户点击率来看,推荐系统都是很是有价值的。

若是咱们在这个子领域可以获得实践,那么对于之后的数据分析发展是很是有利的。

问题定义: 推荐系统
算法: 下降维度,协同过滤,分类算法
技术工具: sklearnvowpal wabbit
数据集: Netflix prize datasetMovieLens dataset
展现方式: 网页展现
参考指南: JinniMovieLens
阅读指南: Quick Guide to Build a Recommendation Engine in Python

Snapchat 镜头

若是你比较喜欢处理图像,那么你能够尝试建立本身自定义的 Snapchat 镜头。任何社交网络都喜欢这样的东西,包括 Instagram,Facebook 和 Snapchat。

镜头检测面部的关键点,用来显示嘴唇,眼睛,鼻子和脸部的边界。而后你可使用一些框架来从新构建面部。

问题定义: 图像识别面部检测
算法: 卷积神经网络,面部关键点检测
技术工具: dlibopenfacekerasopenCV
数据集: Facial keypoints detection dataset
展示方式: APP
参考指南: SnapchatInstagram
阅读指南: Facial landmarks with dlib, OpenCV, and PythonBuild a Simple Camera App

Twitter 数据

不少公司都会在互联网上面监控客户的行为数据,以此来对消极的客户作出相应的调整。例如,T-Mobile 和 Verizon 须要对消极的推文进行快速响应,并找出问题而且解决。

每一个人均可以使用 Twitter API 和情绪分类算法来进行这个项目。

问题定义 情感分析
算法: 情感分析
数据集: Twitter API
技术工具: nltkspaCy
展示方式: APP
参考指南: TwilertTweetreach
阅读指南: Twitter sentiment analysis using Python and NLTK

网球预测

专业的投注者老是在寻找有利可图的赌注。基于大量的数据统计,网球是一种很好的预测类体育项目。数据科学家根据历史数据和玩家信息来构建预测模型,并将结果与博彩公司的评估进行比较。

目标是找出机器学习模型与博彩公司评估之间的差距,从而有机会获胜。这是一个很好的实际数据科学项目。

问题定义: 分类
算法: 分类算法
数据集:atpworldtour.com
技术工具: sklearnscrapy
展示方式: APP
参考指南:olbg.com, verifiedbets.com
阅读指南: Machine Learning for the Prediction of Professional Tennis Matches

股票预测

机器学习模型还善于处理的一个领域是时间序列预测。一个数据处理引擎能够预测汇率和股票的波动,因此交易员或者程序能够根据这些数据进行交易。

若是你选择这个项目,你会很容易获得数据和实践。这个领域是从计量经济学和经典机器学习中得出来的,因此你应该准备好探索统计学方法。

问题定义: 时间序列预测
算法: ARIMA, regression
数据集: Quandl
技术工具: sklearnprophetscrapy
展现方式: APP
参考指南: financeboards.com
阅读指南: An Introduction to Stock Market Data Analysis with Python

我但愿你能从这些简单数据项目中得到一些启发,开启你的数据分析之路。


做者:chen_h
微信号 & QQ:862251340
简书地址:https://www.jianshu.com/p/56c...

CoderPai 是一个专一于算法实战的平台,从基础的算法到人工智能算法都有设计。若是你对算法实战感兴趣,请快快关注咱们吧。加入AI实战微信群,AI实战QQ群,ACM算法微信群,ACM算法QQ群。长按或者扫描以下二维码,关注 “CoderPai” 微信号(coderpai)。

图片描述

图片描述