对我而言,GitHub 和 Reddit 都提供了有趣的发现平台。在这两个平台中,我不只学习到了数据科学的一些最佳应用,并且还了解了它们是如何编写的,并但愿未来有朝一日能为这些开源库作出贡献。python
微软最近斥资数十亿美圆收购了 GitHub。一直以来,GitHub 是开发人员之间协做的终极平台,咱们看到,数据科学和机器学习的社区对 GitHub 也是青睐有加。咱们也但愿,这一情况,在微软收购 GitHub 以后还能持续下去。git
至于 Reddit,它依然是数据科学家们的一个极好的知识和观点的来源。人们在 Reddit 上分享他们的代码、其余人的代码、通常的数据科学新闻、寻求帮助和意见、发表研究论文等连接。这是一个真正强大的社区,为与其余数据科学爱好者互动提供了可靠的平台。github
今年 5 月,咱们在 Reddit 上看到了一些精彩的讨论,其中包括将来 3 年数据科学家的做用,以及一组有史以来最好的机器学习论文集。在 GitHub 社区中,Intel 开放了它的 NLP 架构库,微软发布了 ML.NET 来支持 Dot Net 开发者的机器学习等等。算法
让咱们深刻这个列表,看看 GitHub 上的最热门的库以及上个月发生在 Reddit 上有趣的讨论。编程
你能够查看如下过去四个月的 GitHub 最热门的库和 Reddit 上最热门的讨论(截止到四月):微信
一月:https://www.analyticsvidhya.com/blog/2018/02/top-5-github-repositories-january-2018/数据结构
二月:https://www.analyticsvidhya.com/blog/2018/03/top-5-github-repositories-february-2018架构
三月:https://www.analyticsvidhya.com/blog/2018/04/top-7-github-repositories-march-2018框架
四月:https://www.analyticsvidhya.com/blog/2018/05/top-5-github-reddit-data-science-machine-learning-april-2018/机器学习
(https://github.com/dotnet/machinelearning)
ML.NET 是一个开源的机器学习框架,旨在让 ML 面向.NET 开发人员。有了 ML,开发人员得以可以在.NET 开发本身的模型,而全部这些都不须要构建机器学习模型的经验。目前是个预览版,包含基本的分类和回归算法。
ML.NET 最初由 Microsoft 开发,现已普遍应用于 Windows、Excel、Access、Bing 等产品中。这个版本还捆绑了.NET API,用于各类模型训练模型的任务。
(https://github.com/NervanaSystems/nlp-architect)
NLP Architect 是一个开源的 Python 库,旨在让数据科学家可以得以探索天然语言处理(Natural Language Processing,NLP)和天然语言理解(Natural Language Understandings,NLU)领域中最早进的深度学习技术。该库由 Intel Lab 的研究人员开发并开源。
这个库中,我最喜欢的组件之一是可视化组件,它以整洁的方式显示模型的注释。访问这个网址来查看咱们对 NLP Architect 的报道:
https://www.analyticsvidhya.com/blog/2018/05/nlp-architect-an-awesome-open-source-nlp-python-library-from-intel-ai-lab-with-github-link/
(https://github.com/tducret/amazon-scraper-python)
这个 Python 包使你可以从 Amazon 搜索和提取产品信息。与其编写几行代码来肯定须要分析哪些产品,不如使用这个包就能够了。你须要作的就是输入想要搜索的关键词和最大产品数量(这是可选的)。你可使用 CSV 格式得到输出,而后将其插入你最喜欢的工具中并开始分析。
(https://github.com/esimov/pigo)
PIGO 是一个用 Go 编程语言开发的人脸检测库。它是基于这篇研究论文 Pixel Intensity Comparison -based Object detection(https://arxiv.org/pdf/1305.4537.pdf)开发的。根据该库的说明,这个库的一些主要特色是:
处理速度快;在检测以前无需对图像进行预处理;无需计算积分图像、图像金字塔、HOG 金字塔或任何其余相似的数据结构;人脸检测是基于二进制文件数据树结构编码的像素强度比较。
(https://github.com/higgsfield/RL-Adventure-2)
这个库是为全部的强化学习爱好者开发的。深度学习已经推进了强化学习编程人工智能以人类专家水平技能进行 Atari 游戏。这个库涵盖了策略梯度算法的有趣的新扩展,这是解决强化学习问题的最受欢迎的默认选择之一。这些扩展带来了训练时间的改善,提高了强化学习的总体表现。
(https://www.reddit.com/r/MachineLearning/comments/8n04hp/p_realtime_multihand_pose_estimation_demo/)
做者将上述概念以视频的形式发布后,讨论就开始了。这是一个使人着迷的概念,使用深度学习来看到它变得生动起来,这真是一件美妙的事情。它引发了数据科学家和机器学习爱好者的关注,正如你能够经过讨论中的问题数量看得出。我鼓励你们去浏览一下这些讨论,大家会对这项技术是如何实现的有一个很好的认识。
(https://www.reddit.com/r/MachineLearning/comments/8kbmyn/d_if_you_had_to_show_one_paper_to_someone_to_show/)
若是你是机器学习的菜鸟,或者正在寻找须要阅读或者参考的论文,那么这就是一条很棒的线索。在这场讨论中提到的一些优秀的机器学习研究论文,每个有远大抱负或有所建树的数据科学家都会从中受益。这场讨论包含了从基本的机器学习概念(如高斯模型)到高级概念(如神经艺术风格转换)、使用简单功能的提高级联来实现快速目标检测等论文。
(https://www.reddit.com/r/MachineLearning/comments/8mpxmm/d_what_do_we_currently_know_about_generalization/)
深度学习中的泛化问题一直是人们争论不休的话题。正如这篇文章的做者所提到的,咱们仍然有很多场景须要努力去实现任何泛化。这就引发了对目前的泛化现状的深刻讨论,以及为何泛化在深度学习和强化学习中很难理解。这些讨论中,包括冗长的帖子,若是你是这个领域的菜鸟,这些帖子对你来讲可能有点复杂。尽管如此,我仍是建议你,不管如何都要通读这些帖子,由于这些帖子都是由一些经验丰富、知识渊博的数据科学家提出的见解。
(https://www.reddit.com/r/MachineLearning/comments/8mqh2r/d_machine_learning_deployed_in_health_care_and/)
这个话题深刻研究了医疗行业(不是研究领域)当前的机器学习现状。这个行业的数据科学家分享了他们在工做中获得的经验和观点。当谁找你询问生命科学领域中有关机器学习和深度学习的任何问题时,你就能够参考这个话题。
(https://www.reddit.com/r/datascience/comments/8m0zev/what_are_the_potential_career_paths_for_data/)
这个话题,也是大多数人在进入该领域以前都会问的一个很是相关的问题。随着自动化机器学习工具的迅速普及,企业在几年内还会须要数据科学家吗?这个话题收集了数据科学领域中不一样人士的观点,他们认为数据科学家在将来几年内将会扩展或者多样化。这里有一些很好的职业建议,因此必定要来看一下。
原文连接:
https://www.analyticsvidhya.com/blog/2018/06/top-5-github-reddit-data-science-machine-learning-may-2018/