[译] 初创公司的数据科学:简介

照片来源:rawpixel 发表在 pixabay.comhtml

我最近换了行业,加入了一家创业公司,负责创建数据科学部。虽然我加入时这里已经有了可靠的数据管道,可是没有适用于可重复分析、扩展模型和执行实验的流程。本系列博文的目标是概述如何从头开始为创业公司构建数据科学平台,并使用谷歌云平台(GCP)为读者提供能够本身尝试的真实示例。前端

本系列适用于但愿超越训练模型阶段,以及想构建可能对公司产生影响的数据管道和数据产品的数据科学家和分析师。可是对于但愿更好的了解如何与数据科学家合做运行实验和构建数据产品的其余学科来讲,它也是有用的。它适用于具备编程经验的读者,本系列主要使用了 R 与 Java 的代码示例。android

为何选择数据科学?

为您的创业公司雇佣数据科学家时,首先要问的问题之一是:数据科学将如何改进咱们的产品?在 Windfall Data,咱们的产品就是数据,所以数据科学的目标与公司的目标能够很好的协调,能够创建最准确的估算净值模型。而在其余公司(如移动游戏公司),答案可能没那么直接,数据科学可能对了解如何运营业务而不是改进产品更有用。可是在早期阶段就开始收集有关客户行为的数据一般是有益的,这样您就能够在未来改进产品。ios

在初创公司启动数据科学的好处有:git

  1. 能够肯定要跟踪和预测的关键业务指标
  2. 能够创建客户行为的预测模型
  3. 能够运行实验以测试产品变化
  4. 能够构建支持新产品功能的数据产品

许多公司在前两个或三个步骤中就陷入了困境,并无充分发挥数据科学的潜力。本系列博客文章的目标是展现如何使用托管服务让小型团队超越仅为计算业务运营指标而搭建数据管道,过渡到数据科学能够为产品提供关键输入的公司。github

系列概述

如下是我对此博客系列文章的主题计划。当我写新的部分时,我可能会添加或移动部份内容。若是您认为应该涵盖其余主题,能够在文末提出来。web

  1. 简介(即本文):提供在初创公司使用数据科学的动力,并概述本系列文章所涵盖的内容。相似的文章包括数据科学的功能数据科学扩展还有个人 FinTech 之旅
  2. 跟踪数据:讨论从应用程序和网页捕获数据的动机,提出收集跟踪数据的不一样方法,引入隐私和欺诈等问题,并以 Google PubSub 为例。
  3. 数据管道:介绍如何使用不一样方法收集数据以供分析和数据科学团队使用,讨论了平面文件、数据库和数据池方式,并介绍了基于 PubSub,DataFlow 和 BigQuery 的实现。相似的文章有可扩展的分析管道游戏分析平台的演进
  4. 商业智能:认识 ETL 的常见实践经验、自动化报告/仪表盘以及计算业务运营指标和 KPI。使用 R Shiny 和 Data Studio 为例。
  5. 探索性分析:涵盖用于挖掘数据经常使用分析,好比构建直方图和累积分布函数、相关性分析以及线性模型的特征重要性。使用 Natality 公共数据集进行示例分析。相似的文章有聚合前 1%数据科学可视化的 10 年
  6. 预测建模:讨论监督和非监督学习方法,并介绍流失和交叉推广预测模型,以及评估离线模型性能的方法。
  7. 模型制做:展现如何扩展离线模型以得到数百万条记录,并讨论模型部署的批处理和在线方法。相似的文章有在 Twitch 产品化数据科学,还有使用 DataFlow 生成模型
  8. 实验:介绍产品的 A/B 测试,讨论如何配置运行实验的框架,并提供 R 和 bootstrapping 示例分析。相似的文章有分阶段的 A/B 测试
  9. 推荐系统:介绍推荐系统的基础知识,并提供扩展生产系统推荐器的示例。相似的文章有推荐人原型设计
  10. 深度学习:简要介绍一些问题最好经过深度学习来解决的数据科学问题,例如将聊天消息标记为使人反感的。提供带有 Keras 的 R 接口的原型模型示例,以及使用 CloudML 的 R 接口进行产品化。

本系列还存在网络版印刷版的书。数据库

工具

在整个系列中,我将介绍基于 Google Cloud Platform 构建的代码示例。我选择 GCP,由于它提供了许多托管服务,使小型团队能够构建数据管道,产生预测模型并利用深度学习。也能够经过 GCP 注册免费试用并得到 300 美圆的余额。使用免费试用的 GCP 运行本系列中介绍的大多数主题已经够了,但若是您的目标是深刻了解云端的深度学习,它将很快过时。编程

对于编程语言,我将使用 R 来编写脚本,Java 用于生产,以及使用 SQL 来处理 BigQuery 中的数据。我还会介绍其余工具,如 Shiny。建议读者掌握一些 R 和 Java 的使用经验,由于我不会介绍这些语言的基础知识。bootstrap


Ben Weber 是游戏行业的数据科学家,在 Electronic Arts、Microsoft Studios、Daybreak Games 还有 Twitch 都有工做经验。他仍是 FinTech 初创公司的第一位数据科学家。

若是发现译文存在错误或其余须要改进的地方,欢迎到 掘金翻译计划 对译文进行修改并 PR,也可得到相应奖励积分。文章开头的 本文永久连接 即为本文在 GitHub 上的 MarkDown 连接。


掘金翻译计划 是一个翻译优质互联网技术文章的社区,文章来源为 掘金 上的英文分享文章。内容覆盖 AndroidiOS前端后端区块链产品设计人工智能等领域,想要查看更多优质译文请持续关注 掘金翻译计划官方微博知乎专栏

相关文章
相关标签/搜索