使用Streamsets实现TensorFlow的二分类

原文链接:https://streamsets.com/blog/binary-classification-of-streaming-data-using-tensorflow-to-adls-gen1-and-adls-gen2/

作者:Rupal Shah  2019年5月2日 / StreamSets新闻

在过去的十年中,数字化转型已经发展,每个系统和设备都有数字化的线索:从IT服务器到工厂设备,再到消费电子产品,再到建筑物,再到汽车。数据量,速率和种类的增加已经增加了复杂性,更不用说这些新数据集必须实时分析。适合用途的数据平台允许存储和应用高级分析到无限的原始数据。分析可以在边缘系统,数据中心或云提供商之间进行。流式计算平台可以处理实时数据。鉴于数据速率的指数级增长和响应的时间要求,我们必须考虑采用可靠的方法来近乎实时地分析和提供预测,推断和/或分类。

为了提供分析数据集的时间关键响应,StreamSets提供了创建管道的功能,这些管道可以摄取数据集或维度,并在包含的环境中生成预测或分类。所有这些都无需启动对作为Web服务提供和公开的ML模型的HTTP或REST API调用。例如,StreamSets管道现在可以检测欺诈性交易或对文本进行自然语言处理,因为数据在存储到最终目的地之前经过各个阶段 - 用于进一步处理或决策。

考虑将乳腺癌肿瘤分类为恶性或良性的用例。(威斯康星州)乳腺癌是一种经典的数据集,可作为scikit-learn的一部分。

注意:有关如何使用此数据集训练和导出TensorFlow模型并在StreamSets数据流管道中使用它的详细说明,请参阅此博客文章

使用TensorFlow SavedModelBuilder训练和导出模型后,在StreamSets数据流管道中使用它进行预测或分类非常简单。在预览(或执行)管道时,输入的乳腺癌记录将通过包括TensorFlow模型在内的管道阶段:

最终输出记录将发送到Azure Data Lake Storage Gen1和Azure Data Lake Storage Gen2 *(如上所示)。输出包括模型用于分类的乳腺癌特征,用户定义的字段TF_Model_Classification中的模型输出值0或1,以及由表达评估器创建的字段条件中的相应癌症状况良性或恶性

有关此管道中数据准备阶段的详细信息,请查看此详细博客文章

以下是管道的截图,该管道连续读取患者数据并将乳腺癌肿瘤实时分类为良性或恶性

 原文中有视频演示,可以点击原文查看。