记一次PMML文件的处理过程

背景

业务方说须要我作个web界面,在上面输入一条网站访问线索的信息,后台经过机器学习计算这条线索的评级,例如这条线索对应的用户购买意愿有多强之类的。而机器学习对应的模型,也是业务方本身用KNIME这个软件训练的,而后将训练完的模型导出为一个PMML格式的文件,我所须要作的主要工做就是导入这个文件,转换成对应的机器学习模型。html

注:做者去简单尝试了KNIME这个软件,感受是个数据分析的利器。[连接]java


PMML介绍

PMML(Predictive Model Markup Language)全称是预测模型标记语言,既然叫作标记语言,那其实与html/XML等也是很是相似的,只是它存储的是机器学习模型的信息,好比特征名称、类型、个数,模型种类等等。它经常使用于部署,例如模型在dev环节训练好了,将其导出为一个PMML文件,而后在prod环境中导入便可,也很方便在不一样的环境间传递模型,例如使用python训练出来的模型,用R来调用和预测。python


Python导入PMML的问题

如今大部分语言都支持将训练好的模型导出PMML文件,python一样也可使用sklearn2pmml这个库来导出模型,但我发现没有一个很好的工具能反向操做,将已有的PMML文件还原成sklearn中的机器学习模型。因而在GitHub尝试了一些方案,以下:git

  1. 找到一个项目叫作jpmml-evaluator,是用java写的,它支持将PMML导入到java中,进入做者的仓库中,又发现一个叫作jpmml-evaluator-python,根据ReadMe介绍,这是一个将jpmml-evaluator作了简单封装的python版本,使python能够导入PMML文件,但用户较少,start也只有1,试用时发现了问题,也向做者反馈了,而且做者还所以更新了代码,但仍然没有解决。issue连接: https://github.com/jpmml/jpmm...
  2. 又找了一个叫作sklearn-pmml-model,目前也是用户少,功能不完整(支持的模型有限)的状况,但在安装过程当中就出错,联系了做者,未得到反馈。
  3. openscoring项目,一样也是一个用java写的项目,其做用就是支持开启一个服务端用于调用机器学习模型,客户端向服务端传递机器学习的PMML文件和预测数据,服务端可使用jar包一键部署,而客户端则可使用java/python/R等不一样的SDK,甚至直接使用curl,最终该方案用上了。在和做者沟通中,做者还指出了KNIME导出的PMML存在的BUG,并建议向KNIME反馈这个BUG
相关文章
相关标签/搜索