背景介绍html
在一些业务场景,咱们须要把离线训练好的模型以微服务部署线上,若是是简单的使用sklearn pipeline,能够保存为XML格式的pmml供Java调用,
在配置为4 core,8G内存的docker环境能够提供8K左右的高并发,而且这种docker能够快速大规模部署到PaaS云平台,优点至关明显,实际状况是
算法人员会基于Python自定义lambda处理数据,而自定义的lambda是很难保存到pmml中的,而且不少公司的算法团队也是要求基于Python技术栈是python
落地的。linux
踩坑过程web
算法人员序列化训练好的模型无外乎pkl 、h5,就以pkl为例,pkl中包含了数据的预处理、模型的pipeline等,把这种模型包装为微服务也不难,能够算法
选择flak+gevent+Gunicorn,前两个能够包装标准的API接口,Gunicorn是web容器能够提供异步高并发服务,在测试服务器(8 cores, 16G内存)QPS达到docker
10K +,性能仍是能够的。shell
1)docker部署踩坑,Python工程根目录下本身编写docker file,能够从开源镜像库选择本身的一款,Dockerfile里面命令行相似shell,好比下图:缓存
Python以来的相关模块、工程路径等要加上,接着docker build构建镜像,把镜像push到公司镜像库,在PaaS云平台pull镜像,整个流程不是太复杂,
服务器
可是压测的时候,几秒以内会发现docker的使用状况是CPU所有满负载100%,内存却是50%左右,其实模型就是简单的分类算法,这其中的瓶颈主要是多线程
两方面的:
a)docker内部的Python应用与外部的通讯链路比较耗时,优化代价较高,须要专业的docker专家来优化;
b)Python应用自己既要有多线程、多协程的开销,是消耗CPU资源的,而且分类算法自己就是很耗费CPU资源的,属于计算密集型,因此docker的CPU很快
满负载,除非把算法的计算单独剥离出去;
至此基于docker的Python微服务行不通。
2)直接把Python应用部署物理机,gunicorn做为web容器能够设置IP、port、工做进程数、最大并发数等等,能够参照gunicorn docs,具体策略有:
a)application部署采用多进程部署,代码内部采用多线程、协程处理请求响应;
b)对于一些重复的请求参数,引入LRU cache既下降了延时也避免了重复调用;
c)因为Python是动态解释语言,能够想办法作到静态语言的水平,借助cython能够把Python工程编译为C文件及.so(linux)文件,这时能够把请求响应
延时进一步下降30%以上;
延伸:YouTube在使用Python构建高并发服务值得借鉴,使用Python作到快速灵活的开发和部署,使用psyco,一种Python到C的动态编译器,该编译器
使用一种JIT编译方法来优化内层循环,再将内容完整的Python对象缓存起来,总体达到很高的性能。
refer:
https://gunicorn.org/#docs
https://www.cnblogs.com/break-python/p/5459169.html
https://docs.docker.com/engine/reference/builder/#format
https://blog.csdn.net/wo18237095579/article/details/80540571
http://www.browserwork.com/architecture/youtube-architecture