最近团队在作代码移植,将C++代码用scala实现服务端的矩阵算法,作到最后一步发现C++的文件压缩是直接调用python脚原本实现的,本着一致性的原则,文件压缩也用scala来实现。可是测试的时候发现,这个压缩效率跟调用python执行相差太大了,2G的txt格式文件,用scala实现压缩用了将近200秒,可是用python只须要大约40秒,有点接受不了,反正团队最近的故事也不多,因而研究了一下。
python
其实,scala调用python脚本是很是简单,首先导入包算法
import scala.sys.process._
而后只须要执行一行命令便可:测试
"python /home/test.py args" ! //test.py是须要执行的Python脚本,args:Python须要的参数
这条命令是能够直接在安装scala环境下执行的this
可是,如今出现了一个问题,由于上面的python脚本要加上路径,而咱们的工程全部的资源都要打包成 jar 放在 集群环境执行的。那么,咱们这个这个脚本应该放在哪里才能让python 找到来解析执行呢?想了两种解决方案scala
第一,脚本跟jar包分离,给一个固定的路径,而后在命令中将路径写死。这样的话,须要另外安装脚原本上次这个压缩脚本,并且,发布版本涉及的工程太多了,不一样部门不一样团队的,并且本身也不了解发布涉及的全部安装脚本。搞很差这个功能分分钟出问题啊,这种方法是不可行的。code
第二,将这个脚本放在咱们团队的工程下面,跟随其余代码一块打包,这样的话就比较容易控制了。可是,打包成 jar 后,Python是解析不到 jar 里面的文件的。思考了一下,找到了一种方法:资源
在代码中,找到脚本在 jar里面的位置,而后将文件流读取出来,写到一个本地的路径下,这样,python解析器就能找到脚本的位置啦。貌似能够,因而立马敲代码验证:get
上代码:string
def CompressFiles(){ val fileInjar = "/CompressFile.py" //打包后,能够查看这个脚本在jar的相对路径(个人是存放在根目录) val in = this.getClass.getResourceAsStream(fileInjar) //获取脚本InputStream //获取jar所在的集群路径 val jarPath = this.getClass.getProtectionDomain.getCodeSource.getLocation.getPath.replace("\\","/") val pyDir = jarPath.substring(0,jarPath.lastIndexOf("/"))+"CompressFile.py" if(in != null){ val f = new File(pyDir) if (!f.exists()) f.mkdirs val localFile = pyDir +"CompressFile.py" val out = new FileOutputStream(localFile) val buf = new Array[Byte](1024) try { var nLen = in.read(buf) while(nLen != -1){ out.write(buf,0,nLen) nLen = in.read(buf) } }catch { case e:Exception => log.error(e.getMessage) case _ => log.error("Read CompressFile.py Exception") }finally{ in.close out.close } //以上代码即可以将jar里面的脚本写入到了jar包所在集群里面的某台机器的本地路径了,这就爽了, //Python能够找到脚本解析啦啦啦啦,,这样只要把scala那条命令执行就好了 val para = "args" s"python $localFile $para" ! //para参数 }else{ log.error("a NULL error occurred when Read CompressFile.py in jar,maybe the path is invalid!") } }
至此,调用完成。
it