本篇分享一个使用hanlp分词的操做小案例,即在spark集群中使用hanlp完成分布式分词的操做,文章整理自【qq_33872191】的博客,感谢分享!如下为全文:分布式
分两步:ide
第一步:实现hankcs.hanlp/corpus.io.IIOAdapteroop
1. public class HadoopFileIoAdapter implements IIOAdapter {spa
2. .net
3. @Overrideblog
4. public InputStream open(String path) throws IOException {get
5. Configuration conf = new Configuration();博客
6. FileSystem fs = FileSystem.get(URI.create(path), conf);spark
7. return fs.open(new Path(path));io
8. }
9.
10. @Override
11. public OutputStream create(String path) throws IOException {
12. Configuration conf = new Configuration();
13. FileSystem fs = FileSystem.get(URI.create(path), conf);
14. OutputStream out = fs.create(new Path(path));
15. return out;
16. }
17. }
第二步:修改配置文件。root为hdfs上的数据包,把IOAdapter改成我们上面实现的类
ok,这样你就能在分布式集群上使用hanlp进行分词了。
整个步骤比较简单,欢迎各位大神交流探讨!