使用Spark SQL的临时表解决一个小问题

时间 2019-12-04

标签使用 spark sql 临时解决一个问题栏目 Spark 繁體版

原文原文链接

最近在使用spark处理一个业务场景时，遇到一个小问题，我在scala代码里，使用spark sql访问hive的表，而后根据一批id把须要的数据过滤出来，原本是很是简单的需求直接使用下面的伪SQL便可：sql select * from table where id in (id1,id2,id3,id4,idn) 但如今遇到的问题是id条件比较多，大概有几万个，这样量级的in是确定会出错的，看

>>阅读原文<<