使用Spark SQL的临时表解决一个小问题

最近在使用spark处理一个业务场景时,遇到一个小问题,我在scala代码里,使用spark sql访问hive的表,而后根据一批id把须要的数据过滤出来,原本是很是简单的需求直接使用下面的伪SQL便可:sql select * from table where id in (id1,id2,id3,id4,idn) 但如今遇到的问题是id条件比较多,大概有几万个,这样量级的in是确定会出错的,看
相关文章
相关标签/搜索