spark union 特别注意
admin
2023-01-31 17:48:57
0

今天遇到一个很诡异的问题。

表A

userid housecode res ctime
u1 code1 1 1301

表B

userid housecode res ctime
u2 code2 0 1302

表C

userid name type time
u1 大海 0 1303

然后对表A进行处理操作

表A.createOrReplaceTempView("t1");
JavaRDD rdd=removeDuplicateData(t1);
t1= s.createDataFrame(rdd, HistoryModelExt.class);

然后查看t1, t1.show()

u1 code1 1 1301
.. .. .. ..

数据还在,然后 B union A 然后 join C(通过userid), 理论上应该是有结果的,感觉就像1+1=2 这么肯定,但是还真没有数据,非常诧异。

刚开始以为是自己程序哪里有问题,苦苦寻找,发现一切正常, 最后回到 union这个方法上。

为了看清楚前因后果, 我把B union A的数据打印了出来,发现了一个奇怪的事情

userid housecode res ctime
u2 code2 0 1302
1301 code1 1 u1

当时一下子就明白为什么join 没有数据了, A的schema已经与B不一致了。
原来 union函数并不是按照列名合并,而是按照位置合并。
但是在JavaRDD rdd=removeDuplicateData(t1); 这步之前还是一致的,为什么转成java对象后,schema就变了呢

查看源代码

  /**
   * Applies a schema to an RDD of Java Beans.
   *
   * WARNING: Since there is no guaranteed ordering for fields in a Java Bean,
   * SELECT * queries will return the columns in an undefined order.
   *
   * @since 2.0.0
   */

 def createDataFrame(rdd: RDD[_], beanClass: Class[_]): DataFrame = {
    val attributeSeq: Seq[AttributeReference] = getSchema(beanClass)
    val className = beanClass.getName
    val rowRdd = rdd.mapPartitions { iter =>
    // BeanInfo is not serializable so we must rediscover it remotely for each partition.
      SQLContext.beansToRows(iter, Utils.classForName(className), attributeSeq)
    }
    Dataset.ofRows(self, LogicalRDD(attributeSeq, rowRdd.setName(rdd.name))(self))
  }

看注释,fields的顺序是不保证的, 原来如此。

这样你在union前乖乖的执行

t1.select("userId","houseCode","res","ctime"); 

这样顺序就又恢复了,大数据排查问题特别麻烦,感觉是一个很大的坑,希望能帮到后来人。

相关内容

热门资讯

终于懂了“中州游戏.怎么开挂?... 终于懂了“中州游戏.怎么开挂?”确实真的有挂您好,中州游戏这个游戏其实有挂的,确实是有挂的,需要了解...
【第一资讯】“微乐福建麻将.到... 【第一资讯】“微乐福建麻将.到底是不是挂?”详细开挂教程您好,微乐福建麻将这个游戏其实有挂的,确实是...
韩国首个商业运载火箭发射升空后... 新华社快讯:韩联社23日报道,韩国首个商业运载火箭当天发射升空1分多钟后起火。来源:新华社
中国网络文学出海加速:AI翻译... 2025-12-22 01:41:22 作者:狼叫兽 12月21日,中国音像与数字出版协会在第四...
今日重磅消息“悟空黑桃A.辅助... 有 亲,根据资深记者爆料悟空黑桃A是可以开挂的,确实有挂(咨询软件无需打...
【今日要闻】“十胡卡.有挂吗?... 有 亲,根据资深记者爆料十胡卡是可以开挂的,确实有挂(咨询软件无需打开直...
玩家最新攻略“上海明星麻将.是... 有 亲,根据资深记者爆料上海明星麻将是可以开挂的,确实有挂(咨询软件无需...
今日重磅消息“乐酷牛牛.辅助开... 今日重磅消息“乐酷牛牛.辅助开挂神器?”外卦神器下载您好,乐酷牛牛这个游戏其实有挂的,确实是有挂的,...
终于明白“人人乐麻将.辅助开挂... 家人们!今天小编来为大家解答人人乐麻将透视挂怎么安装这个问题咨询软件客服徽9752949的挂在哪里买...
【第一财经】“蜀友汇.辅助开挂... 您好:蜀友汇这款游戏可以开挂,确实是有挂的,需要了解加客服微信【4282891】很多玩家在这款游戏中...