Scala 高级算子
admin
2023-07-28 02:40:07
0

==> mapPartitionsWithIndex

    ---> 定义: def mapPartitionsWithIndex[U](f:(Int, Iterator[T]) => Iterator[U], preserversPartitioning: Boolean = false)

    ---> 作用: 对 RDD 每个分区进行操作,带有分区号

    ---> 示例:输出分区号和内容

// 创建一个RDD
val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9))
// 创建一个函数,作为 f 的值
def func(index:Int, iter:Iterator[Int]):Iterator[String] = {
    iter.toList.map(x=>"[PartID: " + index + ", value= " + x + "]").iterator
}

// 调用
rdd1.mapPartitionsWithIndex(func).colect

// 结果
res15: Array[String] = Array([PartitionID: 0,value=1], [PartitionID: 0,value=2], [PartitionID: 0,value=3], [PartitionID: 0,value=4], 
                             [PartitionID: 1,value=5], [PartitionID: 1,value=6], [PartitionID: 1,value=7], [PartitionID: 1,value=8], [PartitionID: 1,value=9])


==> aggregate

    ---> 定义:def aggregate[U: ClassTag](zeroValue: U)(seqOp:(U, T) => U, combOp: (U, U) => U): U

        ---- (zeroValue: U)            初始值

        ---- seqOp:(U, T) => U    局部操作

        ---- combOp:(U, U) => U        全局操作

    ---> 作用:先对局部进行操作,再对全局进行操作

    ---> 示例:

// 求两个分区最大值的和,初始值为0
val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9))
rdd1.aggregate(0)(math.max(_,_), _+_)
// 结果为:res16: Int = 13


==> aggregateByKey

    ---> 定义:

    ---> 作用:对 key-value 格式 的数据进行 aggregate 操作

    ---> 示例:

// 准备一个 key-value 格式的 RDD
val parRDD = sc.parallelize(List(("cat", 2),("cat", 5),("mouse", 4),("cat", 12),("dog", 12),("mouse", 2)), 2)

// 计算每个分区中的动物最多的个数求和
parRDD.aggregateByKey(0)(math.max(_, _), _+_)
// 结果为:  Array[(String, Int)] = Array((dog,12), (cat,17), (mouse,6))

// 计算每种动物的总数量

parRDD.aggregateByKey(0)(_+_, _+_).collect        // 方法一
parRDD.reduceByKey(_+_).collect



==> coalesce 与 repartition    

    ---> 作用:将 RDD 中的分区进行重分区

    ---> 区别: coalesce 默认不会进行 shuffle(false)

                        repartition 会进行 shuffle(true), 会将数据真正通过网络进行重分区

    ---> 示例:

// 定义一个 RDD 
val rdd = sc.parallelize(List(1,2,3,4,5,6,7,8), 2)

// 显示分区中的分区号和分区号中的内容
def func(index:Int, iter:Iterator[Int]):Iterator[String] = {
    iter.toList.map(x=>"[PartID: " + index + ", value= " + x + "]").iterator
}

// 查看 rdd 中的分区情况
rdd.mapPartitionsWithIndex(func).collect
// 结果为: Array[String] = Array(
// [PartID: 0, value= 1], [PartID: 0, value= 2], [PartID: 0, value= 3], [PartID: 0, value= 4], 
// [PartID: 1, value= 5], [PartID: 1, value= 6], [PartID: 1, value= 7], [PartID: 1, value= 8])

// 使用 repartition 将分区数改为3
val rdd2 = rdd1.repartition(3)
val rdd3 = rdd1.coalesce(3, true)

// 查看rdd2 与rdd3 的分区情况
rdd2.mapPartitionsWithIndex(func).collect
rdd3.mapPartitionsWithIndex(func).collect

// 结果为:Array[String] = Array(
// [PartID: 0, value= 3], [PartID: 0, value= 6], 
// [PartID: 1, value= 1], [PartID: 1, value= 4], [PartID: 1, value= 7], 
// [PartID: 2, value= 2], [PartID: 2, value= 5])



相关内容

热门资讯

浙江宣传:“走个面儿”咋就没面... “咱北京两千多万人口,您受累,您走个面儿,把这第一波的票房带起来,咱就有了。”某知名导演的新片首映礼...
辞职声明仅95秒遭质疑,韩国队... 【环球时报综合报道】美加墨世界杯小组赛出局后,韩国队主教练洪明甫当地时间28日在墨西哥的韩国队大本营...
美媒爆料:美军第五舰队总部遭伊... 据美国《华尔街日报》27日报道,其通过对卫星图像、社交媒体视频和五角大楼记录的分析发现,今年2月底至...
英国智库给菲律宾GDP增速“浇... 【环球时报特约记者 叶满】英国经济研究机构凯投宏观发布的最新一期《亚洲经济展望》报告(以下简称“报告...
欧洲持续高温,有华人用冰箱降温... 连日来,欧洲多国迎来罕见极端高温天气,法国、德国、意大利等地气温持续飙升,部分地区突破40摄氏度。受...
伊副外长强调船只须按“伊朗线路... 伊朗外交部副部长加里巴巴迪当地时间29日晚间在接受采访时强调,所有船只均须按照“伊朗线路”通过霍尔木...
委内瑞拉强震已致1719人死亡 当地时间29日,委内瑞拉全国代表大会主席罗德里格斯通报,地震已造成该国1719人死亡,5034人受伤...
铋晟新材料申请氯氧化铋基复合材... 国家知识产权局信息显示,江苏铋晟新材料有限公司申请一项名为“一种氯氧化铋基复合材料及其制备方法和用途...
韩国政府将投资千万亿韩元于AI... 韩国总统李在明29日在总统府青瓦台主持召开会议,公布总额超千万亿韩元的半导体、物理人工智能(AI)和...
以色列防长称以伊可能随时再起冲... △卡茨(资料图)据以色列方面29日消息,以国防部长卡茨当天表示,鉴于复杂的安全局势和在黎巴嫩的军事行...