博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
spark输出rdd数据_spark rdd 遍历分区输出分区内容
阅读量:6913 次
发布时间:2019-06-27

本文共 600 字,大约阅读时间需要 2 分钟。

刚接触spark的时候,总是想把rdd每个分区的数据打印出来,有时候是想看默认分区是啥样子的,有时候是想看rePartion到底起作用了没。

操作分区主要有mapPartitions和mapPartitionsWithIndex方法,mapPartitionsWithIndex提供了分区的索引(代码中partid)。

遍历分区输出分区内容的代码:val rdd = sc.parallelize(1 to 8,3)

rdd.mapPartitionsWithIndex{

(partid,iter)=>{

var part_map = scala.collection.mutable.Map[String,List[Int]]()

var part_name = "part_" + partid

part_map(part_name) = List[Int]()

while(iter.hasNext){

part_map(part_name) :+= iter.next()//:+= 列表尾部追加元素

}

part_map.iterator

}

}.collect

输出:res0: Array[(String, List[Int])] = Array((part_0,List(1, 2)), (part_1,List(3, 4, 5)), (part_2,List(6, 7, 8)))

转载地址:http://kdncl.baihongyu.com/

你可能感兴趣的文章
“脱欧”困境难解 英欧关系或面临十字路口
查看>>
Python 扩大领先优势 18 年数据科学&工具排名
查看>>
面向未来的前端数据流框架 - dob
查看>>
小程序 · 云开发
查看>>
Android技术总监应该干的那些事
查看>>
Kotlin的装饰者模式与源码扩展
查看>>
GoogleDeveloperDay 回顾
查看>>
关于Create React App不支持装饰器的终极无伤解决方案
查看>>
Node.js&NPM的安装与配置
查看>>
[译] 使用 Web Beacon API 记录活动
查看>>
一线城市房价的理性思考
查看>>
人人都能掌握的Java服务端性能优化方案
查看>>
Android入门第一关:Android四大组件
查看>>
记一次混淆算法逆向分析
查看>>
header的安全配置指南
查看>>
W3C CSS Transforms摘译
查看>>
Logo设计的简要可行步骤
查看>>
ES6之Set和Map
查看>>
动画-仿微博弹簧动画
查看>>
[译] 单向用户界面架构
查看>>