Content #
数组与RDD的对比 RDD(Resilient Distributed Dataset) 创建RDD RDD的结构 依赖关系(RDD) Spark的延迟计算(Lazy Evaluation) Transformations类算子和Actions类算子 不用map而用mapPartitions的例子 相邻单词出现次数统计(flatMap) Driver和Executors 任务调度的步骤(Spark) Shuffle(Spark) reducebyKey的Map端聚合与Reduce端聚合 aggregateByKey聚合算子 Spark内存区域划分 内存配置项(Spark) Execution Memory与Storage Memory的抢占规则 RDD Cache repartition与coalesce的区别 广播变量 存储系统的三个服务对象(BlockManager) RDD、DataFrame、DataSet的对比 事件时间和处理时间 Structured Streaming 与 Spark Streaming 对比 每隔10秒输出过去60秒产生的前十热点词 withColumn与withColumnRenamed