简单说一下hadoop和spark的shuffle过程 收藏 阅读:41
2020-10-27 14:58:59
问题:简单说一下hadoop和spark的shuffle过程
出题人:京东出题专家:阿昀/京东数据中台
参考答案:

Hadoop:map端保存分片数据,通过网络收集到reduce端。

Spark:spark的shuffle实在DAGSchedular划分Stage的时候产生的,TaskSchedular要分发Stage到各个worker的executor。减少shuffle可以提高性能。


© 版权归知否网(zhifou.net)所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权知否网将依法追究其法律责任。
读后有收获,请作者喝杯咖啡


全部评论

发表评论