在上一篇文章中,小编为您详细介绍了关于《小米手机发热情况是否比其他手机严重?如何使手机黑屏或其他故障但可以之后通过自己返回到原来的状态》相关知识。本篇中小编将再为您讲解标题为什么样Spark比MapReduce快?MapReduceSpark学习比较。
MapReduce慢是因为 模型很呆板 ,频繁的Io操作
Spark快的话不仅是因为它是内存迭代计算吧? 具体什么是内存迭代计算?
以下特指Hadoop的Map Reduce的实现。
Map Reduce相对于Spark“慢”的根本原因是,每次中间结果都需要写到HDFS上面去,读的时候也需要从HDFS上读。而Spark“快“的原因是,它默认把结果写到内存(或者spill到SSD)上面去。
而内存(SSD)vs HDFS,①眼就能看出哪个更加快了。Spark官网那个①⓪⓪倍提高的就是用大容量内存+SSD版本的Spark去比较依赖于HDFS的Map-Reduce,非要说的话,有点小作弊的感觉,不过这确实是Spark的优势,可以非常好的利用高速的内存资源。
除去官方的性能比较,也有人做了①些特定case的性能比较,比如
The Truth About MapReduce Performance on SSDs - Cloudera Engineering Blog 给出了替换成SSD后的Map-Reduce的性能,大概提升①倍。
给出了Spark和Map-Reduce在kmeans方面的比较,可以看到大概也是Spark比Map-Reduce提升的①倍的性能。
可以看到,替换成SSD以后,Map-Reduce的性能不①定会比Spark差非常多。
另外,Spark不是作为Map-Reduce的替代者而出现的。Map-Reduce相对于Spark而言,成本方面有着天然的优势。
楼主可以参考这篇文章 别再比较Hadoop和Spark了,那不是设计人员的初衷
PS:Spark现在还有专门的①个公司在做维护和优化,而Hadoop的Map-Reduce还是依赖于社区。不过硅谷里面⑥⓪%的公司还是使用Map-Reduce,不过都是自己的实现居多。
首先第①点,Spark目前也发展了自己处理大数据的生态系统,所以该是和Hadoop进行比较,MR同Spark不是同①类型的事物,应该是和Spark的RDD设计思想,内存计算,内核机制等进行对比。Spark的设计初衷就是为改进MR在运作效率方面的不足,但这两者并不等同;MR因为时间较早,所关注的主要解决问题是batch processing,因此在实时流处理,机器学习等方面没有投入太多考虑,尤其是举机器学习而言,运行迭代式算法①直是MR的诟病。MapReduce作为①种大数据处理思路,题主可以参考相关论文和MR模式设计等方面的资料,可以用JAVA尝试自己写相关的程序来熟悉这①模式。但是最好也得明白MR的不足缺陷之处(这也是为什么Spark会产生的原因)另外Spark的学习个人觉得并非得必须依靠MapReduce作为前提条件,首先了解RDD等基本内容,除了内核机制运作以外,用于SQL操作的SparkSQL,机器学习的Mllib,图计算的GraphX等等都是重要部分。具体从哪①块下手可以根据自身工作需要,从熟悉该模块的Java API起步。
编后语:关于《为什么样Spark比MapReduce快?MapReduceSpark学习比较》关于知识就介绍到这里,希望本站内容能让您有所收获,如有疑问可跟帖留言,值班小编第一时间回复。 下一篇内容是有关《编写Java程序如果只用静态方法和非引用类型?JAVA单例模式与弱引用是否冲突》,感兴趣的同学可以点击进去看看。
小鹿湾阅读 惠尔仕健康伙伴 阿淘券 南湖人大 铛铛赚 惠加油卡 oppo通 萤石互联 588qp棋牌官网版 兔牙棋牌3最新版 领跑娱乐棋牌官方版 A6娱乐 唯一棋牌官方版 679棋牌 588qp棋牌旧版本 燕晋麻将 蓝月娱乐棋牌官方版 889棋牌官方版 口袋棋牌2933 虎牙棋牌官网版 太阳棋牌旧版 291娱乐棋牌官网版 济南震东棋牌最新版 盛世棋牌娱乐棋牌 虎牙棋牌手机版 889棋牌4.0版本 88棋牌最新官网版 88棋牌2021最新版 291娱乐棋牌最新版 济南震东棋牌 济南震东棋牌正版官方版 济南震东棋牌旧版本 291娱乐棋牌官方版 口袋棋牌8399 口袋棋牌2020官网版 迷鹿棋牌老版本 东晓小学教师端 大悦盆底 CN酵素网 雀雀计步器 好工网劳务版 AR指南针 布朗新风系统 乐百家工具 moru相机 走考网校 天天省钱喵 体育指导员 易工店铺 影文艺 语音文字转换器