在上一篇文章中,小编为您详细介绍了关于《物联需要什么样硬件的元器件?请问我的技嘉DS3 3》相关知识。本篇中小编将再为您讲解标题Spark特点及缺点?spark到底是平台模型。
①.Spark的内存计算 主要体现在哪里?
②.目前Spark主要存在哪些缺点?
谢谢!
①.Spark的内存计算 主要体现在哪里?
(a) spark, 相比与map reduce最大的速度提升在于做重复计算时,spark可以重复使用相关的缓存数据,而M/R则会笨拙的不断进行disk i/o. (b) 为了提高容错性,M/R所有的中间结果都会persist到disk, 而M/R 则默认保存在内存。
②.目前Spark主要存在哪些缺点?
(a) JVM的内存overhead太大,①G的数据通常需要消耗⑤G的内存 -> Project Tungsten 正试图解决这个问题;
(b) 不同的spark app之间缺乏有效的共享内存机制 -> Project Tachyon 在试图引入分布式的内存管理,这样不同的spark app可以共享缓存的数据\", \"extras\": \"\", \"created_time\": ①④④⓪④⑧④④①⓪ · \"type\": \"answer
对于很多数据科学中的模型,模型的训练是以迭代形式进⾏. 在这种场景下,
我们需要反复地访问同⼀个训练集,计算训练集上的相关函数来优化模型参数. 在
上⼀节,我们已经讨论了可以将每⼀个迭代步骤使⽤⼀个MapReduce 作业来实
现. 然⽽MapReduce 的每⼀次作业都需要从磁盘加载数据,这就造成了严重的性
能问题.
对于交互式数据分析(例如在海量数据集中执⾏⼀些类似于SQL 的查询操
作),往往需要反复执⾏查询操作以深⼊理解和分析数据. 但是在MapReduce 中,
每⼀次查询均需要运⾏⼀个单独的MapReduce 作业,重新从磁盘遍历整个数据
集.
对于以上两种类型的任务,Hadoop 并不是⼀个很好的解决⽅案. 主要瓶颈在
于MapReduce 将磁盘作为计算过程中的数据存储. 本节我们将要介绍⼀个全新
的分布式数据处理平台Spark. Spark 是⾼效的分布式计算系统,最早由加州
⼤学伯克利分校的AMP 实验室④提出,②⓪①⓪ 年成为Apache 顶级项⽬⑤. Spark 核
⼼的想法是使⽤内存代替磁盘作为计算过程中的数据存储,这样对⼤规模数据集
进⾏反复的计算过程中,数据可以⼀直保存在内存中,从⽽能够⼤⼤提⾼数据处
理速度.
与Hadoop 相⽐,Spark 的主要不同包括:
①. Spark 的数据分析作业中间输出和结果可以保存在内存中,可以不再需要读
写HDFS,极⼤的提升了MapReduce 的效率;
②. Spark 提供了更多的数据集操作的⽅法,给数据分析⼈员带来更多灵活性,
不像Hadoop 只提供了map 和reduce 两种操作;
③. 对于机器学习算法、图算法有很好的⽀持.
Spark 系统基于⼀个创新的数据抽象类型:弹性分布式数据集(Resilient Distributed
Datasets, RDD).
Spark程序运行示意图
编后语:关于《Spark特点及缺点?spark到底是平台模型》关于知识就介绍到这里,希望本站内容能让您有所收获,如有疑问可跟帖留言,值班小编第一时间回复。 下一篇内容是有关《我自己想配一台主玩游戏副工作的机子?显示器是dvi主机接口如图》,感兴趣的同学可以点击进去看看。
小鹿湾阅读 惠尔仕健康伙伴 阿淘券 南湖人大 铛铛赚 惠加油卡 oppo通 萤石互联 588qp棋牌官网版 兔牙棋牌3最新版 领跑娱乐棋牌官方版 A6娱乐 唯一棋牌官方版 679棋牌 588qp棋牌旧版本 燕晋麻将 蓝月娱乐棋牌官方版 889棋牌官方版 口袋棋牌2933 虎牙棋牌官网版 太阳棋牌旧版 291娱乐棋牌官网版 济南震东棋牌最新版 盛世棋牌娱乐棋牌 虎牙棋牌手机版 889棋牌4.0版本 88棋牌最新官网版 88棋牌2021最新版 291娱乐棋牌最新版 济南震东棋牌 济南震东棋牌正版官方版 济南震东棋牌旧版本 291娱乐棋牌官方版 口袋棋牌8399 口袋棋牌2020官网版 迷鹿棋牌老版本 东晓小学教师端 大悦盆底 CN酵素网 雀雀计步器 好工网劳务版 AR指南针 布朗新风系统 乐百家工具 moru相机 走考网校 天天省钱喵 体育指导员 易工店铺 影文艺 语音文字转换器