对Spark的进一步理解

Spark 已经被使用得非常广泛了,最近看到某些公司招聘时对Scala的要求及对Spark的理解,对Hadoop的要求已经退居其次,其成熟程度由此可见一斑。

Spark作为一个执行引擎,使用了一个很迷惑人的编程抽象RDD(resilient distributed dataset),并且说其具有容错的特性,但要意识到数据真正的可靠性是依赖存储层的,试想Spark的某个节点上的数据是没有副本的,那么这个节点宕机后,其上的数据是无法恢复的。当经过这些思考后,对分层的设计思想的认识就更深了,当存储层解决好了可靠性,上层就可以不用考虑,只管优化计算就好了,从这个层面上看,Spark就是通过最大限度地使用内存以提速的一个MR优化,此外提供了丰富易用的API。

另外AMPLab中的人讲故事,运用语言的能力确实很强。

发表评论

电子邮件地址不会被公开。 必填项已用*标注