2016尚学堂云计算spark和kafka视频教程

admin · 发表于 2017-10-8 11:48:00

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP尝试室)所开源的类Hadoop MapReduce的通用并行框架，Spark，具有Hadoop MapReduce所具有的优点;但分歧于MapReduce的是Job中心输出成果可以保存在内存中，从而不再需要读写HDFS，是以Spark能更好地适用于数据挖掘与机械进修等需要迭代的MapReduce的算法。
Spark 是一种与 Hadoop 类似的开源集群计较情况，可是两者之间还存在一些分歧之处，这些有用的分歧之处使 Spark 在某些工作负载方面表示得加倍优越，换句话说，Spark 启用了内存散布数据集，除了可以供给交互式查询外，它还可以优化迭代工作负载。
Spark 是在 Scala 说话中实现的，它将 Scala 用作其利用法式框架。与 Hadoop 分歧，Spark 和 Scala 可以慎麋集成，其中的 Scala 可以像操纵当地调集工具一样轻松地操纵散布式数据集。
虽然建立 Spark 是为了支持散布式数据集上的迭代作业，可是现实上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并交运转。经过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 尝试室 (Algorithms, Machines, and People Lab) 开辟，可用来构建大型的、低提早的数据分析利用法式。

游客，如果您要查看本帖隐藏内容请回复

hadoop spark kafka, spark kafka python, spark kafka 整合, spark kafka 版本匹配, kafka教程