【根本】2016徐教员大数据之Spark视频教程 33课时 课程先容: Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP尝试室)所开源的类Hadoop MapReduce的通用并行框架,Spark,具有Hadoop MapReduce所具有的优点;但分歧于MapReduce的是Job中心输出成果可以保存在内存中,从而不再需要读写HDFS,是以Spark能更好地适用于数据挖掘与机械进修等需要迭代的MapReduce的算法。课程讲的比力根本,合适边学边脱手理论。 课程时长: 总共33课时,两个星期可以把握。 合适学员: 需要一定的Hadoop、java、scala、linux根本。 课程目录: 01.Spark简介 00:03:19 02.Spark预编译版本下载安装与启动 00:15:49 03.Spark体验shell操纵与wc操纵与RDD先容 00:20:40 04.Spark经过Maven停止源码编译安装 00:25:24 05.Spark搭建Maven当地仓库办事器 00:23:39 06.Spark经过当地Maven仓库办事器停止编译以及停止描写文件的设备 00:08:25 07.Spark官方doc的宏观描写和上风说明 00:10:29 08.Spark自力集群形式摆设和启动 00:32:06 09.Spark Master和Worker的webui检察以及FIFO作业调剂讲授 00:09:43 10.Spark自力集群形式端口点窜 00:11:16 11.Spark shell利用于addFile 00:24:37 12.Spark法式build的宏观先容 00:03:24 13.经过交互形式初始化Maven项目 00:11:10 14.经过参数指定方式间接初始化Maven项目 00:04:19 15.预备java源文件到自己的源码包中 00:04:43 16.设备pom.xml文件依靠插件以及与自在仓库目录树的对应关系 00:08:46 17.利用mvn package指令停止编译并停止打包与自在仓库目录树的对应关系 1 00:05:09 18.利用java指令增加spark类库运转Spark法式 00:05:21 19.利用maven的exec履行插件运转java法式 00:05:44 20.设置eclipse的maven插件利用当地maven仓库办事器 00:04:38 21.eclipse之下maven项目标设置编译运转 00:16:33 22.eclipse之Scala插件的卸载与安装 00:05:02 23.eclipse下构建Scala法式以及运转 00:02:45 24.经过Scalac号令手动编译scala法式并履行 00:13:16 25.号令行下经过maven编译运转Scala法式 00:10:15 26.eclipse下经过maven-scala插件停止Spark(Scala版)利用的开辟 00:05:59 27.建立SparkContext简介与情况预备 00:04:59 28.利用Scala建立SparkContext工具以及conf设置和调试 00:11:32 29.利用Java建立SparkContext工具以及元数据先容 00:11:30 30.利用Java建立Rdd工具并在eclipse运转 00:04:40 31.利用Scala建立Rdd工具并在eclipse调试散布式利用 00:17:09 32.addFile方式的利用与常见毛病 00:21:53 33.flatMap函数处置csv文件停止扁平化RDD处置 00:21:01 课程下载: |
欢迎光临 IT视频教程资源网 (https://pandasvpn.top/) | Powered by Discuz! X3.2 |