Spark 2.0全套从入门到精通在线播放

课程列表
课程详情

002_课程介绍特色与价值
003_1Scala编程详解基础语法
003_2Scala编程详解基础语法
004_Scala编程详解条件控制与循环
005_Scala编程详解函数入门
006_Scala编程详解函数入门之默认参数和带名参数
007_Scala编程详解函数入门之变长参数
008_Scala编程详解函数入门之过程lazy值和异常
009_1Scala编程详解数组操作之Array、ArrayBuffer以及遍历数组
009_2Scala编程详解数组操作之Array、ArrayBuffer以及遍历数组
010_Scala编程详解数组操作之数组转换
011_Scala编程详解Map与Tuple
012_Scala编程详解面向对象编程之类
013_Scala编程详解面向对象编程之对象
014_Scala编程详解面向对象编程之继承
015_Scala编程详解面向对象编程之Trait
016_Scala编程详解函数式编程
017_Scala编程详解函数式编程之集合操作
018_Scala编程详解模式匹配
019_Scala编程详解类型参数
020_Scala编程详解隐式转换与隐式参数
021_Scala编程详解Actor入门
022_课程环境搭建CentOS65集群搭建
023_课程环境搭建Hadoop241集群搭建
024_课程环境搭建Hive013搭建
025_课程环境搭建ZooKeeper345集群搭建
026_课程环境搭建kafka_292-081集群搭建
027_课程环境搭建Spark130集群搭建
028_Spark核心编程Spark基本工作原理与RDD
029_1使用Java开发本地测试的wordcount程序
029_2将java开发的wordcount程序提交到spark集群上运行
029_3使用scala开发wordcount程序
029_4使用spark-shell开发wordcount程序
029_5SparkUI补充说明
029_6spark-submit中的--master选项的补充说明(重要，必看!)
030_Spark核心编程wordcount程序原理深度剖析
031_Spark核心编程Spark架构原理
032_Spark核心编程创建RDD(集合本地文件、HDFS文件)
033_1transformation和action讲解与原理剖析
033_2案例统计每行出现的次数(操作key-value对)
033_3常用transformation和action操作概览
034_1map案例实战将集合中的数字乘以2
034_2filter案例实战过滤集合中的偶数
034_3flatMap案例实战将文本行拆分为单词
034_4groupByKey案例实战将每个班级的成绩进行分组
034_5reduceByKey案例实战统计每个班级的总分
034_6sortByKey案例实战按照学生成绩进行排序
034_7join和cogroup案例实战打印学生成绩
035_Spark核心编程action操作开发实战
036_Spark核心编程RDD持久化详解
037_Spark核心编程共享变量(BroadcastVariable和Accumulator)
038_Spark核心编程高级编程之基于排序机制的wordcount程序
039_1使用Java实现二次排序
039_2使用Scala实现二次排序
040_1获取文本内最大的前3个数字
040_2获取每个班级排名前3的成绩(分组取topn)
041_Spark内核源码深度剖析Spark内核架构深度剖析
042_Spark内核源码深度剖析宽依赖与窄依赖深度剖析
043_1Spark内核源码深度剖析基于Yarn的两种提交模式深度剖析
043_2基于yarn的提交模式的spark-envsh配置补充
044_1SparkContext原理剖析
044_2SparkContext源码分析
045_Spark内核源码深度剖析Master主备切换机制原理剖析与源码分析
046_Spark内核源码深度剖析Master注册机制原理剖析与源码分析
047_Spark内核源码深度剖析Master状态改变处理机制原理剖析与源码分析
048_Spark内核源码深度剖析Master资源调度算法原理剖析与源码分析
049_Spark内核源码深度剖析Worker原理剖析与源码分析
050_Spark内核源码深度剖析job触发流程原理剖析与源码分析
051_1stage划分算法原理剖析
051_2DAGScheduler源码分析(stage划分算法、task最佳位置计算算法)
052_Spark内核源码深度剖析TaskScheduler原理剖析与源码分析
053_Spark内核源码深度剖析Executor原理剖析与源码分析
054_1Task原理剖析
054_2Task源码分析
055_1普通Shuffle操作的原理剖析
055_2优化后的Shuffle操作的原理剖析
055_3Shuffle读写源码分析
056_BlockManager原理剖析(1)
056_BlockManager源码分析(2)
057_CacheManager原理剖析(1)
057_CacheManager源码分析(2)
058_Spark内核源码深度剖析Checkpoint原理剖析
059_Spark性能优化性能优化概览
060_Spark性能优化诊断内存的消耗
061_Spark性能优化高性能序列化类库
062_Spark性能优化优化数据结构
063_Spark性能优化对多次使用的RDD进行持久化或Checkpoint
064_Spark性能优化使用序列化的持久化级别
065_Spark性能优化Java虚拟机垃圾回收调优
066_Spark性能优化提高并行度
067_Spark性能优化广播共享数据
068_Spark性能优化数据本地化
069_Spark性能优化reduceByKey和groupByKey
070_Spark性能优化shuffle性能优化
071_1Spark130升级151的原因说明
071_2Spark14x和15x版本的新特性
071_3Spark151源码编译
071_4Spark151集群搭建
072_SparkSQL前世今生
073_SparkSQLDataFrame的使用
074_1RDD转换为DataFrame的概览
074_2使用反射方式将RDD转换为DataFrame
075_1使用Java进行转换
075_2使用Scala进行转换
076_通用的load和save操作
077_SparkSQLParquet数据源之使用编程方式加载数据
078_SparkSQLParquet数据源之自动分区推断
079_SparkSQLParquet数据源之合并元数据
080_1案例实战之查询分数大于80分的学生信息(Java)
080_2案例实战之查询分数大于80分的学生信息(Scala)
081_SparkSQLHive数据源复杂综合案例实战
082_SparkSQLJDBC数据源复杂综合案例实战
083_SparkSQL内置函数以及每日uv销售额统计案例实战
084_SparkSQL开窗函数以及top3销售额统计案例实战
085_SparkSQLUDF自定义函数实战
086_SparkSQLUDAF自定义聚合函数实战
087_1SparkSQL工作原理剖析以及性能优化
087_2补充说明
087_3SparkSQL延伸知识之HiveOnSpark
087_4核心源码深度剖析(DataFramelazy特性Optimizer优化策略)
087_5每日top3热点搜索词统计案例实战
088_SparkStreaming大数据实时计算介绍
089_SparkStreaming基本工作原理
090_SparkStreaming与Storm的对比分析
091_1SparkStreaming实时wordcount程序开发(Java)
091_2SparkStreaming实时wordcount程序开发(Scala)
092_SparkStreamingStreamingContext详解
093_SparkStreaming输入DStream和Receiver详解
094_SparkStreaming输入DStream之基础数据源以及基于HDFS的实时wordcount程序
095_输入DStream之Kafka数据源实战(基于Receiver的方式)
096_输入DStream之Kafka数据源实战(基于Direct的方式)
097_DStream的transformation操作概览
098_updateStateByKey以及基于缓存的实时wordcount程序
099_transform以及广告计费日志实时黑名单过滤案例实战
100_window滑动窗口以及热点搜索词滑动统计案例实战
101_DStream的output操作以及foreachRDD详解
102_与SparkSQL结合使用之top3热门商品实时统计案例实战
103_缓存与持久化机制
104_Checkpoint机制
105_部署升级和监控应用程序
106_容错机制以及事务语义详解
107_架构原理深度剖析
108_StreamingContext初始化与Receiver启动原理剖析与源码分析
109_1数据接收原理剖析
109_2数据接收源码剖析
110_数据处理原理剖析与源码分析(block与batch关系透彻解析)
111_性能调优
112_课程总结
113_Scala编程进阶：Scaladoc的使用
114_Scala编程进阶：跳出循环语句的3种方法
115_Scala编程进阶：多维数组、Java数组与Scala数组的隐式转换
116_Scala编程进阶：Tuple拉链操作、JavaMap与ScalaMap的隐式转换
117_Scala编程进阶：扩大内部类作用域的2种方法、内部类获取外部类引用
118_Scala编程进阶：package与import实战详解
119_Scala编程进阶：重写field的提前定义、Scala继承层级、对象相等性
120_Scala编程进阶：文件操作实战详解
121_Scala编程进阶：偏函数实战详解
122_Scala编程进阶：执行外部命令
123_Scala编程进阶：正则表达式支持
124_Scala编程进阶：提取器实战详解
125_Scala编程进阶：样例类的提取器实战详解
126_Scala编程进阶：只有一个参数的提取器
127_Scala编程进阶：注解实战详解
128_Scala编程进阶：常用注解介绍
129_Scala编程进阶：XML基础操作实战详解
130_Scala编程进阶：XML中嵌入scala代码
131_Scala编程进阶：XML修改元素实战详解
132_Scala编程进阶：XML加载和写入外部文档
133_Scala编程进阶：集合元素操作
134_Scala编程进阶：集合的常用操作方法
135_Scala编程进阶：map、flatMap、collect、foreach实战详解
136_Scala编程进阶：reduce和fold实战详解1
136_Scala编程进阶：reduce和fold实战详解2
137_环境搭建-CentOS64虚拟机安装
138_环境搭建-Hadoop25伪分布式集群搭建
139_环境搭建-Spark15伪分布式集群搭建
140_第一次课程升级大纲介绍以及要点说明
141_Spark核心编程进阶-Spark集群架构概览
142_Spark核心编程进阶-Spark集群架构的几点特别说明
143_Spark核心编程进阶-Spark的核心术语讲解
144_Spark核心编程进阶-SparkStandalone集群架构
145_Spark核心编程进阶-单独启动master和worker脚本详解
146_Spark核心编程进阶-实验：单独启动master和worker进程
147_Spark核心编程进阶-worker节点配置以及spark-evnsh参数详解
148_Spark核心编程进阶-实验：local模式提交spark作业
149_Spark核心编程进阶-实验：standaloneclient模式提交spark作业
150_Spark核心编程进阶-实验：standalonecluster模式提交spark作业
151_Spark核心编程进阶-standalone模式下的多作业资源调度
152_Spark核心编程进阶-standalone模式下的作业监控与日志记录
153_Spark核心编程进阶-实验：运行中作业监控以及手工打印日志
154_Spark核心编程进阶-yarn-client模式原理讲解
155_Spark核心编程进阶-yarn-cluster模式原理讲解
156_Spark核心编程进阶-实验：yarn-client模式提交spark作业
157_Spark核心编程进阶-yarn模式下日志查看详解
157_Spark核心编程进阶-yarn模式下日志查看详解_.flv
158_Spark核心编程进阶-yarn模式相关参数详解
159_Spark核心编程进阶-spark工程打包以及spark-submit详解
160_Spark核心编程进阶-spark-submit示例以及基础参数讲解
161_Spark核心编程进阶-实验：spark-submit最简单版本提交spark作业
162_Spark核心编程进阶-实验：spark-submit给main类传递参数
163_Spark核心编程进阶-spark-submit多个示例以及常用参数详解
164_Spark核心编程进阶-SparkConf、spark-submit以及spark-defaultsconf
165_Spark核心编程进阶-spark-submit配置第三方依赖
166_Spark核心编程进阶-spark算子的闭包原理详解
167_Spark核心编程进阶-实验：对闭包变量进行累加操作的无效现象
168_Spark核心编程进阶-实验：在算子内打印数据的无法看到现象
169_Spark核心编程进阶-mapPartitions以及学生成绩查询案例
170_Spark核心编程进阶-mapPartitionsWithIndex以开学分班案例
171_Spark核心编程进阶-sample以及公司年会抽奖案例
172_Spark核心编程进阶-union以及公司部门合并案例
173_Spark核心编程进阶-intersection以及公司跨多项目人员查询案例
174_Spark核心编程进阶-distinct以及网站uv统计案例
175_Spark核心编程进阶-aggregateByKey以及单词计数案例
176_Spark核心编程进阶-cartesian以及服装搭配案例
177_Spark核心编程进阶-coalesce以及公司部门整合案例
178_Spark核心编程进阶-repartition以及公司新增部门案例
179_Spark核心编程进阶-takeSampled以及公司年会抽奖案例
180_Spark核心编程进阶-shuffle操作原理详解
181_Spark核心编程进阶-shuffle操作过程中进行数据排序
182_Spark核心编程进阶-会触发shuffle操作的算子
183_Spark核心编程进阶-shuffle操作对性能消耗的原理详解
184_Spark核心编程进阶-shuffle操作所有相关参数详解以及性能调优
185_Spark核心编程进阶-综合案例1：移动端app访问流量日志分析
186_Spark核心编程进阶-综合案例1：日志文件格式分析
187_Spark核心编程进阶-综合案例1：读取日志文件并创建RDD
188_Spark核心编程进阶-综合案例1：创建自定义的可序列化类
189_Spark核心编程进阶-综合案例1：将RDD映射为key-value格式
190_Spark核心编程进阶-综合案例1：基于deviceID进行聚合操作
191_Spark核心编程进阶-综合案例1：自定义二次排序key类
192_Spark核心编程进阶-综合案例1：将二次排序key映射为RDD的key
193_Spark核心编程进阶-综合案例1：执行二次排序以及获取top10数据
194_Spark核心编程进阶-综合案例1：程序运行测试以及代码调试
195_Spark核心编程进阶-部署第二台CentOS机器
196_Spark核心编程进阶-部署第二个Hadoop节点
197_Spark核心编程进阶-将第二个Hadoop节点动态加入集群
198_Spark核心编程进阶-使用yarn-client和yarn-cluster提交spark作业
199_Spark内核原理进阶-union算子内部实现原理剖析
200_Spark内核原理进阶-groupByKey算子内部实现原理剖析
201_Spark内核原理进阶-reduceByKey算子内部实现原理剖析
202_Spark内核原理进阶-distinct算子内部实现原理剖析
203_Spark内核原理进阶-cogroup算子内部实现原理剖析
204_Spark内核原理进阶-intersection算子内部实现原理剖析
205_Spark内核原理进阶-join算子内部实现原理剖析
206_Spark内核原理进阶-sortByKey算子内部实现原理剖析
207_Spark内核原理进阶-cartesian算子内部实现原理剖析
208_Spark内核原理进阶-coalesce算子内部实现原理剖析
209_Spark内核原理进阶-repartition算子内部实现原理剖析
210_SparkSQL实战开发进阶-Hive013安装与测试
211_SparkSQL实战开发进阶-ThriftJDBC、ODBCServer
212_SparkSQL实战开发进阶-CLI命令行使用
213_SparkSQL实战开发进阶-综合案例2：新闻网站关键指标离线统计
214_SparkSQL实战开发进阶-综合案例2：页面pv统计以及排序
215_SparkSQL实战开发进阶-综合案例2：页面uv统计以及排序
216_SparkSQL实战开发进阶-综合案例2：新用户注册比例统计
217_Spark SQL实战开发进阶-综合案例2：用户跳出率统计
218_SparkSQL实战开发进阶-综合案例2：版块热度排行榜统计
219_SparkSQL实战开发进阶-综合案例2：测试与调试
220_SparkStreaming实战开发进阶-flume安装
221_SparkStreaming实战开发进阶-接收flume实时数据流
222_SparkStreaming实战开发进阶-接收flume实时数据流
223_SparkStreaming实战开发进阶-高阶技术之自定义Receiver
223_SparkStreaming实战开发进阶-高阶技术之自定义Receiver(结束)
224_SparkStreaming实战开发进阶-kafka安装
225_SparkStreaming实战开发进阶-综合案例3
226_SparkStreaming实战开发进阶-综合案例3
227_SparkStreaming实战开发进阶-综合案例3
228_SparkStreaming实战开发进阶-综合案例3：注册用户数实时统计
229_SparkStreaming实战开发进阶-综合案例3
230_SparkStreaming实战开发进阶-综合案例3
231_Spark运维管理进阶-基于ZooKeeper实现HA高可用性以及自动主备切换
232_Spark运维管理进阶-实验：基于ZooKeeper实现HA高可用性以及自动主备切换
233_Spark运维管理进阶-基于文件系统实现HA高可用性以及手动主备切换
234_Spark运维管理进阶-实验：基于文件系统实现HA高可用性以及手动主备切换
235_Spark运维管理进阶-作业监控-SparkWebUI以及监控实验
236_Spark运维管理进阶-作业监控
237_Spark运维管理进阶-作业监控
238_Spark运维管理进阶-作业监控
239_Spark运维管理进阶-作业监控
240_Spark运维管理进阶-作业资源调度
241_Spark运维管理进阶-作业资源调度
242_Spark运维管理进阶-作业资源调度
243_Spark运维管理进阶-作业资源调度
244_Spark运维管理进阶-作业资源调度
245_Spark运维管理进阶-作业资源调度
246_新特性介绍_rec
247_新特性介绍-易用性：标准化SQL支持以及更合理的API_rec
248_新特性介绍-高性能：让Spark作为编译器来运行_rec
249_新特性介绍-智能化：Structured Streaming介绍_rec
250_新特性介绍-Spark 1.x的Volcano Iterator Model技术缺陷分析 _rec
251_新特性介绍-whole-stage code generation技术和vectorization技术_rec
252_Spark 2.x与1.x对比以及分析、学习建议以及使用建议_rec
253_课程环境搭建：虚拟机、CentOS、Hadoop、Spark等_rec
254_开发环境搭建：Eclipse+Maven+Scala+Spark_rec
255_SparkSession、Dataframe、Dataset开发入门(1)_rec
255_SparkSession、Dataframe、Dataset开发入门(2)_rec
256_Dataset开发详解-初步体验untypd操作案例：计算部门平均年龄与薪资 _rec
257_Dataset开发详解-action操作：collect、count、foreach、reduce等_rec
258_Dataset开发详解-基础操作：持久化、临时视图、ds与df互转换、写数据等_rec
259_Dataset开发详解-typed操作：coalesce、repartition 不加密
260_Dataset开发详解-typed操作：distinct、dropDuplicates_rec
261_Dataset开发详解-typed操作：except、filter、intersect_rec
262_Dataset开发详解-typed操作：map、flatMap、mapPartitions_rec
263_Dataset开发详解-typed操作：joinWith _rec
264_Dataset开发详解-typed操作：sort_rec
265_Dataset开发详解-typed操作：randomSplit、sample_rec
266_Dataset开发详解-untyped操作：select、where、groupBy、agg、col、join _rec
267_Dataset开发详解-聚合函数：avg、sum、max、min、count、countDistinct _rec
268_Dataset开发详解-聚合函数：collect_list、collect_set_rec
269_Dataset开发详解-其他常用函数_rec
270_Structured Streaming：深入浅出的介绍_rec
271_Structured Streaming：wordcount入门案例_rec
272_Structured Streaming：编程模型_rec
273_Structured Streaming：创建流式的dataset和dataframe_rec
274_Structured Streaming：对流式的dataset和dataframe执行计算操作_rec
275_Structured Streaming：output mode、sink以及foreach sink详解_rec
276_Structured Streaming：管理streaming query_rec
277_Structured Streaming：基于checkpoint的容错机制_rec
278_Spark面试、简历中的项目编写以及实际生产环境的集群和资源配置等_rec

不需任何基础，带您无痛入门Spark，内容包括Spark集群的构建、Spark架构设计、RDD、Shark/SparkSQL、机器学习、图计算、实时流处理、Spark on Yarn、JobServer、Spark测试、Spark优化等。Spark是第一个脱胎于该转变的快速、通用分布式计算范式，并且很快流行起来。Spark使用函数式编程范式扩展了MapReduce模型以支持更多计算类型，可以涵盖广泛的工作流，这些工作流之前被实现为Hadoop之上的特殊系统。Spark使用内存缓存来提升性能，因此进行交互式分析也足够快速(就如同使用Python解释器，与集群进行交互一样)。缓存同时提升了迭代算法的性能，这使得Spark非常适合数据理论任务，特别是机器学习。

致富彩票

Spark 2.0全套从入门到精通

新东方大咖精品课

初、高中1200讲精品课程

最新课程

热门课程