- 002_课程介绍特色与价值
- 003_1Scala编程详解基础语法
- 003_2Scala编程详解基础语法
- 004_Scala编程详解条件控制与循环
- 005_Scala编程详解函数入门
- 006_Scala编程详解函数入门之默认参数和带名参数
- 007_Scala编程详解函数入门之变长参数
- 008_Scala编程详解函数入门之过程lazy值和异常
- 009_1Scala编程详解数组操作之Array、ArrayBuffer以及遍历数组
- 009_2Scala编程详解数组操作之Array、ArrayBuffer以及遍历数组
- 010_Scala编程详解数组操作之数组转换
- 011_Scala编程详解Map与Tuple
- 012_Scala编程详解面向对象编程之类
- 013_Scala编程详解面向对象编程之对象
- 014_Scala编程详解面向对象编程之继承
- 015_Scala编程详解面向对象编程之Trait
- 016_Scala编程详解函数式编程
- 017_Scala编程详解函数式编程之集合操作
- 018_Scala编程详解模式匹配
- 019_Scala编程详解类型参数
- 020_Scala编程详解隐式转换与隐式参数
- 021_Scala编程详解Actor入门
- 022_课程环境搭建CentOS65集群搭建
- 023_课程环境搭建Hadoop241集群搭建
- 024_课程环境搭建Hive013搭建
- 025_课程环境搭建ZooKeeper345集群搭建
- 026_课程环境搭建kafka_292-081集群搭建
- 027_课程环境搭建Spark130集群搭建
- 028_Spark核心编程Spark基本工作原理与RDD
- 029_1使用Java开发本地测试的wordcount程序
- 029_2将java开发的wordcount程序提交到spark集群上运行
- 029_3使用scala开发wordcount程序
- 029_4使用spark-shell开发wordcount程序
- 029_5SparkUI补充说明
- 029_6spark-submit中的--master选项的补充说明(重要,必看!)
- 030_Spark核心编程wordcount程序原理深度剖析
- 031_Spark核心编程Spark架构原理
- 032_Spark核心编程创建RDD(集合本地文件、HDFS文件)
- 033_1transformation和action讲解与原理剖析
- 033_2案例统计每行出现的次数(操作key-value对)
- 033_3常用transformation和action操作概览
- 034_1map案例实战将集合中的数字乘以2
- 034_2filter案例实战过滤集合中的偶数
- 034_3flatMap案例实战将文本行拆分为单词
- 034_4groupByKey案例实战将每个班级的成绩进行分组
- 034_5reduceByKey案例实战统计每个班级的总分
- 034_6sortByKey案例实战按照学生成绩进行排序
- 034_7join和cogroup案例实战打印学生成绩
- 035_Spark核心编程action操作开发实战
- 036_Spark核心编程RDD持久化详解
- 037_Spark核心编程共享变量(BroadcastVariable和Accumulator)
- 038_Spark核心编程高级编程之基于排序机制的wordcount程序
- 039_1使用Java实现二次排序
- 039_2使用Scala实现二次排序
- 040_1获取文本内最大的前3个数字
- 040_2获取每个班级排名前3的成绩(分组取topn)
- 041_Spark内核源码深度剖析Spark内核架构深度剖析
- 042_Spark内核源码深度剖析宽依赖与窄依赖深度剖析
- 043_1Spark内核源码深度剖析基于Yarn的两种提交模式深度剖析
- 043_2基于yarn的提交模式的spark-envsh配置补充
- 044_1SparkContext原理剖析
- 044_2SparkContext源码分析
- 045_Spark内核源码深度剖析Master主备切换机制原理剖析与源码分析
- 046_Spark内核源码深度剖析Master注册机制原理剖析与源码分析
- 047_Spark内核源码深度剖析Master状态改变处理机制原理剖析与源码分析
- 048_Spark内核源码深度剖析Master资源调度算法原理剖析与源码分析
- 049_Spark内核源码深度剖析Worker原理剖析与源码分析
- 050_Spark内核源码深度剖析job触发流程原理剖析与源码分析
- 051_1stage划分算法原理剖析
- 051_2DAGScheduler源码分析(stage划分算法、task最佳位置计算算法)
- 052_Spark内核源码深度剖析TaskScheduler原理剖析与源码分析
- 053_Spark内核源码深度剖析Executor原理剖析与源码分析
- 054_1Task原理剖析
- 054_2Task源码分析
- 055_1普通Shuffle操作的原理剖析
- 055_2优化后的Shuffle操作的原理剖析
- 055_3Shuffle读写源码分析
- 056_BlockManager原理剖析(1)
- 056_BlockManager源码分析(2)
- 057_CacheManager原理剖析(1)
- 057_CacheManager源码分析(2)
- 058_Spark内核源码深度剖析Checkpoint原理剖析
- 059_Spark性能优化性能优化概览
- 060_Spark性能优化诊断内存的消耗
- 061_Spark性能优化高性能序列化类库
- 062_Spark性能优化优化数据结构
- 063_Spark性能优化对多次使用的RDD进行持久化或Checkpoint
- 064_Spark性能优化使用序列化的持久化级别
- 065_Spark性能优化Java虚拟机垃圾回收调优
- 066_Spark性能优化提高并行度
- 067_Spark性能优化广播共享数据
- 068_Spark性能优化数据本地化
- 069_Spark性能优化reduceByKey和groupByKey
- 070_Spark性能优化shuffle性能优化
- 071_1Spark130升级151的原因说明
- 071_2Spark14x和15x版本的新特性
- 071_3Spark151源码编译
- 071_4Spark151集群搭建
- 072_SparkSQL前世今生
- 073_SparkSQLDataFrame的使用
- 074_1RDD转换为DataFrame的概览
- 074_2使用反射方式将RDD转换为DataFrame
- 075_1使用Java进行转换
- 075_2使用Scala进行转换
- 076_通用的load和save操作
- 077_SparkSQLParquet数据源之使用编程方式加载数据
- 078_SparkSQLParquet数据源之自动分区推断
- 079_SparkSQLParquet数据源之合并元数据
- 080_1案例实战之查询分数大于80分的学生信息(Java)
- 080_2案例实战之查询分数大于80分的学生信息(Scala)
- 081_SparkSQLHive数据源复杂综合案例实战
- 082_SparkSQLJDBC数据源复杂综合案例实战
- 083_SparkSQL内置函数以及每日uv销售额统计案例实战
- 084_SparkSQL开窗函数以及top3销售额统计案例实战
- 085_SparkSQLUDF自定义函数实战
- 086_SparkSQLUDAF自定义聚合函数实战
- 087_1SparkSQL工作原理剖析以及性能优化
- 087_2补充说明
- 087_3SparkSQL延伸知识之HiveOnSpark
- 087_4核心源码深度剖析(DataFramelazy特性Optimizer优化策略)
- 087_5每日top3热点搜索词统计案例实战
- 088_SparkStreaming大数据实时计算介绍
- 089_SparkStreaming基本工作原理
- 090_SparkStreaming与Storm的对比分析
- 091_1SparkStreaming实时wordcount程序开发(Java)
- 091_2SparkStreaming实时wordcount程序开发(Scala)
- 092_SparkStreamingStreamingContext详解
- 093_SparkStreaming输入DStream和Receiver详解
- 094_SparkStreaming输入DStream之基础数据源以及基于HDFS的实时wordcount程序
- 095_输入DStream之Kafka数据源实战(基于Receiver的方式)
- 096_输入DStream之Kafka数据源实战(基于Direct的方式)
- 097_DStream的transformation操作概览
- 098_updateStateByKey以及基于缓存的实时wordcount程序
- 099_transform以及广告计费日志实时黑名单过滤案例实战
- 100_window滑动窗口以及热点搜索词滑动统计案例实战
- 101_DStream的output操作以及foreachRDD详解
- 102_与SparkSQL结合使用之top3热门商品实时统计案例实战
- 103_缓存与持久化机制
- 104_Checkpoint机制
- 105_部署升级和监控应用程序
- 106_容错机制以及事务语义详解
- 107_架构原理深度剖析
- 108_StreamingContext初始化与Receiver启动原理剖析与源码分析
- 109_1数据接收原理剖析
- 109_2数据接收源码剖析
- 110_数据处理原理剖析与源码分析(block与batch关系透彻解析)
- 111_性能调优
- 112_课程总结
- 113_Scala编程进阶:Scaladoc的使用
- 114_Scala编程进阶:跳出循环语句的3种方法
- 115_Scala编程进阶:多维数组、Java数组与Scala数组的隐式转换
- 116_Scala编程进阶:Tuple拉链操作、JavaMap与ScalaMap的隐式转换
- 117_Scala编程进阶:扩大内部类作用域的2种方法、内部类获取外部类引用
- 118_Scala编程进阶:package与import实战详解
- 119_Scala编程进阶:重写field的提前定义、Scala继承层级、对象相等性
- 120_Scala编程进阶:文件操作实战详解
- 121_Scala编程进阶:偏函数实战详解
- 122_Scala编程进阶:执行外部命令
- 123_Scala编程进阶:正则表达式支持
- 124_Scala编程进阶:提取器实战详解
- 125_Scala编程进阶:样例类的提取器实战详解
- 126_Scala编程进阶:只有一个参数的提取器
- 127_Scala编程进阶:注解实战详解
- 128_Scala编程进阶:常用注解介绍
- 129_Scala编程进阶:XML基础操作实战详解
- 130_Scala编程进阶:XML中嵌入scala代码
- 131_Scala编程进阶:XML修改元素实战详解
- 132_Scala编程进阶:XML加载和写入外部文档
- 133_Scala编程进阶:集合元素操作
- 134_Scala编程进阶:集合的常用操作方法
- 135_Scala编程进阶:map、flatMap、collect、foreach实战详解
- 136_Scala编程进阶:reduce和fold实战详解1
- 136_Scala编程进阶:reduce和fold实战详解2
- 137_环境搭建-CentOS64虚拟机安装
- 138_环境搭建-Hadoop25伪分布式集群搭建
- 139_环境搭建-Spark15伪分布式集群搭建
- 140_第一次课程升级大纲介绍以及要点说明
- 141_Spark核心编程进阶-Spark集群架构概览
- 142_Spark核心编程进阶-Spark集群架构的几点特别说明
- 143_Spark核心编程进阶-Spark的核心术语讲解
- 144_Spark核心编程进阶-SparkStandalone集群架构
- 145_Spark核心编程进阶-单独启动master和worker脚本详解
- 146_Spark核心编程进阶-实验:单独启动master和worker进程
- 147_Spark核心编程进阶-worker节点配置以及spark-evnsh参数详解
- 148_Spark核心编程进阶-实验:local模式提交spark作业
- 149_Spark核心编程进阶-实验:standaloneclient模式提交spark作业
- 150_Spark核心编程进阶-实验:standalonecluster模式提交spark作业
- 151_Spark核心编程进阶-standalone模式下的多作业资源调度
- 152_Spark核心编程进阶-standalone模式下的作业监控与日志记录
- 153_Spark核心编程进阶-实验:运行中作业监控以及手工打印日志
- 154_Spark核心编程进阶-yarn-client模式原理讲解
- 155_Spark核心编程进阶-yarn-cluster模式原理讲解
- 156_Spark核心编程进阶-实验:yarn-client模式提交spark作业
- 157_Spark核心编程进阶-yarn模式下日志查看详解
- 157_Spark核心编程进阶-yarn模式下日志查看详解_.flv
- 158_Spark核心编程进阶-yarn模式相关参数详解
- 159_Spark核心编程进阶-spark工程打包以及spark-submit详解
- 160_Spark核心编程进阶-spark-submit示例以及基础参数讲解
- 161_Spark核心编程进阶-实验:spark-submit最简单版本提交spark作业
- 162_Spark核心编程进阶-实验:spark-submit给main类传递参数
- 163_Spark核心编程进阶-spark-submit多个示例以及常用参数详解
- 164_Spark核心编程进阶-SparkConf、spark-submit以及spark-defaultsconf
- 165_Spark核心编程进阶-spark-submit配置第三方依赖
- 166_Spark核心编程进阶-spark算子的闭包原理详解
- 167_Spark核心编程进阶-实验:对闭包变量进行累加操作的无效现象
- 168_Spark核心编程进阶-实验:在算子内打印数据的无法看到现象
- 169_Spark核心编程进阶-mapPartitions以及学生成绩查询案例
- 170_Spark核心编程进阶-mapPartitionsWithIndex以开学分班案例
- 171_Spark核心编程进阶-sample以及公司年会抽奖案例
- 172_Spark核心编程进阶-union以及公司部门合并案例
- 173_Spark核心编程进阶-intersection以及公司跨多项目人员查询案例
- 174_Spark核心编程进阶-distinct以及网站uv统计案例
- 175_Spark核心编程进阶-aggregateByKey以及单词计数案例
- 176_Spark核心编程进阶-cartesian以及服装搭配案例
- 177_Spark核心编程进阶-coalesce以及公司部门整合案例
- 178_Spark核心编程进阶-repartition以及公司新增部门案例
- 179_Spark核心编程进阶-takeSampled以及公司年会抽奖案例
- 180_Spark核心编程进阶-shuffle操作原理详解
- 181_Spark核心编程进阶-shuffle操作过程中进行数据排序
- 182_Spark核心编程进阶-会触发shuffle操作的算子
- 183_Spark核心编程进阶-shuffle操作对性能消耗的原理详解
- 184_Spark核心编程进阶-shuffle操作所有相关参数详解以及性能调优
- 185_Spark核心编程进阶-综合案例1:移动端app访问流量日志分析
- 186_Spark核心编程进阶-综合案例1:日志文件格式分析
- 187_Spark核心编程进阶-综合案例1:读取日志文件并创建RDD
- 188_Spark核心编程进阶-综合案例1:创建自定义的可序列化类
- 189_Spark核心编程进阶-综合案例1:将RDD映射为key-value格式
- 190_Spark核心编程进阶-综合案例1:基于deviceID进行聚合操作
- 191_Spark核心编程进阶-综合案例1:自定义二次排序key类
- 192_Spark核心编程进阶-综合案例1:将二次排序key映射为RDD的key
- 193_Spark核心编程进阶-综合案例1:执行二次排序以及获取top10数据
- 194_Spark核心编程进阶-综合案例1:程序运行测试以及代码调试
- 195_Spark核心编程进阶-部署第二台CentOS机器
- 196_Spark核心编程进阶-部署第二个Hadoop节点
- 197_Spark核心编程进阶-将第二个Hadoop节点动态加入集群
- 198_Spark核心编程进阶-使用yarn-client和yarn-cluster提交spark作业
- 199_Spark内核原理进阶-union算子内部实现原理剖析
- 200_Spark内核原理进阶-groupByKey算子内部实现原理剖析
- 201_Spark内核原理进阶-reduceByKey算子内部实现原理剖析
- 202_Spark内核原理进阶-distinct算子内部实现原理剖析
- 203_Spark内核原理进阶-cogroup算子内部实现原理剖析
- 204_Spark内核原理进阶-intersection算子内部实现原理剖析
- 205_Spark内核原理进阶-join算子内部实现原理剖析
- 206_Spark内核原理进阶-sortByKey算子内部实现原理剖析
- 207_Spark内核原理进阶-cartesian算子内部实现原理剖析
- 208_Spark内核原理进阶-coalesce算子内部实现原理剖析
- 209_Spark内核原理进阶-repartition算子内部实现原理剖析
- 210_SparkSQL实战开发进阶-Hive013安装与测试
- 211_SparkSQL实战开发进阶-ThriftJDBC、ODBCServer
- 212_SparkSQL实战开发进阶-CLI命令行使用
- 213_SparkSQL实战开发进阶-综合案例2:新闻网站关键指标离线统计
- 214_SparkSQL实战开发进阶-综合案例2:页面pv统计以及排序
- 215_SparkSQL实战开发进阶-综合案例2:页面uv统计以及排序
- 216_SparkSQL实战开发进阶-综合案例2:新用户注册比例统计
- 217_Spark SQL实战开发进阶-综合案例2:用户跳出率统计
- 218_SparkSQL实战开发进阶-综合案例2:版块热度排行榜统计
- 219_SparkSQL实战开发进阶-综合案例2:测试与调试
- 220_SparkStreaming实战开发进阶-flume安装
- 221_SparkStreaming实战开发进阶-接收flume实时数据流
- 222_SparkStreaming实战开发进阶-接收flume实时数据流
- 223_SparkStreaming实战开发进阶-高阶技术之自定义Receiver
- 223_SparkStreaming实战开发进阶-高阶技术之自定义Receiver(结束)
- 224_SparkStreaming实战开发进阶-kafka安装
- 225_SparkStreaming实战开发进阶-综合案例3
- 226_SparkStreaming实战开发进阶-综合案例3
- 227_SparkStreaming实战开发进阶-综合案例3
- 228_SparkStreaming实战开发进阶-综合案例3:注册用户数实时统计
- 229_SparkStreaming实战开发进阶-综合案例3
- 230_SparkStreaming实战开发进阶-综合案例3
- 231_Spark运维管理进阶-基于ZooKeeper实现HA高可用性以及自动主备切换
- 232_Spark运维管理进阶-实验:基于ZooKeeper实现HA高可用性以及自动主备切换
- 233_Spark运维管理进阶-基于文件系统实现HA高可用性以及手动主备切换
- 234_Spark运维管理进阶-实验:基于文件系统实现HA高可用性以及手动主备切换
- 235_Spark运维管理进阶-作业监控-SparkWebUI以及监控实验
- 236_Spark运维管理进阶-作业监控
- 237_Spark运维管理进阶-作业监控
- 238_Spark运维管理进阶-作业监控
- 239_Spark运维管理进阶-作业监控
- 240_Spark运维管理进阶-作业资源调度
- 241_Spark运维管理进阶-作业资源调度
- 242_Spark运维管理进阶-作业资源调度
- 243_Spark运维管理进阶-作业资源调度
- 244_Spark运维管理进阶-作业资源调度
- 245_Spark运维管理进阶-作业资源调度
- 246_新特性介绍_rec
- 247_新特性介绍-易用性:标准化SQL支持以及更合理的API_rec
- 248_新特性介绍-高性能:让Spark作为编译器来运行_rec
- 249_新特性介绍-智能化:Structured Streaming介绍_rec
- 250_新特性介绍-Spark 1.x的Volcano Iterator Model技术缺陷分析 _rec
- 251_新特性介绍-whole-stage code generation技术和vectorization技术_rec
- 252_Spark 2.x与1.x对比以及分析、学习建议以及使用建议_rec
- 253_课程环境搭建:虚拟机、CentOS、Hadoop、Spark等_rec
- 254_开发环境搭建:Eclipse+Maven+Scala+Spark_rec
- 255_SparkSession、Dataframe、Dataset开发入门(1)_rec
- 255_SparkSession、Dataframe、Dataset开发入门(2)_rec
- 256_Dataset开发详解-初步体验untypd操作案例:计算部门平均年龄与薪资 _rec
- 257_Dataset开发详解-action操作:collect、count、foreach、reduce等_rec
- 258_Dataset开发详解-基础操作:持久化、临时视图、ds与df互转换、写数据等_rec
- 259_Dataset开发详解-typed操作:coalesce、repartition 不加密
- 260_Dataset开发详解-typed操作:distinct、dropDuplicates_rec
- 261_Dataset开发详解-typed操作:except、filter、intersect_rec
- 262_Dataset开发详解-typed操作:map、flatMap、mapPartitions_rec
- 263_Dataset开发详解-typed操作:joinWith _rec
- 264_Dataset开发详解-typed操作:sort_rec
- 265_Dataset开发详解-typed操作:randomSplit、sample_rec
- 266_Dataset开发详解-untyped操作:select、where、groupBy、agg、col、join _rec
- 267_Dataset开发详解-聚合函数:avg、sum、max、min、count、countDistinct _rec
- 268_Dataset开发详解-聚合函数:collect_list、collect_set_rec
- 269_Dataset开发详解-其他常用函数_rec
- 270_Structured Streaming:深入浅出的介绍_rec
- 271_Structured Streaming:wordcount入门案例_rec
- 272_Structured Streaming:编程模型_rec
- 273_Structured Streaming:创建流式的dataset和dataframe_rec
- 274_Structured Streaming:对流式的dataset和dataframe执行计算操作_rec
- 275_Structured Streaming:output mode、sink以及foreach sink详解_rec
- 276_Structured Streaming:管理streaming query_rec
- 277_Structured Streaming:基于checkpoint的容错机制_rec
- 278_Spark面试、简历中的项目编写以及实际生产环境的集群和资源配置等_rec
不需任何基础,带您无痛入门Spark,内容包括Spark集群的构建、Spark架构设计、RDD、Shark/SparkSQL、机器学习、图计算、实时流处理、Spark on Yarn、JobServer、Spark测试、Spark优化等。Spark是第一个脱胎于该转变的快速、通用分布式计算范式,并且很快流行起来。Spark使用函数式编程范式扩展了MapReduce模型以支持更多计算类型,可以涵盖广泛的工作流,这些工作流之前被实现为Hadoop之上的特殊系统。Spark使用内存缓存来提升性能,因此进行交互式分析也足够快速(就如同使用Python解释器,与集群进行交互一样)。缓存同时提升了迭代算法的性能,这使得Spark非常适合数据理论任务,特别是机器学习。