- 01_快速玩转Spark系列 _为什么学习Spark
- 02_快速玩转Spark系列 _Spark和MapReduce的对比.mp4
- 03_快速玩转Spark系列 _Spark框架体系
- 04_快速玩转Spark系列 _Spark下载
- 05.快速玩转Spark系列_Spark运行模式介绍
- 06.快速玩转Spark系列_Spark集群安装
- 07.快速玩转Spark系列_Spark程序执行流程
- 08.快速玩转Spark系列_Spark相关名词解释
- 09_快速玩转Spark系列_SparkShellLocal
- 10_快速玩转Spark系列_SparkShellCluster
- 12_快速玩转Spark系列_Maven和IDEA下载
- 13_快速玩转Spark系列_Maven安装
- 14_快速玩转Spark系列_IDEA安装
- 15_快速玩转Spark系列_IDEA中配置Maven
- 16_快速玩转Spark系列_Scala环境安装和IDEA中配置Scala插件
- 17_快速玩转Spark系列_IDEA创建Spark工程
- 18_快速玩转Spark系列_Spark开发WordCount程序
- 19_快速玩转Spark系列_Spark程序打包
- 20_快速玩转Spark系列_Spark集群运行打包程序
- 21_快速玩转Spark系列 _RDD概念
- 22_快速玩转Spark系列 _RDD执行流程
- 23_快速玩转Spark系列 _RDD属性
- 24_快速玩转Spark系列 _RDD弹性
- 25_快速玩转Spark系列 _RDD的两种创建
- 27_快速玩转Spark系列 _Transformation算子
- 28_快速玩转Spark系列 _Action算子
- 29_Transformation算子之Map
- 30_Transformation算子之filter
- 31_Transformation算子之flatMap
- 32_Transformation算子之sample
- 33 Transformation算子之union
- 34 Transformation算子之intersection
- 35 Transformation算子之distinct
- 36 Transformation算子之join
- 37_Transformation算子之leftOuterJoin
- 38_Transformation算子之rightOuterJoin
- 39_Transformation算子之cartesian
- 40_Transformation算子之groupBy
王家林:Spark亚太研究院院长和首席专家,中国目前唯一移动互联网和云计算大数据集大成者。Android架构师、高级工程师、咨询顾问、培训专家;通晓Android、HTML5、Hadoop,迷恋英语播音和健美;致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案。
Apache Spark是一个新兴的大数据处理的引擎,主要特点是提供了一个集群的分布式内存抽象,以支持需要工作集的应用。
这个抽象就是RDD(Resilient Distributed Dataset),RDD就是一个不可变的带分区的记录集合,RDD也是Spark中的编程模型。Spark提供了RDD上的两类操作,转换和动作。转换是用来定义一个新的RDD,包括map, flatMap, filter, union, sample, join, groupByKey, cogroup, ReduceByKey, cros, sortByKey, mapValues等,动作是返回一个结果,包括collect, reduce, count, save, lookupKey。
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。
与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。
首先,Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。
Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。
Spark让开发者可以快速的用Java、Scala或Python编写程序。它本身自带了一个超过80个高阶操作符集合。而且还可以用它在shell中以交互式地查询数据。
除了Map和Reduce操作之外,它还支持SQL查询,流数据,机器学习和图表数据处理。开发者可以在一个数据管道用例中单独使用某一能力或者将这些能力结合在一起使用。
在这个Apache Spark文章系列的第一部分中,我们将了解到什么是Spark,它与典型的MapReduce解决方案的比较以及它如何为大数据处理提供了一套完整的工具。