图书介绍

Spark大数据技术与应用PDF|Epub|txt|kindle电子书版本网盘下载

Spark大数据技术与应用
  • 赵红艳,许桂秋主编 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115503473
  • 出版时间:2019
  • 标注页数:132页
  • 文件大小:55MB
  • 文件页数:142页
  • 主题词:数据处理软件-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Spark大数据技术与应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 Spark简介与运行原理1

1.1 Spark是什么1

1.1.1 Spark的版本发展历程2

1.1.2 Spark与Hadoop的区别与联系2

1.1.3 Spark的应用场景3

1.2 Spark的生态系统3

1.3 Spark的架构与原理4

1.3.1 Spark架构设计4

1.3.2 Spark作业运行流程5

1.3.3 Spark分布式计算流程6

1.4 Spark 2.X新特性6

1.4.1 精简的API6

1.4.2 Spark作为编译器7

1.4.3 智能化程度7

1.5 小结7

习题8

第2章 Spark的环境搭建9

2.1 环境搭建前的准备9

2.2 Spark相关配置13

2.2.1 安装SSH13

2.2.2 SSH免密码登录14

2.2.3 修改访问权限15

2.2.4 修改profile文件15

2.2.5 修改Spark配置文件16

2.3 Spark集群启动与关闭17

2.4 Spark应用提交到集群18

2.5 Spark Web监控页面19

2.6 小结20

习题20

第3章 使用Python开发Spark应用21

3.1 Python编程语言21

3.1.1 Python语言介绍21

3.1.2 PySpark是什么22

3.2 PySpark的启动与日志设置22

3.2.1 PySpark的启动方式22

3.2.2 日志输出内容控制24

3.3 PySpark开发包的安装24

3.3.1 使用pip命令安装24

3.3.2 使用离线包安装25

3.4 使用PyCharm编写Spark应用25

3.4.1 PyCharm的安装与基本配置25

3.4.2 编写Spark应用27

3.5 小结29

习题30

第4章 Spark RDD31

4.1 弹性分布式数据集31

4.1.1 RDD的定义31

4.1.2 RDD的特点32

4.1.3 RDD的创建33

4.1.4 RDD的操作34

4.2 transform算子34

4.2.1 map转换34

4.2.2 flatMap转换35

4.2.3 filter转换35

4.2.4 union转换35

4.2.5 intersection转换36

4.2.6 distinct转换36

4.2.7 sortBy转换36

4.2.8 mapPartitions转换36

4.2.9 mapPartitionsWithlndex转换37

4.2.10 partitionBy转换37

4.3 action算子37

4.3.1 reduce(f)动作37

4.3.2 collect()动作38

4.3.3 count()动作38

4.3.4 take(num)动作39

4.3.5 first()动作39

4.3.6 top(num)动作39

4.3.7 saveAsTextFile()动作39

4.3.8 foreach(f)动作40

4.3.9 foreachPartition(f)动作40

4.4 RDD Key-Value转换算子41

4.4.1 mapValues(f)操作41

4.4.2 flatMapValues(f)操作41

4.4.3 combineByKey操作41

4.4.4 reduceByKey操作42

4.4.5 groupByKey操作42

4.4.6 sortByKey操作43

4.4.7 keys()操作43

4.4.8 values()操作43

4.4.9 join操作43

4.4.10 leftOuterJoin操作43

4.4.11 rightOuterJoin操作44

4.5 RDD Key-Value动作运算44

4.5.1 collectAsMap()操作44

4.5.2 countByKey()操作44

4.6 共享变量45

4.6.1 累加器45

4.6.2 广播变量45

4.7 依赖关系47

4.7.1 血统47

4.7.2 宽依赖与窄依赖47

4.7.3 shuffle48

4.7.4 DAG的生成49

4.8 Spark RDD的持久化50

4.8.1 持久化使用方法50

4.8.2 持久化存储等级51

4.8.3 检查点52

4.9 小结52

习题52

第5章 DataFrame与SparkSQL54

5.1 DataFrame54

5.1.1 DataFrame介绍54

5.1.2 DataFrame创建55

5.2 Spark SQL56

5.2.1 Spark SQL介绍56

5.2.2 Spark SQL的执行原理57

5.2.3 Spark SQL的创建58

5.3 Spark SQL、DataFrame的常用操作61

5.3.1 字段计算61

5.3.2 条件查询62

5.3.3 数据排序63

5.3.4 数据去重63

5.3.5 数据分组统计64

5.3.6 数据连接65

5.3.7 数据绘图67

5.4 小结68

习题69

第6章 Spark Streaming70

6.1 Spark Streaming介绍70

6.1.1 什么是Spark Streaming70

6.1.2 Spark Streaming工作原理70

6.2 流数据加载71

6.2.1 初始化StreamingContext71

6.2.2 Discretized Stream离散化流71

6.2.3 Spark Streaming数据源72

6.3 DStream输出操作73

6.4 DStream转换操作75

6.4.1 map转换75

6.4.2 flatMap转换76

6.4.3 filter转换76

6.4.4 reduceByKey转换77

6.4.5 count转换77

6.4.6 updateStateByKey转换77

6.4.7 其他转换78

6.5 DataFrame与SQL操作78

6.6 实时WordCount实验79

6.7 小结81

习题81

第7章 Spark机器学习库82

7.1 Spark机器学习库82

7.1.1 机器学习简介82

7.1.2 Spark机器学习库的构成82

7.2 准备数据83

7.2.1 获取数据83

7.2.2 数据预处理84

7.2.3 数据探索84

7.3 使用MLlib机器学习库85

7.3.1 搭建环境85

7.3.2 加载数据86

7.3.3 探索数据89

7.3.4 预测婴儿生存机会92

7.4 使用ML机器学习库93

7.4.1 转换器、评估器和管道94

7.4.2 预测婴儿生存率95

7.5 小结97

习题97

第8章 GraphFrames图计算98

8.1 图98

8.1.1 度99

8.1.2 路径和环99

8.1.3 二分图100

8.1.4 多重图和伪图100

8.2 GraphFrames介绍101

8.2.1 应用背景101

8.2.2 GraphFrames库102

8.2.3 使用GraphFrames库102

8.3 GraphFrame编程模型102

8.3.1 GraphFrame实例103

8.3.2 视图和图操作104

8.3.3 模式发现105

8.3.4 图加载和保存105

8.4 GraphFrames实现的算法106

8.4.1 广度优先搜索106

8.4.2 最短路径106

8.4.3 三角形计数107

8.4.4 连通分量107

8.4.5 标签传播算法108

8.4.6 PageRank算法109

8.5 基于GraphFrames的网页排名110

8.5.1 准备数据集110

8.5.2 创建GraphFrames111

8.5.3 使用PageRank进行网页排名111

8.6 小结111

习题111

第9章 出租车数据分析112

9.1 数据处理112

9.2 数据分析113

9.2.1 创建DataFrame113

9.2.2 KMeans聚类分析114

9.3 百度地图可视化115

9.3.1 申请地图key115

9.3.2 聚类结果可视化116

9.4 小结117

第10章 图书推荐系统118

10.1 Django简介118

10.1.1 Django是什么118

10.1.2 ORM模型119

10.1.3 Django模板119

10.1.4 View视图120

10.2 Django项目搭建121

10.2.1 创建项目121

10.2.2 创建应用122

10.2.3 创建模型122

10.3 推荐引擎设计124

10.3.1 导入数据124

10.3.2 训练模型126

10.3.3 图书推荐127

10.4 系统设计与实现128

10.4.1 Bootstrap介绍与使用128

10.4.2 Redis数据库安装与使用129

10.4.3 视图与路由设计130

10.5 小结132

热门推荐