图书介绍
HAWQ数据仓库与数据挖掘实战PDF|Epub|txt|kindle电子书版本网盘下载
![HAWQ数据仓库与数据挖掘实战](https://www.shukui.net/cover/75/34572799.jpg)
- 王雪迎著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302498025
- 出版时间:2018
- 标注页数:578页
- 文件大小:112MB
- 文件页数:594页
- 主题词:数据库系统;数据采集
PDF下载
下载说明
HAWQ数据仓库与数据挖掘实战PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一部分 HAWQ技术解析3
第1章 HAWQ概述3
1.1 SQL-on-Hadoop3
1.1.1对SQL-on-Hadoop的期待3
1.1.2 SQL-on-Hadoop的实现方式4
1.2 HAWQ简介6
1.2.1历史与现状7
1.2.2功能特性7
1.3 HAWQ系统架构9
1.3.1系统架构10
1.3.2内部架构11
1.4为什么选择HAWQ12
1.4.1常用SQL-on-Hadoop产品的不足12
1.4.2 HAWQ的可行性13
1.4.3适合DBA的解决方案18
1.5小结18
第2章 HAWQ安装部署19
2.1安装规划19
2.1.1选择安装介质19
2.1.2选择HAWQ版本20
2.1.3确认Ambari与HDP的版本兼容性20
2.2安装前准备21
2.2.1确认最小系统需求21
2.2.2准备系统安装环境22
2.2.3建立本地Repository24
2.3安装Ambari25
2.4安装HDP集群27
2.5安装HAWQ29
2.6启动与停止HAWQ34
2.6.1基本概念34
2.6.2操作环境34
2.6.3基本操作36
2.7小结40
第3章 连接管理41
3.1配置客户端身份认证41
3.2管理角色与权限45
3.2.1 HAWQ中的角色与权限45
3.2.2管理角色及其成员46
3.2.3管理对象权限48
3.2.4口令加密49
3.3 psql连接HAWQ50
3.4 Kettle连接HAWQ52
3.5连接常见问题55
3.6小结56
第4章 数据库对象管理57
4.1创建和管理数据库57
4.2创建和管理表空间61
4.3创建和管理模式65
4.4创建和管理表72
4.4.1创建表72
4.4.2删除表74
4.4.3查看表对应的HDFS文件74
4.5创建和管理视图76
4.6管理其他对象77
4.7小结78
第5章 分区表79
5.1 HAWQ中的分区表79
5.2确定分区策略80
5.3创建分区表81
5.3.1范围分区与列表分区81
5.3.2多级分区86
5.3.3对已存在的非分区表进行分区86
5.4分区消除87
5.5分区表维护91
5.6小结98
第6章 存储管理99
6.1数据存储选项99
6.2数据分布策略103
6.2.1数据分布策略概述103
6.2.2选择数据分布策略104
6.2.3数据分布用法108
6.3从已有的表创建新表111
6.4小结117
第7章 资源管理118
7.1 HAWQ资源管理概述118
7.1.1全局资源管理118
7.1.2 HAWQ资源队列119
7.1.3资源管理器配置原则119
7.2配置独立资源管理器120
7.3整合YARN123
7.4管理资源队列129
7.5查询资源管理器状态134
7.6小结137
第8章 数据管理138
8.1基本数据操作138
8.2数据装载与卸载141
8.2.1 gpfdist协议及其外部表141
8.2.2基于Web的外部表148
8.2.3使用外部表装载数据151
8.2.4外部表错误处理151
8.2.5使用hawq load装载数据152
8.2.6使用COPY复制数据155
8.2.7卸载数据157
8.2.8 hawq register159
8.2.9格式化数据文件159
8.3数据库统计163
8.3.1系统统计163
8.3.2统计配置166
8.4 PXF168
8.4.1安装配置PXF168
8.4.2 PXF profile168
8.4.3访问HDFS文件170
8.4.4访问Hive数据174
8.4.5访问JSON数据186
8.4.6向HDFS中写入数据190
8.5小结194
第9章 过程语言195
9.1 HAWQ内建SQL语言195
9.2 PL/pgSQL函数197
9.3给HAWQ内部函数起别名198
9.4表函数198
9.5参数个数可变的函数201
9.6多态类型202
9.7 UDF管理205
9.8 UDF实例——递归树形遍历207
9.9小结214
第10章 查询优化215
10.1 HAWQ的查询处理流程215
10.2 GPORCA查询优化器217
10.2.1 GPORCA的改进218
10.2.2启用GPORCA224
10.2.3使用GPORCA需要考虑的问题225
10.2.4 GPORCA的限制227
10.3性能优化228
10.4查询剖析232
10.5小结238
第11章 高可用性239
11.1备份与恢复239
11.1.1备份方法239
11.1.2备份与恢复示例242
11.2高可用性247
11.2.1 HAWQ高可用简介247
11.2.2 Master节点镜像248
11.2.3 HAWQ文件空间与HDFS高可用251
11.2.4 HAWQ容错服务260
11.3小结262
第二部分 HAWQ实战演练265
第12章 建立数据仓库示例模型265
12.1业务场景265
12.2数据仓库架构267
12.3实验环境268
12.4 HAWQ相关配置269
12.5创建示例数据库273
12.5.1在hdp4上的MySQL中创建源库对象并生成测试数据273
12.5.2创建目标库对象275
12.5.3装载日期维度数据283
12.6小结284
第13章 初始ETL285
13.1用Sqoop初始数据抽取285
13.1.1覆盖导入286
13.1.2增量导入286
13.1.3建立初始抽取脚本287
13.2向HAWQ初始装载数据288
13.2.1数据源映射288
13.2.2确定SCD处理方法288
13.2.3实现代理键289
13.2.4建立初始装载脚本289
13.3建立初始ETL脚本291
13.4小结293
第14章 定期ETL294
14.1变化数据捕获294
14.2创建维度表版本视图296
14.3创建时间戳表297
14.4用Sqoop定期数据抽取298
14.5建立定期装载HAWQ函数298
14.6建立定期ETL脚本303
14.7测试303
14.7.1准备测试数据303
14.7.2执行定期ETL脚本304
14.7.3确认ETL过程正确执行305
14.8动态分区滚动307
14.9准实时数据抽取309
14.10小结317
第15章 自动调度执行ETL作业318
15.1 Oozie简介318
15.2建立工作流前的准备320
15.3用Oozie建立定期ETL工作流324
15.4 Falcon简介328
15.5用Falcon process调度Oozie工作流329
15.6小结332
第16章 维度表技术333
16.1增加列333
16.2维度子集342
16.3角色扮演维度348
16.4层次维度354
16.4.1固定深度的层次355
16.4.2多路径层次357
16.4.3参差不齐的层次359
16.5退化维度361
16.6杂项维度366
16.7维度合并374
16.8分段维度380
16.9小结386
第17章 事实表技术387
17.1周期快照388
17.2累积快照394
17.3无事实的事实表404
17.4迟到的事实409
17.5累积度量416
17.6小结422
第18章 联机分析处理423
18.1联机分析处理简介423
18.1.1概念423
18.1.2分类424
18.1.3性能426
18.2联机分析处理实例427
18.2.1销售订单427
18.2.2行列转置433
18.3交互查询与图形化显示440
18.3.1 Zeppelin简介440
18.3.2使用Zeppelin执行HAWQ查询441
18.4小结448
第三部分 HAWQ数据挖掘451
第19章 整合HAWQ与MADlib451
19.1 MADlib简介452
19.2安装与卸载MADlib455
19.3 MADlib基础458
19.3.1向量458
19.3.2矩阵469
19.4小结484
第20章 奇异值分解485
20.1奇异值分解简介485
20.2 MADlib奇异值分解函数486
20.3奇异值分解实现推荐算法489
20.4小结501
第21章 主成分分析502
21.1主成分分析简介502
21.2 MADlib的PCA相关函数504
21.3 PCA应用示例509
21.4小结513
第22章 关联规则方法514
22.1关联规则简介514
22.2 Apriori算法517
22.2.1 Apriori算法基本思想517
22.2.2 Apriori算法步骤518
22.3 MADlib的Apriori算法函数518
22.4 Apriori应用示例519
22.5小结524
第23章 聚类方法525
23.1聚类方法简介525
23.2 k-means方法526
23.2.1基本思想527
23.2.2原理与步骤527
23.2.3 k-means算法527
23.3 MADlib的k-means相关函数529
23.4 k-means应用示例532
23.5小结537
第24章 回归方法538
24.1回归方法简介538
24.2 Logistic回归539
24.3 MADlib的Logistic回归相关函数539
24.4 Logistic回归示例542
24.5小结546
第25章 分类方法547
25.1分类方法简介547
25.2决策树549
25.2.1决策树的基本概念549
25.2.2决策树的构建步骤549
25.3 MADlib的决策树相关函数551
25.4决策树示例555
25.5小结561
第26章 图算法562
26.1图算法简介562
26.2单源最短路径565
26.3 MADlib的单源最短路径相关函数566
26.4单源最短路径示例567
26.5小结569
第27章 模型验证570
27.1交叉验证简介570
27.2 MADlib的交叉验证相关函数573
27.3交叉验证示例575
27.4小结578