图书介绍

HAWQ数据仓库与数据挖掘实战PDF|Epub|txt|kindle电子书版本网盘下载

HAWQ数据仓库与数据挖掘实战
  • 王雪迎著 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302498025
  • 出版时间:2018
  • 标注页数:578页
  • 文件大小:112MB
  • 文件页数:594页
  • 主题词:数据库系统;数据采集

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

HAWQ数据仓库与数据挖掘实战PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一部分 HAWQ技术解析3

第1章 HAWQ概述3

1.1 SQL-on-Hadoop3

1.1.1对SQL-on-Hadoop的期待3

1.1.2 SQL-on-Hadoop的实现方式4

1.2 HAWQ简介6

1.2.1历史与现状7

1.2.2功能特性7

1.3 HAWQ系统架构9

1.3.1系统架构10

1.3.2内部架构11

1.4为什么选择HAWQ12

1.4.1常用SQL-on-Hadoop产品的不足12

1.4.2 HAWQ的可行性13

1.4.3适合DBA的解决方案18

1.5小结18

第2章 HAWQ安装部署19

2.1安装规划19

2.1.1选择安装介质19

2.1.2选择HAWQ版本20

2.1.3确认Ambari与HDP的版本兼容性20

2.2安装前准备21

2.2.1确认最小系统需求21

2.2.2准备系统安装环境22

2.2.3建立本地Repository24

2.3安装Ambari25

2.4安装HDP集群27

2.5安装HAWQ29

2.6启动与停止HAWQ34

2.6.1基本概念34

2.6.2操作环境34

2.6.3基本操作36

2.7小结40

第3章 连接管理41

3.1配置客户端身份认证41

3.2管理角色与权限45

3.2.1 HAWQ中的角色与权限45

3.2.2管理角色及其成员46

3.2.3管理对象权限48

3.2.4口令加密49

3.3 psql连接HAWQ50

3.4 Kettle连接HAWQ52

3.5连接常见问题55

3.6小结56

第4章 数据库对象管理57

4.1创建和管理数据库57

4.2创建和管理表空间61

4.3创建和管理模式65

4.4创建和管理表72

4.4.1创建表72

4.4.2删除表74

4.4.3查看表对应的HDFS文件74

4.5创建和管理视图76

4.6管理其他对象77

4.7小结78

第5章 分区表79

5.1 HAWQ中的分区表79

5.2确定分区策略80

5.3创建分区表81

5.3.1范围分区与列表分区81

5.3.2多级分区86

5.3.3对已存在的非分区表进行分区86

5.4分区消除87

5.5分区表维护91

5.6小结98

第6章 存储管理99

6.1数据存储选项99

6.2数据分布策略103

6.2.1数据分布策略概述103

6.2.2选择数据分布策略104

6.2.3数据分布用法108

6.3从已有的表创建新表111

6.4小结117

第7章 资源管理118

7.1 HAWQ资源管理概述118

7.1.1全局资源管理118

7.1.2 HAWQ资源队列119

7.1.3资源管理器配置原则119

7.2配置独立资源管理器120

7.3整合YARN123

7.4管理资源队列129

7.5查询资源管理器状态134

7.6小结137

第8章 数据管理138

8.1基本数据操作138

8.2数据装载与卸载141

8.2.1 gpfdist协议及其外部表141

8.2.2基于Web的外部表148

8.2.3使用外部表装载数据151

8.2.4外部表错误处理151

8.2.5使用hawq load装载数据152

8.2.6使用COPY复制数据155

8.2.7卸载数据157

8.2.8 hawq register159

8.2.9格式化数据文件159

8.3数据库统计163

8.3.1系统统计163

8.3.2统计配置166

8.4 PXF168

8.4.1安装配置PXF168

8.4.2 PXF profile168

8.4.3访问HDFS文件170

8.4.4访问Hive数据174

8.4.5访问JSON数据186

8.4.6向HDFS中写入数据190

8.5小结194

第9章 过程语言195

9.1 HAWQ内建SQL语言195

9.2 PL/pgSQL函数197

9.3给HAWQ内部函数起别名198

9.4表函数198

9.5参数个数可变的函数201

9.6多态类型202

9.7 UDF管理205

9.8 UDF实例——递归树形遍历207

9.9小结214

第10章 查询优化215

10.1 HAWQ的查询处理流程215

10.2 GPORCA查询优化器217

10.2.1 GPORCA的改进218

10.2.2启用GPORCA224

10.2.3使用GPORCA需要考虑的问题225

10.2.4 GPORCA的限制227

10.3性能优化228

10.4查询剖析232

10.5小结238

第11章 高可用性239

11.1备份与恢复239

11.1.1备份方法239

11.1.2备份与恢复示例242

11.2高可用性247

11.2.1 HAWQ高可用简介247

11.2.2 Master节点镜像248

11.2.3 HAWQ文件空间与HDFS高可用251

11.2.4 HAWQ容错服务260

11.3小结262

第二部分 HAWQ实战演练265

第12章 建立数据仓库示例模型265

12.1业务场景265

12.2数据仓库架构267

12.3实验环境268

12.4 HAWQ相关配置269

12.5创建示例数据库273

12.5.1在hdp4上的MySQL中创建源库对象并生成测试数据273

12.5.2创建目标库对象275

12.5.3装载日期维度数据283

12.6小结284

第13章 初始ETL285

13.1用Sqoop初始数据抽取285

13.1.1覆盖导入286

13.1.2增量导入286

13.1.3建立初始抽取脚本287

13.2向HAWQ初始装载数据288

13.2.1数据源映射288

13.2.2确定SCD处理方法288

13.2.3实现代理键289

13.2.4建立初始装载脚本289

13.3建立初始ETL脚本291

13.4小结293

第14章 定期ETL294

14.1变化数据捕获294

14.2创建维度表版本视图296

14.3创建时间戳表297

14.4用Sqoop定期数据抽取298

14.5建立定期装载HAWQ函数298

14.6建立定期ETL脚本303

14.7测试303

14.7.1准备测试数据303

14.7.2执行定期ETL脚本304

14.7.3确认ETL过程正确执行305

14.8动态分区滚动307

14.9准实时数据抽取309

14.10小结317

第15章 自动调度执行ETL作业318

15.1 Oozie简介318

15.2建立工作流前的准备320

15.3用Oozie建立定期ETL工作流324

15.4 Falcon简介328

15.5用Falcon process调度Oozie工作流329

15.6小结332

第16章 维度表技术333

16.1增加列333

16.2维度子集342

16.3角色扮演维度348

16.4层次维度354

16.4.1固定深度的层次355

16.4.2多路径层次357

16.4.3参差不齐的层次359

16.5退化维度361

16.6杂项维度366

16.7维度合并374

16.8分段维度380

16.9小结386

第17章 事实表技术387

17.1周期快照388

17.2累积快照394

17.3无事实的事实表404

17.4迟到的事实409

17.5累积度量416

17.6小结422

第18章 联机分析处理423

18.1联机分析处理简介423

18.1.1概念423

18.1.2分类424

18.1.3性能426

18.2联机分析处理实例427

18.2.1销售订单427

18.2.2行列转置433

18.3交互查询与图形化显示440

18.3.1 Zeppelin简介440

18.3.2使用Zeppelin执行HAWQ查询441

18.4小结448

第三部分 HAWQ数据挖掘451

第19章 整合HAWQ与MADlib451

19.1 MADlib简介452

19.2安装与卸载MADlib455

19.3 MADlib基础458

19.3.1向量458

19.3.2矩阵469

19.4小结484

第20章 奇异值分解485

20.1奇异值分解简介485

20.2 MADlib奇异值分解函数486

20.3奇异值分解实现推荐算法489

20.4小结501

第21章 主成分分析502

21.1主成分分析简介502

21.2 MADlib的PCA相关函数504

21.3 PCA应用示例509

21.4小结513

第22章 关联规则方法514

22.1关联规则简介514

22.2 Apriori算法517

22.2.1 Apriori算法基本思想517

22.2.2 Apriori算法步骤518

22.3 MADlib的Apriori算法函数518

22.4 Apriori应用示例519

22.5小结524

第23章 聚类方法525

23.1聚类方法简介525

23.2 k-means方法526

23.2.1基本思想527

23.2.2原理与步骤527

23.2.3 k-means算法527

23.3 MADlib的k-means相关函数529

23.4 k-means应用示例532

23.5小结537

第24章 回归方法538

24.1回归方法简介538

24.2 Logistic回归539

24.3 MADlib的Logistic回归相关函数539

24.4 Logistic回归示例542

24.5小结546

第25章 分类方法547

25.1分类方法简介547

25.2决策树549

25.2.1决策树的基本概念549

25.2.2决策树的构建步骤549

25.3 MADlib的决策树相关函数551

25.4决策树示例555

25.5小结561

第26章 图算法562

26.1图算法简介562

26.2单源最短路径565

26.3 MADlib的单源最短路径相关函数566

26.4单源最短路径示例567

26.5小结569

第27章 模型验证570

27.1交叉验证简介570

27.2 MADlib的交叉验证相关函数573

27.3交叉验证示例575

27.4小结578

热门推荐