图书介绍

解决方案：使用PDI构建开源ETL解决方案PDF|Epub|txt|kindle电子书版本网盘下载

MATT CASTERS，ROLAND BOUMAN，JOS VAN DONGEN著；初建军，曹雪梅译著
出版社：北京：电子工业出版社
ISBN：9787121224454
出版时间：2014
标注页数：460页
文件大小：240MB
文件页数：486页
主题词：数据库－技术

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：5358af80dfb460b98e4530c071b3675e

下载说明

解决方案：使用PDI构建开源ETL解决方案PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第一部分：开始2

第1章 ETL入门2

1.1 OLTP和数据仓库对比2

1.2 ETL是什么3

1.2.1 ETL解决方案的演化过程4

1.2.2 ETL基本构成5

1.3 ETL、 ELT和EII6

1.3.1 ELT6

1.3.2 EII：虚拟数据整合7

1.4 数据整合面临的挑战8

1.4.1 方法论：敏捷BI9

1.4.2 ETL设计10

1.4.3 获取数据10

1.4.4 数据质量12

1.5 ETL工具的功能13

1.5.1 连接13

1.5.2 平台独立14

1.5.3 数据规模14

1.5.4 设计灵活性14

1.5.5 复用性15

1.5.6 扩展性15

1.5.7 数据转换15

1.5.8 测试和调试16

1.5.9 血统和影响分析16

1.5.10 日志和审计16

1.6 小结17

第2章 Kettle基本概念18

2.1 设计原则18

2.2 Kettle设计模块19

2.2.1 转换19

2.2.2 作业23

2.2.3 转换或作业的元数据28

2.2.4 数据库连接28

2.2.5 工具31

2.2.6 资源库31

2.2.7 虚拟文件系统31

2.3 参数和变量32

2.3.1 定义变量32

2.3.2 命名参数33

2.3.3 使用变量33

2.4 可视化编程34

2.4.1 开始34

2.4.2 创建新的步骤35

2.4.3 放在一起36

2.5 小结38

第3章安装和配置39

3.1 Kettle软件概览39

3.1.1 集成开发环境：Spoon40

3.1.2 命令行启动：Kitchen和Pan42

3.1.3 作业服务器：Carte42

3.1.4 Encr bat和encr.sh42

3.2 安装43

3.2.1 Java环境43

3.2.2 安装Kettle43

3.3 配置46

3.3.1 配置文件和：kettle目录46

3.3.2 用于启动Kettle程序的shell脚本51

3.3.3 管理JDBC驱动52

3.4 小结53

第4章 ETL示例解决方案——Sakila54

4.1 Sakila54

4.1.1 sakila示例数据库55

4.1.2 租赁业务的星型模型57

4.2 预备知识和一些基础的Spoon技巧60

4.2.1 安装ETL解决方案60

4.2.2 Spoon使用60

4.3 ETL示例解决方案61

4.3.1 生成静态维度62

4.3.2 循环加载64

4.4 小结80

第二部分：ETL82

第5章 ETL子系统82

5.1 34种子系统介绍82

5.1.1 抽取83

5.1.2 清洗和更正数据84

5.1.3 数据发布86

5.1.4 管理ETL环境89

5.2 小结91

第6章数据抽取92

6.1 Kettle数据抽取概览92

6.1.1 文件抽取93

6.1.2 数据库抽取97

6.1.3 Web数据抽取98

6.1.4 基于流的和实时的抽取99

6.2 处理ERP和CRM系统100

6.2.1 ERP挑战100

6.2.2 Kettle ERP插件101

6.2.3 处理SAP数据101

6.2.4 ERP和CDC问题104

6.3 数据剖析105

6.4 CDC：变更数据捕获110

6.4.1 基于源数据的CDC111

6.4.2 基于触发器的CDC113

6.4.3 基于快照的CDC113

6.4.4 基于日志的CDC116

6.4.5 哪个CDC方案更适合你117

6.5 发布数据117

6.6 小结118

第7章清洗和校验119

7.1 数据清洗120

7.1.1 数据清洗步骤121

7.1.2 使用参照表123

7.1.3 数据校验127

7.2 错误处理130

7.2.1 处理过程错误131

7.2.2 转换错误132

7.2.3 处理数据（校验）错误133

7.3 审计数据和过程质量136

7.4 数据排重137

7.4.1 去除完全重复的数据137

7.4.2 不完全重复问题138

7.4.3 设计排除重复记录的转换139

7.5 脚本142

7.5.1 公式143

7.5.2 Java脚本143

7.5.3 用户自定义Java表达式144

7.5.4 正则表达式145

7.6 小结146

第8章处理维度表147

8.1 管理各种键148

8.1.1 管理业务键148

8.1.2 生成代理键149

8.2 加载维度表154

8.2.1 雪花维度表154

8.2.2 星型维度表159

8.3 缓慢变更维度161

8.3.1 缓慢变更维类型161

8.3.2 类型1的缓慢变更维161

8.3.3 类型2的缓慢变更维163

8.3.4 其他类型的缓慢变更维167

8.4 更多维度168

8.4.1 生成维（Generated Dimensions）168

8.4.2 杂项维度（Junk Dimensions）169

8.4.3 递归层次170

8.5 小结171

第9章加载事实表172

9.1 批量加载173

9.1.1 STDIN和FIFO173

9.1.2 Kettle批量加载174

9.1.3 批量加载一般要考虑的问题176

9.2 维度查询176

9.2.1 维护参照完整性176

9.2.2 代理键管道177

9.2.3 迟到数据179

9.3 处理事实表182

9.3.1 周期快照和累积快照182

9.3.2 面向状态的事实表183

9.3.3 加载周期快照表185

9.3.4 加载累积快照表185

9.3.5 加载面向状态事实表186

9.3.6 加载聚集表186

9.4 小结187

第10章处理OLAP数据188

10.1 OLAP的价值和挑战189

10.1.1 OLAP存储类型190

10.1.2 OLAP在系统中的位置191

10.1.3 Kettle OLAP选项191

10.2 Mondrian192

10.3 XML/A服务194

10.4 Palo197

10.4.1 建立Palo连接198

10.4.2 Palo架构199

10.4.3 读Palo数据200

10.4.4 写Palo数据202

10.5 小结204

第三部分：管理和部署206

第11章 ETL开发生命期206

11.1 解决方案设计206

11.1.1 好习惯和坏习惯206

11.1.2 ETL流设计209

11.1.3 可重用性和可维护性209

11.2 敏捷开发210

11.3 测试和调试214

11.3.1 测试活动214

11.3.2 ETL测试215

11.3.3 调试218

11.4 解决方案文档化220

11.4.1 为什么实际情况下文档很少220

11.4.2 Kettle的文档功能221

11.4.3 生成文档222

11.5 小结223

第12章调度和监控224

12.1 调度224

12.1.1 操作系统级调度225

12.1.2 使用Pentaho内置的调度程序228

12.2 监控232

12.2.1 日志232

12.2.2 邮件通知234

12.3 小结237

第13章版本和移植238

13.1 版本控制系统238

13.1.1 基于文件的版本控制系统239

13.1.2 内容管理系统240

13.2 Kettle元数据240

13.2.1 Kettle XML元数据241

13.2.2 Kettle资源库元数据242

13.3 管理资源库244

13.3.1 导出和导入资源库244

13.3.2 资源库升级245

13.4 版本移植系统245

13.4.1 管理XML文件245

13.4.2 管理资源库246

13.4.3 解决方案参数化246

13.5 小结248

第14章血统和审计249

14.1 批量血统抽取250

14.2 血统251

14.2.1 血统信息251

14.2.2 影响分析信息252

14.3 日志和操作元数据254

14.3.1 日志基础254

14.3.2 日志架构255

14.3.3 日志表257

14.4 小结262

第四部分：性能和扩展性264

第15章性能调优264

15.1 转换性能：找到最弱连接264

15.1.1 通过简化找到性能瓶颈265

15.1.2 通过度量值找到性能瓶颈266

15.1.3 复制数据行267

15.2 提高转换性能269

15.2.1 提高读文本文件的性能269

15.2.2 写文本文件时使用延迟转换271

15.2.3 提高数据库性能272

15.2.4 数据排序275

15.2.5 减少CPU消耗276

15.3 提高作业性能280

15.3.1 作业里的循环280

15.3.2 数据库连接池281

15.4 小结281

第16章并行、集群和分区283

16.1 多线程283

16.1.1 数据行分发284

16.1.2 记录行合并285

16.1.3 记录行再分发285

16.1.4 数据流水线286

16.1.5 多线程的问题287

16.1.6 作业中的并行执行289

16.2 使用Carte子服务器289

16.2.1 配置文件289

16.2.2 定义子服务器290

16.2.3 远程执行291

16.2.4 监视子服务器291

16.2.5 Carte安全291

16.2.6 服务292

16.3 集群转换293

16.3.1 定义一个集群模式293

16.3.2 设计集群转换294

16.3.3 执行和监控295

16.3.4 元数据转换296

16.4 分区298

16.4.1 定义分区模式299

16.4.2 分区的目标300

16.4.3 实现分区300

16.4.4 内部变量301

16.4.5 数据库分区301

16.4.6 集群转换中的分区302

16.5 小结302

第17章云计算中的动态集群303

17.1 动态集群303

17.1.1 建立动态集群304

17.1.2 使用动态集群306

17.2 云计算306

17.3 EC2307

17.3.1 如何使用EC2307

17.3.2 成本307

17.3.3 自定义AMI307

17.3.4 打包新AM310

17.3.5 中止AMI310

17.3.6 运行主节点310

17.3.7 运行子节点311

17.3.8 使用EC2集群312

17.3.9 监控313

17.3.10 轻量原则和持久性314

17.4 小结314

第18章实时数据整合315

18.1 实时ETL介绍315

18.1.1 实时处理面临的挑战316

18.1.2 需求316

18.2 基于流的转换317

18.2.1 一个基于流的转换实例318

18.2.2 调试321

18.2.3 第三方软件和实时整合321

18.2.4 Java消息服务322

18.3 小结324

第五部分：高级主题326

第19章 Data Vault管理326

19.1 Data Vault模型介绍327

19.2 你是否需要Data Vault327

19.3 Data Vault的组成部分328

19.3.1 中心表328

19.3.2 链接表329

19.3.3 附属表329

19.3.4 Data Vault特点331

19.3.5 构建Data Vault模型331

19.4 将Sakila的例子转换成Data Vault模型331

19.4.1 Sakila中心表331

19.4.2 Sakila链接表332

19.4.3 Sakila附属表333

19.5 加载Data Vault模型：简单的ETL解决方案334

19.5.1 安装Sakila Data Vault335

19.5.2 安装ETL方案335

19.5.3 创建一个数据库账户335

19.5.4 ETL解决方案的例子335

19.5.5 加载Data Vault表341

19.6 从Data Vault模型更新数据集市341

19.6.1 ETL解决方案例子342

19.6.2 dim _actor转换342

19.6.3 dim _customer转换343

19.6.4 dim _film转换346

19.6.5 dim_film_actor_bridge转换347

19.6.6 fact rental转换347

19.6.7 加载星型模型里的所有表349

19.7 小结349

第20章处理复杂数据格式350

20.1 非关系型和非表格型的数据格式350

20.2 非结构化的表格型数据351

20.2.1 处理多值字段351

20.2.2 处理重复的字段组352

20.3 半结构化和非结构化数据353

20.4 键／值对358

20.5 小结362

第21章 Web Services363

21.1 Web页面和Web Services363

21.2 数据格式365

21.2.1 XML365

21.2.2 HTML366

21.2.3 JavaScript Object Notation367

21.3 XML例子369

21.3.1 XML例子文件369

21.3.2 从XML中抽取数据371

21.3.3 生成XML文档378

21.4 SOAP例子384

21.4.1 使用“Web服务查询”步骤385

21.4.2 直接访问SOAP服务386

21.5 JSON例子389

21.5.1 Freebase项目389

21.5.2 使用Kettle抽取Freebase数据392

21.6 RSS396

21.6.1 RSS结构396

21.6.2 Kettle对RSS的支持398

21.7 小结403

第22章 Kettle集成404

22.1 Kettle API404

22.1.1 LGPL协议404

22.1.2 Kettle Java API405

22.2 执行存在的转换和作业406

22.2.1 执行一个转换406

22.2.2 执行一个作业407

22.3 应用程序中嵌入Kettle408

22.3.1 Pentaho报表408

22.3.2 把数据放到转换里410

22.3.3 动态转换413

22.3.4 动态模板416

22.3.5 动态作业416

22.3.6 在Kettle里执行动态ETL419

22.3.7 Result419

22.3.8 替换元数据420

22.4 OEM版本和二次发布版本421

22.4.1 创建PDI的OEM版本421

22.4.2 Kettle的二次发布（Forking）422

22.5 小结423

第23章扩展Kettle424

23.1 插件架构424

23.1.1 插件类型425

23.1.2 架构425

23.1.3 前提425

23.2 转换步骤插件428

23.2.1 StepMetaInterface428

23.2.2 StepDataInterface434

23.2.3 StepDialogInterface434

23.2.4 StepInterface440

23.3 用户自定义Java类步骤444

23.3.1 传递元数据444

23.3.2 访问输入和字段445

23.3.3 代码片段445

23.3.4 例子445

23.4 作业项插件446

23.4.1 JobEntryInterface446

23.4.2 JobEntryDialogInterface448

23.5 分区插件448

23.6 资源库插件450

23.7 数据库类型插件450

23.8 小结451

附录A Kettle生态群452

附录B Kettle企业版特性456

附录C 内置的变量和属性参考457