图书介绍

大数据之路 阿里巴巴大数据实践PDF|Epub|txt|kindle电子书版本网盘下载

大数据之路 阿里巴巴大数据实践
  • 阿里巴巴数据技术及产品部著 著
  • 出版社: 北京:电子工业出版社
  • ISBN:9787121314384
  • 出版时间:2017
  • 标注页数:322页
  • 文件大小:28MB
  • 文件页数:337页
  • 主题词:企业管理-数据管理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据之路 阿里巴巴大数据实践PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 总述1

第1篇 数据技术篇8

第2章 日志采集8

2.1浏览器的页面日志采集8

2.1.1页面浏览日志采集流程9

2.1.2页面交互日志采集14

2.1.3页面日志的服务器端清洗和预处理15

2.2无线客户端的日志采集16

2.2.1页面事件17

2.2.2控件点击及其他事件18

2.2.3特殊场景19

2.2.4 H5 & Native日志统一20

2.2.5设备标识22

2.2.6日志传输23

2.3日志采集的挑战24

2.3.1典型场景24

2.3.2大促保障26

第3章 数据同步29

3.1数据同步基础29

3.1.1直连同步30

3.1.2数据文件同步30

3.1.3数据库日志解析同步31

3.2阿里数据仓库的同步方式35

3.2.1批量数据同步35

3.2.2实时数据同步37

3.3数据同步遇到的问题与解决方案39

3.3.1分库分表的处理39

3.3.2高效同步和批量同步41

3.3.3增量与全量同步的合并42

3.3.4同步性能的处理43

3.3.5数据漂移的处理45

第4章 离线数据开发48

4.1数据开发平台48

4.1.1统一计算平台49

4.1.2统一开发平台53

4.2任务调度系统58

4.2.1背景58

4.2.2介绍59

4.2.3特点及应用64

第5章 实时技术68

5.1简介69

5.2流式技术架构71

5.2.1数据采集72

5.2.2数据处理74

5.2.3数据存储78

5.2.4数据服务80

5.3流式数据模型80

5.3.1数据分层80

5.3.2多流关联83

5.3.3维表使用84

5.4大促挑战&保障86

5.4.1大促特征86

5.4.2大促保障87

第6章 数据服务91

6.1服务架构演进91

6.1.1 DWSOA92

6.1.2 OpenAPI93

6.1.3 SmartDQ94

6.1.4统一的数据服务层96

6.2技术架构97

6.2.1 SmartDQ97

6.2.2 iPush100

6.2.3 Lego101

6.2.4 uTimng102

6.3最佳实践103

6.3.1性能103

6.3.2稳定性111

第7章 数据挖掘116

7.1数据挖掘概述116

7.2数据挖掘算法平台117

7.3数据挖掘中台体系119

7.3.1挖掘数据中台120

7.3.2挖掘算法中台122

7.4数据挖掘案例123

7.4.1用户画像123

7.4.2互联网反作弊125

第2篇 数据模型篇130

第8章 大数据领域建模综述130

8.1为什么需要数据建模130

8.2关系数据库系统和数据仓库131

8.3从OLTP和OLAP系统的区别看模型方法论的选择132

8.4典型的数据仓库建模方法论132

8.4.1 ER模型132

8.4.2维度模型133

8.4.3 Data Vault模型134

8.4.4 Anchor模型135

8.5阿里巴巴数据模型实践综述136

第9章 阿里巴巴数据整合及管理体系138

9.1概述138

9.1.1定位及价值139

9.1.2体系架构139

9.2规范定义140

9.2.1名词术语141

9.2.2指标体系141

9.3模型设计148

9.3.1指导理论148

9.3.2模型层次148

9.3.3基本原则150

9.4模型实施152

9.4.1业界常用的模型实施过程152

9.4.2 OneData实施过程154

第10章 维度设计159

10.1维度设计基础159

10.1.1维度的基本概念159

10.1.2维度的基本设计方法160

10.1.3维度的层次结构162

10.1.4规范化和反规范化163

10.1.5一致性维度和交叉探查165

10.2维度设计高级主题166

10.2.1维度整合166

10.2.2水平拆分169

10.2.3垂直拆分170

10.2.4历史归档171

10.3维度变化172

10.3.1缓慢变化维172

10.3.2快照维表174

10.3.3极限存储175

10.3.4微型维度178

10.4特殊维度180

10.4.1递归层次180

10.4.2行为维度184

10.4.3多值维度185

10.4.4多值属性187

10.4.5杂项维度188

第11章 事实表设计190

11.1事实表基础190

11.1.1事实表特性190

11.1.2事实表设计原则191

11.1.3事实表设计方法193

11.2事务事实表196

11.2.1设计过程196

11.2.2单事务事实表200

11.2.3多事务事实表202

11.2.4两种事实表对比206

11.2.5父子事实的处理方式208

11.2.6事实的设计准则209

11.3周期快照事实表210

11.3.1特性210

11.3.2实例212

11.3.3注意事项217

11.4累积快照事实表218

11.4.1设计过程218

11.4.2特点221

11.4.3特殊处理223

11.4.4物理实现225

11.5三种事实表的比较227

11.6无事实的事实表228

11.7聚集型事实表228

11.7.1聚集的基本原则229

11.7.2聚集的基本步骤229

11.7.3阿里公共汇总层230

11.7.4聚集补充说明234

第3篇 数据管理篇236

第12章 元数据236

12.1元数据概述236

12.1.1元数据定义236

12.1.2元数据价值237

12.1.3统一元数据体系建设238

12.2元数据应用239

12.2.1 Data Profile239

12.2.2元数据门户241

12.2.3应用链路分析241

12.2.4数据建模242

12.2.5驱动ETL开发243

第13章 计算管理245

13.1系统优化245

13.1.1 HBO246

13.1.2 CBO249

13.2任务优化256

13.2.1 Map倾斜257

13.2.2 Join倾斜261

13.2.3 Reduce倾斜269

第14章 存储和成本管理275

14.1数据压缩275

14.2数据重分布276

14.3存储治理项优化277

14.4生命周期管理278

14.4.1生命周期管理策略278

14.4.2通用的生命周期管理矩阵280

14.5数据成本计量283

14.6数据使用计费284

第15章 数据质量285

15.1数据质量保障原则285

15.2数据质量方法概述287

15.2.1消费场景知晓289

15.2.2数据加工过程卡点校验292

15.2.3风险点监控295

15.2.4质量衡量299

第4篇 数据应用篇304

第16章 数据应用304

16.1生意参谋305

16.1.1背景概述305

16.1.2功能架构与技术能力307

16.1.3商家应用实践310

16.2对内数据产品平台311

16.2.1定位311

16.2.2产品建设历程312

16.2.3整体架构介绍316

附录A本书插图索引319

热门推荐