图书介绍

大数据日知录 架构与算法PDF|Epub|txt|kindle电子书版本网盘下载

大数据日知录 架构与算法
  • 张俊林著 著
  • 出版社: 北京:电子工业出版社
  • ISBN:9787121241536
  • 出版时间:2014
  • 标注页数:388页
  • 文件大小:66MB
  • 文件页数:404页
  • 主题词:数据处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据日知录 架构与算法PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第0章 当谈论大数据时我们在谈什么1

0.1 大数据是什么2

0.2 大数据之翼:技术范型转换4

0.3 大数据商业炼金术6

0.4 “大数据”在路上7

第一篇 大数据基础理论9

第1章 数据分片与路由9

1.1 抽象模型10

1.2 哈希分片(Hash Partition)11

1.2.1 Round Robin11

1.2.2 虚拟桶(Virtual Buckets)12

1.2.3 一致性哈希(Consistent Hashing)13

1.3 范围分片(Range Partition)18

参考文献19

第2章 数据复制与一致性20

2.1 基本原则与设计理念21

2.1.1 原教旨CAP主义21

2.1.2 CAP重装上阵(CAP Reloaded)23

2.1.3 ACID原则24

2.1.4 BASE原则24

2.1.5 CAP/ACID/BASE三者的关系25

2.1.6 幂等性(Idempotent)26

2.2 一致性模型分类26

2.2.1 强一致性27

2.2.2 最终一致性28

2.2.3 因果一致性28

2.2.4 “读你所写”一致性29

2.2.5 会话一致性29

2.2.6 单调读一致性30

2.2.7 单调写一致性30

2.3 副本更新策略30

2.3.1 同时更新30

2.3.2 主从式更新31

2.3.3 任意节点更新32

2.4 一致性协议32

2.4.1 两阶段提交协议(Two-Phrase Commit,2PC)33

2.4.2 向量时钟(Vector Clock)38

2.4.3 RWN协议40

2.4.4 Paxos协议42

2.4.5 Raft协议45

参考文献49

第3章 大数据常用的算法与数据结构51

3.1 布隆过滤器(Bloom Filter)51

3.1.1 基本原理52

3.1.2 误判率及相关计算52

3.1.3 改进:计数Bloom Filter53

3.1.4 应用54

3.2 SkipList55

3.3 LSM树58

3.4 Merkle哈希树(Merkle HashTree)62

3.4.1 Merkle树基本原理62

3.4.2 Dynamo中的应用63

3.4.3 比特币中的应用63

3.5 Snappy与LZSS算法65

3.5.1 LZSS算法65

3.5.2 Snappy67

3.6 Cuckoo哈希(Cuckoo Hashing)67

3.6.1 基本原理68

3.6.2 应用:SILT存储系统68

参考文献70

第二篇 大数据系统体系结构71

第4章 集群资源管理与调度71

4.1 资源管理抽象模型72

4.1.1 概念模型72

4.1.2 通用架构73

4.2 调度系统设计的基本问题74

4.2.1 资源异质性与工作负载异质性74

4.2.2 数据局部性(Data Locality)75

4.2.3 抢占式调度与非抢占式调度75

4.2.4 资源分配粒度(Allocation Granularity)76

4.2.5 饿死(Starvation)与死锁(Dead Lock)问题76

4.2.6 资源隔离方法77

4.3 资源管理与调度系统范型77

4.3.1 集中式调度器(Monolithic Scheduler)78

4.3.2 两级调度器(Two-Level Scheduler)79

4.3.3 状态共享调度器(Shared-State Scheduler)79

4.4 资源调度策略81

4.4.1 FIFO调度策略81

4.4.2 公平调度器(Fair Scheduler)81

4.4.3 能力调度器(Capacity Scheduler)82

4.4.4 延迟调度策略(Delay Scheduling)82

4.4.5 主资源公平调度策略(Dominant Resource Fair Scheduling)82

4.5 Mesos84

4.6 YARN87

参考文献90

第5章 分布式协调系统91

5.1 Chubby锁服务92

5.1.1 系统架构93

5.1.2 数据模型94

5.1.3 会话与KeepAlive机制95

5.1.4 客户端缓存95

5.2 ZooKeeper96

5.2.1 体系结构96

5.2.2 数据模型(Data Model)97

5.2.3 API98

5.2.4 ZooKeeper的典型应用场景98

5.2.5 ZooKeeper的实际应用103

参考文献104

第6章 分布式通信106

6.1 序列化与远程过程调用框架107

6.1.1 Protocol Buffer与Thrift108

6.1.2 Avro109

6.2 消息队列110

6.2.1 常见的消息队列系统110

6.2.2 Kafka111

6.3 应用层多播通信(Application-Level Multi-Broadcast)114

6.3.1 概述114

6.3.2 Gossip协议115

参考文献118

第7章 数据通道120

7.1 Log数据收集120

7.1.1 Chukwa121

7.1.2 Scribe122

7.2 数据总线123

7.2.1 Databus125

7.2.2 Wormhole127

7.3 数据导入/导出128

参考文献129

第三篇 大数据存储131

第8章 分布式文件系统131

8.1 Google文件系统(GFS)132

8.1.1 GFS设计原则132

8.1.2 GFS整体架构133

8.1.3 GFS主控服务器134

8.1.4 系统交互行为136

8.1.5 Colossus137

8.2 HDFS138

8.2.1 HDFS整体架构139

8.2.2 HA方案140

8.2.3 NameNode联盟143

8.3 HayStack存储系统145

8.3.1 HayStack整体架构146

8.3.2 目录服务147

8.3.3 HayStack缓存148

8.3.4 HayStack存储系统的实现148

8.4 文件存储布局150

8.4.1 行式存储151

8.4.2 列式存储151

8.4.3 混合式存储156

8.5 纠删码(Erasure Code)158

8.5.1 Reed-Solomon编码159

8.5.2 LRC编码164

8.5.3 HDFS-RAID架构166

参考文献166

第9章 内存KV数据库168

9.1 RAMCloud169

9.1.1 RAMCloud整体架构169

9.1.2 数据副本管理与数据恢复170

9.2 Redis172

9.3 MemBase173

参考文献175

第10章 列式数据库176

10.1 BigTable177

10.1.1 BigTable的数据模型177

10.1.2 BigTable的整体结构178

10.1.3 BigTable的管理数据179

10.1.4 主控服务器(Master Server)181

10.1.5 子表服务器(Tablet Server)182

10.2 PNUTS存储系统186

10.2.1 PNUTS的整体架构186

10.2.2 存储单元187

10.2.3 子表控制器与数据路由器187

10.2.4 雅虎消息代理188

10.2.5 数据一致性189

10.3 MegaStore190

10.3.1 实体群组切分191

10.3.2 数据模型192

10.3.3 数据读/写与备份193

10.4 Spanner194

10.4.1 SpanServer软件栈195

10.4.2 数据模型196

10.4.3 TrueTime196

参考文献197

第四篇 大数据处理199

第11章 大规模批处理系统199

11.1 MapReduce计算模型与架构200

11.1.1 计算模型201

11.1.2 系统架构203

11.1.3 MapReduce计算的特点及不足206

11.2 MapReduce计算模式206

11.2.1 求和模式(Summarization Pattern)207

11.2.2 过滤模式(Filtering Pattern)208

11.2.3 组织数据模式(Data Organization Pattern)210

11.2.4 Join模式(Join Pattern)212

11.3 DAG计算模型214

11.3.1 DAG计算系统的三层结构214

11.3.2 Dryad215

11.3.3 FlumeJava和Tez217

参考文献218

第12章 流式计算219

12.1 流式计算系统架构222

12.1.1 主从架构222

12.1.2 P2P架构223

12.1.3 Samza架构224

12.2 DAG拓扑结构224

12.2.1 计算节点225

12.2.2 数据流226

12.2.3 拓扑结构226

12.3 送达保证(Delivery Guarantees)229

12.3.1 Storm的送达保证机制230

12.3.2 MillWheel的“恰好送达一次”机制233

12.4 状态持久化234

12.4.1 容错的三种模式234

12.4.2 Storm的状态持久化236

12.4.3 MillWheel和Samza的状态持久化237

参考文献238

第13章 交互式数据分析240

13.1 Hive系数据仓库242

13.1.1 Hive242

13.1.2 StingerInitiative250

13.2 Shark系数据仓库251

13.2.1 Shark架构252

13.2.2 部分DAG执行引擎(PDE)253

13.2.3 数据共同分片254

13.3 Dremel系数据仓库254

13.3.1 Dremel255

13.3.2 PowerDrill258

13.3.3 Impala261

13.3.4 Presto264

13.4 混合系数据仓库265

参考文献269

第14章 图数据库:架构与算法271

14.1 在线查询类图数据库272

14.1.1 三层结构272

14.1.2 TAO图数据库273

14.2 常见图挖掘问题277

14.2.1 PageRank计算278

14.2.2 单源最短路径(Single Source Shortest Path)278

14.2.3 二部图最大匹配279

14.3 离线挖掘数据分片279

14.3.1 切边法(Edge-Cut)280

14.3.2 切点法(Vertex-Cut)282

14.4 离线挖掘计算模型284

14.4.1 以节点为中心的编程模型284

14.4.2 GAS编程模型285

14.4.3 同步执行模型286

14.4.4 异步执行模型290

14.5 离线挖掘图数据库292

14.5.1 Pregel292

14.5.2 Giraph299

14.5.3 GraphChi301

14.5.4 PowerGraph307

参考文献311

第15章 机器学习:范型与架构313

15.1 分布式机器学习314

15.1.1 机器学习简介314

15.1.2 数据并行VS.模型并行316

15.2 分布式机器学习范型317

15.2.1 三种范型318

15.2.2 MapReduce迭代计算模型319

15.2.3 BSP计算模型321

15.2.4 SSP模型323

15.3 分布式机器学习架构324

15.3.1 MapReduce系列325

15.3.2 Spark及MLBase327

15.3.3 参数服务器(Parameter Server)332

参考文献335

第16章 机器学习:分布式算法337

16.1 计算广告:逻辑回归338

16.1.1 逻辑回归(Logistic Regression,LR)338

16.1.2 并行随机梯度下降(Parallel Stochastic Gradient Descent)341

16.1.3 批学习并行逻辑回归341

16.2 推荐系统:矩阵分解344

16.2.1 矩阵分解方法344

16.2.2 ALS-WR算法346

16.2.3 并行版ALS-WR算法347

16.3 搜索引擎:机器学习排序347

16.3.1 机器学习排序简介348

16.3.2 LambdaMART349

16.3.3 分布式LambdaMART351

16.4 自然语言处理:文档相似性计算352

16.5 社交挖掘:谱聚类355

16.5.1 社交挖掘实例355

16.5.2 谱聚类356

16.5.3 并行版谱聚类358

16.6 深度学习:DistBelief358

16.6.1 深度学习简介359

16.6.2 DistBelief360

参考文献364

第17章 增量计算366

17.1 增量计算模式367

17.1.1 两种计算模式367

17.1.2 Hadoop平台下增量计算的一般模式368

17.2 Percolator370

17.2.1 事务支持371

17.2.2 “观察/通知”体系结构373

17.3 Kineograph374

17.3.1 整体架构375

17.3.2 增量计算机制375

17.4 DryadInc376

参考文献377

附录A 硬件体系结构及常用性能指标378

附录B 大数据必读文献380

热门推荐