图书介绍

Storm分布式实时计算模式PDF|Epub|txt|kindle电子书版本网盘下载

Storm分布式实时计算模式
  • (美)吉奥兹,(美)奥尼尔著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111484387
  • 出版时间:2015
  • 标注页数:252页
  • 文件大小:32MB
  • 文件页数:272页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Storm分布式实时计算模式PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 分布式单词计数1

1.1 Storm topology的组成部分——stream、spout和bolt1

1.1.1 stream2

1.1.2 spout2

1.1.3 bolt2

1.2 单词计数topology的数据流3

1.2.1 语句生成spout3

1.2.2 语句分割bolt3

1.2.3 单词计数bolt4

1.2.4 上报bolt4

1.3 实现单词计数topology4

1.3.1 配置开发环境4

1.3.2 实现SentenceSpout5

1.3.3 实现语句分割bolt6

1.3.4 实现单词计数bolt7

1.3.5 实现上报bolt8

1.3.6 实现单词计数topology10

1.4 Storm的并发机制12

1.4.1 WordCountTopology的并发机制13

1.4.2 给topology增加worker14

1.4.3 配置executor和task14

1.5 理解数据流分组17

1.6 有保障机制的数据处理20

1.6.1 spout的可靠性20

1.6.2 bolt的可靠性21

1.6.3 可靠的单词计数22

总结23

第2章 配置Storm集群24

2.1 Storm集群的框架24

2.1.1 理解nimbus守护进程25

2.1.2 supervisor守护进程的工作方式26

2.1.3 Apache ZooKeeper简介26

2.1.4 Storm的DRPC服务工作机制27

2.1.5 Storm UI27

2.2 Storm技术栈简介28

2.2.1 Java和Clojure28

2.2.2 Python29

2.3 在Linux上安装Storm29

2.3.1 安装基础操作系统30

2.3.2 安装Java30

2.3.3 安装ZooKeeper30

2.3.4 安装Storm30

2.3.5 运行Storm守护进程31

2.3.6 配置Storm33

2.3.7 必需的配置项34

2.3.8 可选配置项35

2.3.9 Storm可执行程序36

2.3.10 在工作站上安装Storm可执行程序36

2.3.11 守护进程命令37

2.3.12 管理命令37

2.3.13 本地调试/开发命令39

2.4 把toplogy提交到集群中40

2.5 自动化集群配置42

2.6 Puppet的快速入门43

2.6.1 Puppet manifest文件43

2.6.2 Puppet类和模块44

2.6.3 Puppet模板45

2.6.4 使用Puppet Hiera来管理环境46

2.6.5 介绍Hiera46

总结48

第3章 Trident和传感器数据49

3.1 使用场景50

3.2 Trident topology50

3.3 Trident spout52

3.4 Trident运算57

3.4.1 Trident filter58

3.4.2 Trident function59

3.5 Trident聚合器63

3.5.1 CombinerAggregator63

3.5.2 ReducerAggregator63

3.5.3 Aggregator64

3.6 Trident状态65

3.6.1 重复事务型状态69

3.6.2 不透明型状态70

3.7 执行topology72

总结73

第4章 实时趋势分析74

4.1 应用场景75

4.2 体系结构75

4.2.1 数据源应用程序75

4.2.2 logback Kafka appender76

4.2.3 Apache Kafka76

4.2.4 Kafka spout76

4.2.5 XMPP服务器76

4.3 安装需要的软件77

4.3.1 安装Kafka77

4.3.2 安装OpenFire78

4.4 示例程序78

4.5 日志分析topology84

4.5.1 Kafka spout84

4.5.2 JSON project function85

4.5.3 计算移动平均值86

4.5.4 添加一个滑动窗口87

4.5.5 实现滑动平均function91

4.5.6 按照阈值进行过滤92

4.5.7 通过XMPP发送通知94

4.6 最终的topology96

4.7 运行日志分析topology98

总结99

第5章 实时图形分析100

5.1 使用场景101

5.2 体系结构102

5.2.1 Twitter客户端102

5.2.2 Kafka spout102

5.2.3 Titan分布式图形数据库103

5.3 图形数据库简介103

5.3.1 访问图——TinkerPop栈104

5.3.2 使用Blueprints API操作图形105

5.3.3 通过Gremlin shell操作图形106

5.4 软件安装107

5.5 使用Cassandra存储后端设置Titan109

5.5.1 安装Cassandra109

5.5.2 使用Cassandra后端启动Titan109

5.6 图数据模型110

5.7 连接Twitter数据流111

5.7.1 安装Twitter4J客户端112

5.7.2 OAuth配置112

5.7.3 TwitterStreamConsumer类112

5.7.4 TwitterStatusListener类113

5.8 Twitter graph topology115

5.9 实现GraphState116

5.9.1 GraphFactory117

5.9.2 GraphTupleProcessor117

5.9.3 GraphStateFactory117

5.9.4 GraphState118

5.9.5 GraphUpdater119

5.10 实现GraphFactory119

5.11 实现GraphTupleProcessor120

5.12 组合成TwitterGraph Topology类121

5.13 使用Gremlin查询图122

总结123

第6章 人工智能124

6.1 为应用场景进行设计125

6.2 确立体系结构128

6.2.1 审视设计中的挑战128

6.2.2 实现递归128

6.2.3 解决这些挑战132

6.3 实现体系结构133

6.3.1 数据模型133

6.3.2 检视Recursive Topology136

6.3.3 队列交互138

6.3.4 function和filter140

6.3.5 研究Scoring Topology141

6.3.6 分布式远程命令调用(DRPC)146

总结152

第7章 整合Druid进行金融分析153

7.1 使用场景154

7.2 集成一个非事务系统155

7.3 topology158

7.3.1 spout159

7.3.2 filter161

7.3.3 状态设计162

7.4 实现体系结构165

7.4.1 DruidState166

7.4.2 实现StormFirehose对象169

7.4.3 在ZooKeeper中实现分片状态174

7.5 执行实现的程序175

7.6 检视分析过程176

总结179

第8章 自然语言处理180

8.1 Motivating Lambda结构181

8.2 研究使用场景183

8.3 实现Lambda architecture184

8.4 为应用场景设计topology185

8.5 设计的实现186

8.5.1 TwitterSpout/TweetEmitter187

8.5.2 function188

8.6 检视分析逻辑191

8.7 Hadoop196

8.7.1 MapReduce概览196

8.7.2 Druid安装197

总结204

第9章 在Hadoop上部署Storm进行广告分析205

9.1 应用场景205

9.2 确定体系结构206

9.2.1 HDFS简介208

9.2.2 YARN简介208

9.3 配置基础设施211

9.3.1 Hadoop基础设施211

9.3.2 配置HDFS212

9.4 部署分析程序217

9.4.1 以Pig为基础执行批处理分析217

9.4.2 在Storm-YARN基础上执行实时分析218

9.5 执行分析223

9.5.1 执行批处理分析223

9.5.2 执行实时分析224

9.6 部署topology229

9.7 执行toplogy229

总结230

第10章 云环境下的Storm231

10.1 Amazon Elastic Compute Cloud简介232

10.1.1 建立AWS帐号232

10.1.2 AWS管理终端232

10.1.3 手工启动一个EC2实例234

10.2 Apache Whirr简介236

10.3 使用Whirr配置Storm集群237

10.4 Whirr Storm简介239

10.5 Vagrant简介243

10.5.1 安装Vagrant243

10.5.2 创建第一个虚拟机244

10.6 生成Storm安装准备脚本247

10.6.1 ZooKeeper247

10.6.2 Storm248

10.6.3 Supervisord249

总结252

热门推荐