图书介绍
Hadoop大数据实战权威指南PDF|Epub|txt|kindle电子书版本网盘下载
![Hadoop大数据实战权威指南](https://www.shukui.net/cover/49/30476282.jpg)
- 黄东军编著 著
- 出版社: 北京:电子工业出版社
- ISBN:9787121318214
- 出版时间:2017
- 标注页数:362页
- 文件大小:38MB
- 文件页数:376页
- 主题词:数据处理软件-指南
PDF下载
下载说明
Hadoop大数据实战权威指南PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一篇 大数据的基本概念和技术3
第1章 绪论3
1.1时代背景3
1.1.1全球大数据浪潮3
1.1.2我国的大数据国家战略5
1.2大数据的概念7
1.2.1概念7
1.2.2特征8
1.3技术支撑体系9
1.3.1概览9
1.3.2大数据采集层9
1.3.3大数据存储层10
1.3.4大数据分析(处理与服务)层11
1.3.5大数据应用层11
1.3.6垂直视图13
1.4大数据人才及其能力要求14
1.4.1首席数据官14
1.4.2数据科学家(数据分析师)15
1.4.3大数据开发工程师16
1.4.4大数据运维工程师17
1.5本章小结17
第2章Hadoop大数据关键技术19
2.1 Hadoop生态系统19
2.1.1架构的基本理论19
2.1.2主要组件及其关系21
2.2数据采集24
2.2.1结构化数据采集工具24
2.2.2日志文件采集工具与技术25
2.3大数据存储技术29
2.3.1相关概念29
2.3.2分布式文件存储系统34
2.3.3数据库与数据仓库38
2.4分布式计算框架43
2.4.1离线计算框架43
2.4.2实时流计算平台50
2.5数据分析平台与工具57
2.5.1面向大数据的数据挖掘与分析工具57
2.5.2机器学习61
2.6本章小结66
第二篇Hadoop大数据平台搭建与基本应用69
第3章Linux操作系统与集群搭建69
3.1 Linux操作系统69
3.1.1概述69
3.1.2特点70
3.1.3 Linux的组成72
3.2 Linux安装与集群搭建75
3.2.1安装VMware Workstation75
3.2.2在VMware上安装Linux (CentOS7)79
3.3集群的配置91
3.3.1设置主机名91
3.3.2网络设置93
3.3.3关闭防火墙98
3.3.4安装JDK99
3.3.5免密钥登录配置102
3.4 Linux基本命令105
3.5本章小结112
第4章HDFS安装与基本应用113
4.1 HDFS概述113
4.1.1特点113
4.1.2主要组件与架构114
4.2 HDFS架构分析114
4.2.1数据块114
4.2.2 NameNode115
4.2.3 DataNode116
4.2.4 Secondary NameNode117
4.2.5数据备份117
4.2.6通信协议118
4.2.7可靠性保证118
4.3文件操作过程分析119
4.3.1读文件119
4.3.2写文件120
4.3.3删除文件122
4.4 Hadoop HDFS安装与配置122
4.4.1解压H adoop安装包122
4.4.2配置Hadoop环境变量123
4.4.3配置Yarn环境变量124
4.4.4配置核心组件文件125
4.4.5配置文件系统125
4.4.6配置yarn-site.xml文件126
4.4.7配置MapReduce计算框架文件128
4.4.8配置Master的slaves文件129
4.4.9复制Master上的Hadoop到Slave节点129
4.5 Hadoop集群的启动130
4.5.1配置操作系统环境变量130
4.5.2创建Hadoop数据目录131
4.5.3格式化文件系统132
4.5.4启动和关闭Hadoop133
4.5.5验证Hadoop是否启动成功133
4.6 Hadoop集群的基本应用136
4.6.1 HDFS基本命令136
4.6.2在Hadoop集群中运行程序139
4.7本章小结141
第5章MapReduce与Yarn143
5.1 MapReduce程序的概念143
5.1.1基本编程模型143
5.1.2计算过程分析144
5.2深入理解Yarn147
5.2.1 Yarn的基本架构147
5.2.2 Yarn的工作流程151
5.3在Linux平台安装Eclipse152
5.3.1 Eclipse简介153
5.3.2安装并启动Eclipse154
5.4开发MapReduce程序的基本方法155
5.4.1为Eclipse安装Hadoop插件156
5.4.2 WordCount:第一个MapReduce程序160
5.5本章小结175
第6章Hive和HBase的安装与应用177
6.1在CentOS7下安装MySQL177
6.1.1下载或复制MySQL安装包177
6.1.2执行安装命令178
6.1.3启动MySQL179
6.1.4登录MySQL179
6.1.5使用MySQL181
6.1.6问题与解决办法182
6.2 Hive安装与应用183
6.2.1下载并解压Hive安装包183
6.2.2配置Hive184
6.2.3启动并验证Hive187
6.2.4 Hive的基本应用189
6.3 ZooKeeper集群安装190
6.3.1 ZooKeeper简介190
6.3.2安装ZooKeeper191
6.3.3配置ZooKeeper191
6.3.4启动和测试193
6.4 HBase的安装与应用195
6.4.1解压并安装HBase195
6.4.2配置HBase196
6.4.3启动并验证HBase199
6.4.4 HBase的基本应用200
6.4.5应用HBase中常见问题及其解决办法203
6.5本章小结204
第7章Sqoop和Kafka的安装与应用205
7.1安装部署Sqoop205
7.1.1下载或复制Sqoop安装包205
7.1.2解压并安装Sqoop206
7.1.3配置Sqoop206
7.1.4启动并验证Sqoop208
7.1.5测试Sqoop与MySQL的连接209
7.2安装部署Kafka集群211
7.2.1下载或复制Kafka安装包211
7.2.2解压缩Kafka安装包211
7.2.3配置Kafka集群211
7.2.4 Kafka的初步应用213
7.3本章小结218
第8章Spark集群安装与开发环境配置219
8.1深入理解Spark219
8.1.1 Spark系统架构219
8.1.2关键概念221
8.2安装与配置Scala224
8.2.1下载Scala安装包225
8.2.2安装Scala225
8.2.3启动并应用Scala226
8.3 Spark集群的安装与配置226
8.3.1安装模式226
8.3.2 Spark的安装227
8.3.3启动并验证Spark230
8.3.4几点说明234
8.4开发环境安装与配置236
8.4.1 IDEA简介236
8.4.2 IDEA的安装236
8.4.3 IDEA的配置238
8.5本章小结243
第9章Spark应用基础245
9.1 Spark程序的运行模式245
9.1.1 Spark on Yarn-cluster245
9.1.2 Spark on Yarn-client246
9.2 Spark应用设计247
9.2.1分布式估算圆周率248
9.2.2基于Spark MLlib的贷款风险预测265
9.3本章小结285
第三篇 数据处理与项目开发术289
第10章 交互式数据处理289
10.1数据预处理289
10.1.1查看数据289
10.1.2数据扩展291
10.1.3数据过滤292
10.1.4数据上传293
10.2创建数据仓库294
10.2.1创建Hive数据仓库的基本命令294
10.2.2创建Hive分区表296
10.3数据分析299
10.3.1基本统计299
10.3.2用户行为分析301
10.3.3实时数据303
10.4本章小结304
第11章 协同过滤推荐系统305
11.1推荐算法概述305
11.1.1基于人口统计学的推荐305
11.1.2基于内容的推荐306
11.1.3协同过滤推荐307
11.2协同过滤推荐算法分析308
11.2.1基于用户的协同过滤推荐308
11.2.2基于物品的协同过滤推荐310
11.3 Spark MLlib推荐算法应用312
11.3.1 ALS算法原理312
11.3.2 ALS的应用设计315
11.4本章小结329
第12章 销售数据分析系统331
12.1数据采集331
12.1.1在Windows下安装JDK331
12.1.2在Windows下安装Eclipse334
12.1.3将WebCollector项目导入Eclipse335
12.1.4在Windows下安装MySQL336
12.1.5连接JDBC339
12.1.6运行爬虫程序340
12.2在HBase集群上准备数据342
12.2.1将数据导入到MySQL342
12.2.2将MySQL表中的数据导入到HBase表中344
12.3安装Phoenix中间件347
12.3.1 Phoenix架构347
12.3.2解压安装Phoenix348
12.3.3 Phoenix环境配置349
12.3.4使用Phoenix350
12.4基于Web的前端开发353
12.4.1将Web前端项目导入Eclipse353
12.4.2安装Tomcat355
12.4.3在Eclipse中配置Tomcat355
12.4.4在Web浏览器中查看执行结果359
12.5本章小结361