图书介绍
大数据分析师权威教程 大数据分析与预测建模PDF|Epub|txt|kindle电子书版本网盘下载
- WROX国家IT认证项目组编 著
- 出版社: 北京:人民邮电出版社
- ISBN:7115463662
- 出版时间:2017
- 标注页数:494页
- 文件大小:86MB
- 文件页数:513页
- 主题词:数据处理-教材
PDF下载
下载说明
大数据分析师权威教程 大数据分析与预测建模PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
模块1 大数据入门3
第1讲 大数据简介3
1.1什么是大数据4
1.1.1大数据的优势5
1.1.2挖掘各种大数据源6
1.2数据管理的历史——大数据的演化7
1.3大数据的结构化9
1.4大数据要素13
1.4.1数据量13
1.4.2速度14
1.4.3多样性14
1.5大数据在商务环境中的应用14
1.6大数据行业中的职业机会16
1.6.1职业机会17
1.6.2所需技能17
1.6.3大数据的未来19
练习20
备忘单22
第2讲 大数据在商业上的应用23
2.1社交网络数据的重要性24
2.2金融欺诈和大数据30
2.3保险业的欺诈检测32
2.4在零售业中应用大数据36
练习40
备忘单42
第3讲 处理大数据的技术43
3.1大数据的分布式和并行计算44
3.1.1并行计算技术46
3.1.2虚拟化及其对大数据的重要性47
3.2 Hadoop简介47
3.3云计算和大数据50
3.3.1大数据计算的特性50
3.3.2云部署模型51
3.3.3云交付模型52
3.3.4大数据云52
3.3.5大数据云市场中的供应商53
3.3.6使用云服务所存在的问题54
3.4大数据内存计算技术54
练习56
备忘单58
第4讲 了解Hadoop生态系统59
4.1 Hadoop生态系统60
4.2用HDFS存储数据61
4.2.1 HDFS架构62
4.2.2 HDFS的一些特殊功能65
4.3利用Hadoop MapReduce处理数据65
4.3.1 MapReduce是如何工作的66
4.3.2 MapReduce的优点和缺点66
4.3.3利用Hadoop YARN管理资源和应用67
4.4利用HBase存储数据68
4.5使用Hive查询大型数据库69
4.6与Hadoop生态系统的交互70
4.6.1 Pig和Pig Latin70
4.6.2 Sqoop71
4.6.3 Zookeeper72
4.6.4 Flume72
4.6.5 Oozie73
练习74
备忘单76
第5讲 MapReduce基础77
5.1 MapReduce的起源78
5.2 MapReduce是如何工作的79
5.3 MapReduce作业的优化技术85
5.3.1硬件/网络拓扑85
5.3.2同步86
5.3.3文件系统86
5.4 MapReduce的应用86
5.5 HBase在大数据处理中的角色87
5.6利用Hive挖掘大数据89
练习91
备忘单94
模块2 分析和R编程入门97
第1讲 理解分析97
1.1分析与报告的对比98
1.1.1报告99
1.1.2分析100
1.2基本和高级分析102
1.3进行分析——需要考虑的事项105
1.3.1正确限定问题的范围105
1.3.2统计显著性还是业务重要性105
1.3.3样本与总体107
1.3.4推理与计算统计数字的对比109
1.4构建分析团队110
1.4.1成为分析师的必备技能110
1.4.2 IT与分析的融合111
练习113
备忘单115
第2讲 分析方法与工具116
2.1分析方法的演变117
2.1.1集成方法117
2.1.2商品化模型118
2.1.3文本分析120
2.1.4文本分析的挑战121
2.2分析工具的演变122
2.3分析工具分类123
2.3.1图形用户界面的兴起123
2.3.2点解决方案的大爆发123
2.3.3数据可视化工具125
2.4一些流行的分析工具127
2.4.1用于统计计算的R项目127
2.4.2 IBM SPSS128
2.4.3 SAS130
2.5分析工具之间的对比131
练习133
备忘单135
第3讲 探索R136
3.1安装R137
3.2使用脚本工作138
3.2.1RGui138
3.2.2 RStudio140
3.2.3 “Hello world!”141
3.2.4简单数学运算141
3.2.5 R中的数学运算142
3.2.6使用向量143
3.2.7保存和计算数值144
3.2.8回应用户146
3.3浏览工作区149
3.3.1操纵工作区内容149
3.3.2保存工作150
3.3.3检索工作150
练习151
备忘单153
第4讲 将数据集读入R,从R导出数据154
4.1使用c()命令创建数据155
4.1.1输入数值项作为数据155
4.1.2输入文本项作为数据156
4.2在R中使用scan()命令获取数据157
4.2.1输入文本作为数据158
4.2.2使用剪贴板制作数据158
4.2.3从磁盘读取数据文件160
4.3读取更大的数据文件162
4.3.1 read.csv()命令163
4.3.2在R中读取数据的其他命令164
4.3.3数据文件中的缺失值167
4.4从R导出数据169
4.5在R中保存你的工作169
4.5.1将数据文件保存到磁盘170
4.5.2保存命名对象170
4.5.3保存所有操作170
4.5.4以文本文件形式保存数据到磁盘171
4.5.5将向量对象写入磁盘171
4.5.6将矩阵和数据帧对象写入磁盘172
4.5.7将列表对象写入磁盘172
练习174
备忘单176
第5讲 在R中操纵和处理数据177
5.1确定最合适的数据结构178
5.2创建数据的子集179
5.2.1指定子集179
5.2.2构造数据帧的子集180
5.2.3从数据中取得样本180
5.2.4数据子集的应用182
5.3在数据中添加计算得到的字段184
5.3.1在数据帧列上执行算术运算184
5.3.2创建数据子组或者bin184
5.4在R中组合和合并数据集186
5.4.1创建样本数据以说明合并的方法187
5.4.2使用merge()函数188
5.4.3合并类型189
5.4.4使用查找表190
5.5分类和排序数据190
5.5.1向量的排序191
5.5.2数据帧的排序191
5.5.3用apply()函数遍历数据193
5.6公式接口简介196
5.7数据整形196
5.7.1理解长格式和宽格式数据197
5.7.2从reshape2程序包入手198
5.7.3将数据“熔化”为长格式199
练习202
备忘单204
模块3 使用R进行数据分析207
第1讲 使用R中的函数和包207
1.1从脚本到函数209
1.1.1创建脚本209
1.1.2将脚本转变为函数210
1.1.3使用函数211
1.1.4减少行数212
1.2巧妙地使用参数214
1.2.1增加更多参数214
1.2.2使用点参数216
1.2.3使用函数作为参数218
1.3函数作用域219
1.3.1外部函数219
1.3.2使用内部函数221
1.4指派方法222
1.4.1寻找函数背后的方法223
1.4.2以UseMethod()函数使用方法223
1.5程序包225
1.5.1为Windows安装程序包225
1.5.2为Linux安装程序包225
1.6程序包的使用227
1.6.1加载程序包227
1.6.2卸载程序包227
练习228
备忘单230
第2讲 R中的描述性统计231
2.1汇总命令232
2.2名称命令234
2.3汇总样本235
2.4累积统计信息239
2.4.1简单累计命令239
2.4.2复杂累积命令241
2.5数据帧的汇总统计242
2.5.1数据帧的通用汇总命令242
2.5.2专用的行和列汇总命令243
2.5.3用于行/列汇总的apply()命令243
2.6矩阵对象的汇总统计244
2.7列表的汇总统计246
2.8列联表247
2.8.1建立列联表247
2.8.2选择表对象的各个部分253
2.8.3测试表对象255
2.8.4复杂(扁平)表256
2.8.5测试“扁平”表对象260
2.8.6表的汇总命令260
2.9交叉表262
练习267
备忘单269
第3讲 用函数、循环和数据帧分析数据270
3.1矩阵、列表和数据帧271
3.1.1矩阵271
3.1.2列表272
3.1.3数据帧——数据集273
3.2向量、矩阵和列表的索引273
3.2.1向量的索引273
3.2.2矩阵的索引274
3.2.3列表的索引275
3.3 R编程276
3.3.1表达式、赋值和算术运算符276
3.3.2成组的表达式277
3.3.3条件执行——if和ifelse278
3.3.4重复执行——循环278
3.4 RHadoop280
3.4.1安装RHadoop281
3.4.2创建用户定义函数281
练习283
备忘单285
第4讲 R中的图形分析286
4.1为单变量绘图287
4.1.1直方图288
4.1.2索引图292
4.1.3时间序列图293
4.1.4饼图294
4.1.5 stripchart函数294
4.2绘制双变量图表295
4.2.1根据两个连续解释变量绘制图表:散点图296
4.2.2使用分类解释变量绘图309
4.3多重比较图表312
4.4绘制多变量图表315
4.4.1 pairs函数315
4.4.2 coplot函数316
4.4.3相互作用图表316
4.5特殊图表317
4.5.1设计图318
4.5.2气泡图318
4.5.3有许多相同值的图表319
4.6将图形保存到外部文件320
练习322
备忘单324
第5讲 R中的假设检验325
5.1统计假设简介326
5.1.1假设检验327
5.1.2决策错误327
5.2使用学生t检验327
5.2.1使用不相等方差的双样本t检验328
5.2.2使用相等方差的双样本t检验328
5.2.3单样本t检验328
5.2.4 t检验中的公式语法和样本子集构建329
5.3 u检验333
5.3.1双样本u检验333
5.3.2单样本u检验334
5.3.3 u检验中的公式语法和样本子集构建335
5.4配对t检验和u检验338
5.4.1相关和协方差340
5.4.2协方差342
5.4.3相关检验中的显著性检验343
5.4.4公式语法343
5.5关联分析检验346
5.6拟合优度检验348
练习352
备忘单354
模块4 使用R进行高级分析357
第1讲 R中的线性回归357
1.1线性回归分析基础知识358
1.1.1简单线性回归358
1.1.2多重线性回归359
1.1.3最小二乘估计360
1.1.4检查模型适当性361
1.1.5回归输出的解读363
1.1.6回归假设364
1.1.7多重共线性365
1.1.8检测多重共线性365
1.2使用线性回归进行工作367
1.2.1确定x和y变量367
1.2.2检查条件368
1.2.3回归线的计算368
1.2.4求取斜率369
1.2.5求取y截距369
1.2.6回归线的解读369
1.2.7做出正确的预测371
1.3 R中的简单线性回归371
1.3.1 R的5个著名函数371
1.3.2校正的平方和及乘积和372
1.3.3分散度372
1.3.4回归中的方差分析373
1.3.5 AIC373
1.3.6参数不可靠性的估算373
1.3.7用拟合模型预测374
1.3.8检查模型374
1.4线性模型结果对象375
1.4.1系数377
1.4.2拟合值377
1.4.3残差378
1.4.4公式378
1.4.5最佳拟合线378
1.5模型的构建379
1.5.1用前向逐步回归增加项380
1.5.2用后向删除方法删除项382
1.5.3模型的比较383
1.6曲线回归384
练习386
备忘单389
第2讲 非线性回归390
2.1非线性回归分析简介391
2.2非线性回归和广义线性模型391
2.3逻辑回归392
2.3.1解读逻辑回归中的β系数394
2.3.2计算β系数395
2.3.3具有交互变量的逻辑回归395
2.3.4具有指示变量的逻辑回归396
2.3.5逻辑回归模型适当性检查396
2.3.6使用逻辑回归线进行预测397
2.4用MLE进行线估算400
2.5将非线性模型转化为线性模型401
2.6其他非线性回归模型402
2.7广义加性模型406
2.8自启动函数407
2.8.1自启动Michaelis-Menten模型407
2.8.2自启动渐近指数模型408
2.8.3轮廓似然409
2.8.4自启动逻辑409
2.8.5自启动四参数逻辑409
2.8.6自启动Weibull增长函数410
2.8.7自启动一阶房室函数411
2.9用拔靴法建立一个非线性回归家族411
2.10逻辑回归的应用413
2.10.1贷款接纳414
2.10.2德国信用数据414
2.10.3延误的航班415
练习416
备忘单418
第3讲 聚类分析419
3.1聚类简介421
3.1.1聚类的应用421
3.1.2聚类的复杂性422
3.1.3距离计量422
3.1.4簇内和簇间平方和423
3.1.5高效聚类的属性424
3.2凝聚层次聚类425
3.2.1主要距离426
3.2.2密度估算方法427
3.3相似性聚合聚类428
3.3.1相似性聚合的原理428
3.3.2相似性聚合聚类的实施428
3.4 Ramap包的用法429
3.5 k均值聚类431
3.6 R聚类示例:欧洲人的蛋白质摄入431
3.7 R聚类示例:美国月度失业率434
3.8在R中实施层次聚类435
3.8.1例1:重温欧洲人蛋白质摄入435
3.8.2例2:重温美国月度失业率436
练习437
备忘单439
第4讲 决策树440
4.1决策树的应用441
4.2决策树原理444
4.2.1选择变量——创建树的第1步444
4.2.2拆分标准445
4.2.3为节点分配数据——创建树的第2步447
4.2.4修剪——创建树的第3步447
4.3构建决策树448
4.3.1决策树如何确定纯度?449
4.3.2使用决策树时的实际考虑因素450
4.3.3决策树选项451
4.4 CART、C5.0和CHAID树451
4.4.1 CART452
4.4.2 C5.0454
4.4.3 CHAID455
4.4.4决策树对比456
4.5用决策树预测457
4.6决策树的优缺点458
4.6.1决策树的优点458
4.6.2决策树的缺点458
4.7在R中构建决策树459
练习462
备忘单464
第5讲 R和Hadoop的集成及Hive介绍465
5.1 Hadoop466
5.1.1 HDFS467
5.1.2 MapReduce468
5.1.3 Hadoop的应用468
5.2集成R和Hadoop——RHadoop469
5.2.1安装RHadoop470
5.2.2在R中使用RHadoop472
5.3通过文本挖掘得到有用信息474
5.4 Hive简介477
5.4.1元存储477
5.4.2数据库477
5.4.3数据类型477
5.4.4查询语言478
5.4.5 Hive命令478
5.4.6 Hive交互和非交互模式479
练习480
备忘单482
附录A 在R中可以完成的10件 Microsoft Excel工作484