图书介绍
数据仓库与数据挖掘PDF|Epub|txt|kindle电子书版本网盘下载
- 袁汉宁,王树良,程永,金福生,宋红编著 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115388278
- 出版时间:2015
- 标注页数:200页
- 文件大小:50MB
- 文件页数:208页
- 主题词:数据库系统-高等学校-教材;数据采集-高等学校-教材
PDF下载
下载说明
数据仓库与数据挖掘PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 数据仓库和数据挖掘概述1
1.1 概述1
1.1.1 数据仓库和数据挖掘的目标1
1.1.2 数据仓库与数据挖掘的发展历程2
1.2 数据中心4
1.2.1 关系型数据中心4
1.2.2 非关系型数据中心4
1.2.3 混合型数据中心(大数据平台)6
1.3 混合型数据中心参考架构7
1.3.1 基础设施层8
1.3.2 数据源层8
1.3.3 交换服务体系8
1.3.4 数据存储区9
1.3.5 基础服务层10
1.3.6 应用层12
1.3.7 用户终端层12
1.3.8 数据治理12
1.3.9 元数据管理12
1.3.10 IT安全运维管理13
1.3.11 IT综合监控14
1.3.12 企业资产管理14
思考题14
第2章 数据15
2.1 数据的概念15
2.2 数据的内容15
2.2.1 实时数据与历史数据15
2.2.2 事务数据与时态数据16
2.2.3 图形数据与图像数据16
2.2.4 主题数据与全局数据17
2.2.5 空间数据17
2.2.6 序列数据和数据流18
2.2.7 元数据与数据字典19
2.3 数据属性及数据集20
2.4 数据特征的统计描述21
2.4.1 集中趋势21
2.4.2 离散程度23
2.4.3 数据的分布形状24
2.5 数据的可视化24
2.6 数据相似性与相异性的度量27
2.7 数据质量30
2.8 数据预处理31
2.8.1 被污染的数据31
2.8.2 数据清理33
2.8.3 数据集成34
2.8.4 数据变换35
2.8.5 数据规约36
思考题36
第3章 数据仓库与数据ETL基础37
3.1 从数据库到数据仓库37
3.2 数据仓库的结构38
3.2.1 两层体系结构39
3.2.2 三层体系结构39
3.2.3 组成元素40
3.3 数据仓库的数据模型41
3.3.1 概念模型41
3.3.2 逻辑模型41
3.3.3 物理模型44
3.4 ETL44
3.4.1 数据抽取45
3.4.2 数据转换46
3.4.3 数据加载46
3.5 OLAP47
3.5.1 维47
3.5.2 OLAP与OLTP47
3.5.3 OLAP的基本操作48
3.6 OLAP的数据模型49
3.6.1 ROLAP49
3.6.2 MOLAP50
3.6.3 HOLAP50
思考题51
第4章 数据仓库和ETL工具52
4.1 IBM DB2 V 1052
4.1.1 自适应压缩52
4.1.2 多温度存储53
4.1.3 时间旅行查询54
4.1.4 DB2兼容性功能58
4.1.5 工作负载管理58
4.1.6 PureXML60
4.1.7 当前已落实61
4.1.8 DB2 PureScale Feature61
4.1.9 分区特性63
4.1.10 并行技术65
4.1.11 SQW65
4.1.12 Cubing Services65
4.1.13 列式存储及压缩技术66
4.2 InfoSphere Datastage68
4.2.1 基于Information Server的架构69
4.2.2 企业级实施和管理72
4.2.3 高扩展的体系架构75
4.2.4 具备线性扩充能力77
4.2.5 ETL元数据管理78
4.3 InfoSphere QualityStage78
思考题80
第5章 数据挖掘基础81
5.1 数据挖掘的起源81
5.2 数据挖掘的定义82
5.3 数据挖掘的任务83
5.3.1 分类83
5.3.2 回归分析85
5.3.3 相关分析85
5.3.4 聚类分析85
5.3.5 关联规则87
5.3.6 异常检测88
5.4 数据挖掘标准流程88
5.4.1 商业理解89
5.4.2 数据理解90
5.4.3 数据准备90
5.4.4 建立模型90
5.4.5 模型评估90
5.4.6 发布91
5.5 数据挖掘的十大挑战性问题91
5.5.1 数据挖掘统一理论的探索91
5.5.2 高维数据和高速数据流的研究与应用92
5.5.3 时序数据的挖掘与降噪92
5.5.4 从复杂数据中寻找复杂知识92
5.5.5 网络环境中的数据挖掘92
5.5.6 分布式数据挖掘93
5.5.7 生物医学和环境科学数据挖掘93
5.5.8 数据挖掘过程自动化与可视化93
5.5.9 信息安全与隐私保护93
5.5.10 动态、不平衡及成本敏感数据的挖掘93
思考题94
第6章 数据挖掘算法95
6.1 算法评估概述95
6.1.1 分类算法及评估指标95
6.1.2 聚类算法及其评价指标97
6.2 C4.5 99
6.2.1 信息论基础知识100
6.2.2 ID3算法102
6.2.3 C4.5 算法104
6.2.4 C4.5 算法的实现105
6.2.5 C4.5 的软件实现107
6.3 CART算法109
6.3.1 算法介绍109
6.3.2 算法描述112
6.4 K-Means算法113
6.4.1 基础知识113
6.4.2 算法描述114
6.4.3 算法的软件实现115
6.5 SVM算法116
6.5.1 线性可分SVM116
6.5.2 线性不可分SVM118
6.5.3 参数设置121
6.5.4 SVM算法的软件实现123
6.6 Apriori算法125
6.6.1 基本概念125
6.6.2 Apriori算法126
6.6.3 Apriori算法示例129
6.6.4 Apriori算法的软件实现131
6.7 EM算法131
6.7.1 算法描述132
6.7.2 基于EM的混合高斯聚类133
6.7.3 算法的软件实现134
6.8 PageRank135
6.8.1 PageRank算法发展背景135
6.8.2 PageRank算法描述135
6.8.3 PageRank算法发展138
6.9 Adaboost算法139
6.9.1 集成学习139
6.9.2 Adaboost算法描述140
6.9.3 Adaboost算法实验141
6.10 KNN算法142
6.10.1 KNN算法描述142
6.10.2 KNN算法的软件实现144
6.11 Naive Bayes144
6.11.1 基础知识145
6.11.2 算法描述145
6.11.3 Naive Bayes软件实现147
思考题148
第7章 数据挖掘工具与产品149
7.1 数据挖掘工具概述149
7.1.1 发展过程149
7.1.2 基本类型149
7.1.3 开发者与使用者150
7.2 商业数据挖掘工具IBM SPSS Modeler151
7.2.1 产品概述151
7.2.2 可视化数据挖掘153
7.2.3 SPSS Modeler技术说明156
7.2.4 SPSS Modeler的数据挖掘应用157
7.3 开源数据挖掘工具WEKA158
7.3.1 WEKA数据格式159
7.3.2 WEKA的使用160
思考题161
第8章 数据挖掘案例162
8.1 概述162
8.2 纳税评估示例162
8.2.1 纳税评估监控等级预测的方法163
8.2.2 构建税务行业数据中心164
8.2.3 构建纳税评估监控等级模型166
8.3 税收预测建模示例168
8.4 税务行业纳税人客户细分探索171
8.4.1 客户细分概述171
8.4.2 客户细分的主要研究方法171
8.4.3 构建客户细分模型171
8.5 基于Hadoop平台的数据挖掘175
8.5.1 基于IBM SPSS Analytic Server的数据挖掘175
8.5.2 基于R的数据挖掘175
思考题176
第9章 大数据管理177
9.1 什么是大数据177
9.2 Hadoop介绍178
9.3 NoSQL介绍180
9.3.1 CAP定理181
9.3.2 一致性181
9.3.3 ACID模型182
9.3.4 BASE模型182
9.3.5 MoreSQL/NewSQL182
9.4 InfoSphere BigInsights 3.0介绍183
9.4.1 Big SQL 3.0184
9.4.2 企业集成190
9.4.3 GPFS-FPO192
9.4.4 IBM Adaptive MR192
9.4.5 BigSheets193
9.4.6 高级文本分析195
9.4.7 Solr195
9.4.8 改进工作负载调度196
9.4.9 压缩197
思考题198
参考文献199